专利一种人机交互方法、装置及电子设备 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210272951.9 (22)申请日 2022.03.18 (71)申请人支付宝（杭州）信息技术有限公司地址 310000 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 (72)发明人杨世辉　 (74)专利代理机构北京国昊天诚知识产权代理有限公司 1 1315 专利代理师许振新 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/194(2020.01) G06F 16/33(2019.01) G06F 16/332(2019.01) G10L 15/18(2013.01) (54)发明名称一种人机交互方法、装置及电子设备 (57)摘要本说明书实施例提供一种人机交互方法、装置及电子设备。方法包括：基于流式的语音识别技术，对用户在人机交互输入的语音内容进行识别，其中，所述人机交互对应所述用户的语音输入通道和对应机器人的语音播放通道相互独立。在识别得到第一语音内容时，将所述第一语音内容的语义意图和所述用户相对所述第一语音内容的历史语义意图进行融合，得到目标语义意图。如果所述目标语义意图属于可执行语义意图，则基于所述目标语义意图执行对应的语义执行操作。如果目标语义意图属于不可执行语义意图，则对所述目标语义意图进行缓存，以作为相对下次识别到的第二语音内容的历史语义意图。权利要求书2页说明书10页附图2页 CN 114662500 A 2022.06.24 CN 114662500 A 1.一种人机交互方法，包括：基于流式的语音识别技术，对用户在人机交互输入的语音内容进行识别；在识别得到第一语音内容时，将所述第一语音内容的语义意图和所述用户相对所述第一语音内容的历史语义意图进行融合，得到目标语义意图；如果所述目标语义意图属于可执行语义意图，则基于所述目标语义意图执行对应的语义执行操作；如果目标语义意图属于不可执行语义意图，则对所述目标语义意图进行缓存，以作为相对下次识别到的第二语音内容的历史语义意图。 2.根据权利要求1所述的方法，所述可执行语义意图包括：最终语义意图和完整语义意图；其中，所述最终语义意图是指被所述语音识别技术断句时所识别的语义意图，所述完整语义意图是指在被所述语音识别技术断句前，提前体现出用户完整意图的语义意图，所述目标语义对应所述最终语义意图和所述完整语义意图的语义执行操作为：基于所述目标语义意图对应的回复内容进行语音播报，所述人机交互对应所述用户的语音输入通道和对应机器人的语音播放通道相互独立。 3.根据权利要求1所述的方法，所述可执行语义意图还包括：播报打断意图；其中，所述目标语义对应所述播报打断意图的语义执行操作为：停止语音播报。 4.根据权利要求3所述的方法，若所述目标语义意为播报打断意图，则所述方法还包括：将所述用户相对所述第一语音内容的历史语义意图沿用为相对所述第二语音内容的历史语义意图。 5.根据权利要求1所述的方法，将所述第一语音内容的语义意图和所述用户相对所述第一语音内容的历史语义意图进行意图融合，得到目标语义意图，包括：基于所述用户相对所述第一语音内容的历史语音内容与所述第一语音内容之间的文本内容差异度和/或文本长度差异度，确定所述用户相对所述第一语音内容的历史语音内容是否满足融合标准，其中，所述用户相对第一语音内容的历史语音内容是指所述语音识别技术在上一次断句后到获得所述第一语音内容前所得到的语音内容；若所述用户相对所述第一语音内容的历史语音内容满足所述预设融合标准，则将所述第一语音内容的语义意图和所述用户相对所述第一语音内容的历史语音内容进行意图融合，得到目标语义意图。 6.根据权利要求5所述的方法，还包括若所述用户相对所述第一语音内容的历史语音内容不满足所述预设融合标准，则将所述第一语音内容的语义意图作为所述目标语义意图。 7.根据权利要求5所述的方法，还包括：基于之前的可执行语义意图与所述目标语意意图之间的意图关联关系，和/或，之前的可执行语义意图所对应的语音内容与所述第一语音内容之间的上下文关联关系，评估所述目标语义意图的置信度，其中，若所述目标语义意图的评估结果满足预设置信度标准，则对权　利　要　求　书 1/2 页 2 CN 114662500 A 2所述目标语义意图进行可执行语义意图和不可执行语义意图的判断。 8.一种人机交互装置，包括：语音识别模块，基于流式的语音识别技术，对用户在人机交互输入的语音内容进行识别；语义意图融合模块，在识别得到第一语音内容时，将所述第一语音内容的语义意图和所述用户相对所述第一语音内容的历史语义意图进行融合，得到目标语义意图；语义意图执行模块，如果所述目标语义意图属于可执行语义意图，则基于所述目标语义意图执行对应的语义执行操作；语义意图缓存模块，如果目标语义意图属于不可执行语义意图，则对所述目标语义意图进行缓存，以作为相对下次识别到的第二语音内容的历史语义意图。 9.一种电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行：基于流式的语音识别技术，对用户在人机交互输入的语音内容进行识别；在识别得到第一语音内容时，将所述第一语音内容的语义意图和所述用户相对所述第一语音内容的历史语义意图进行融合，得到目标语义意图；如果所述目标语义意图属于可执行语义意图，则基于所述目标语义意图执行对应的语义执行操作；如果目标语义意图属于不可执行语义意图，则对所述目标语义意图进行缓存，以作为相对下次识别到的第二语音内容的历史语义意图。 10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：基于流式的语音识别技术，对用户在人机交互输入的语音内容进行识别；在识别得到第一语音内容时，将所述第一语音内容的语义意图和所述用户相对所述第一语音内容的历史语义意图进行融合，得到目标语义意图；如果所述目标语义意图属于可执行语义意图，则基于所述目标语义意图执行对应的语义执行操作；如果目标语义意图属于不可执行语义意图，则对所述目标语义意图进行缓存，以作为相对下次识别到的第二语音内容的历史语义意图。权　利　要　求　书 2/2 页 3 CN 114662500 A 3

专利 一种人机交互方法、装置及电子设备

专利一种人机交互方法、装置及电子设备