(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210199238.6
(22)申请日 2022.03.02
(71)申请人 杭州网易再顾科技有限公司
地址 310052 浙江省杭州市滨江区长河街
道网商路59 9号4幢411室
(72)发明人 马勇强 杨杰 罗晓华
(74)专利代理 机构 北京律智知识产权代理有限
公司 11438
专利代理师 王辉
(51)Int.Cl.
G06K 9/62(2022.01)
G06N 5/02(2006.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
文本匹配方法、 装置、 存 储介质及电子设备
(57)摘要
本公开涉及计算机技术领域, 公开了一种文
本匹配方法及装置、 存储介质及电子设备。 该方
法包括: 将用户的输入文本与所述输入文本对应
的候选问题文本进行特征交叉处理, 得到问题交
叉向量; 将所述输入文本与所述候选问题文本的
答案文本进行特征交叉处理, 得到答案交叉向
量; 将用户交互信息进行特征向量转换, 得到第
一向量表 示, 将所述候选问题文本的问题结构化
信息进行特征向量转换, 得到第二向量表示; 将
对应于同一候选问题文本的问题交叉向量、 答案
交叉向量、 第一向量表示和第二向量表示进行融
合处理, 得到每个候选问题文本的目标向量, 并
基于所述目标向量从所述候选问题文本中确定
所述输入文本的匹配结果。 本公开能提升文本匹
配的准确度。
权利要求书2页 说明书14页 附图6页
CN 114548314 A
2022.05.27
CN 114548314 A
1.一种文本匹配方法, 其特 征在于, 包括:
将用户的输入文本与 所述输入文本对应的候选问题文本进行特征交叉处理, 得到问题
交叉向量;
将所述输入文本与 所述候选问题文本的答案文本进行特征交叉处理, 得到答案交叉向
量;
将所述用户的用户交互信息进行特征向量转换, 得到第一向量表示, 并将所述候选问
题文本的问题结构化信息进行 特征向量转换, 得到第二向量表示;
将对应于同一候选问题文本的问题交叉向量、 答案交叉向量、 第一向量表示和第二向
量表示进行融合处理, 得到每个候选 问题文本的目标向量, 并基于所述 目标向量从所述候
选问题文本中确定所述输入文本的匹配结果。
2.根据权利要求1所述的方法, 其特征在于, 所述将用户的输入文本与 所述输入文本对
应的候选问题文本进行 特征交叉处 理, 得到问题交叉向量, 包括:
将所述输入文本、 候选问题文本分别输入至预训练的语言表征模型, 得到输入文本向
量、 候选问题向量;
将所述输入文本向量与候选问题向量进行 特征交叉处 理, 得到所述问题交叉向量。
3.根据权利要求2所述的方法, 其特征在于, 所述将所述输入文本与 所述候选问题文本
的答案文本进行 特征交叉处 理, 得到答案交叉向量, 包括:
将所述答案文本 输入至所述预训练的语言表征模型, 得到答案文本向量;
将所述输入文本向量与所述答案文本向量进行特征交叉处理, 得到所述答案交叉向
量。
4.根据权利要求1所述的方法, 其特征在于, 所述用户交互信 息和候选问题文本的问题
结构化信息中均包含离散信息和连续信息, 所述用户交互信息中的第一连续信息为所述用
户在第一预设时间内的历史交互行为的统计信息, 所述问题结构化信息中的第二连续信息
为所述候选问题文本在第二预设时间内发生的历史 交互行为的统计信息;
所述将所述用户的用户交互信息进行特征向量转换, 得到第一向量表示, 并将所述候
选问题文本的问题结构化信息进行 特征向量转换, 得到第二向量表示, 包括:
确定所述离散信 息的类目标识, 并根据所述类目标识对应的随机初始化向量确定所述
离散信息的第一子向量, 所述第一子向量包括对应于所述用户交互信息中第一离散信息的
第一用户子向量和对应于所述问题结构化信息中第二离 散信息的第一问题子向量;
对所述连续信息进行标准化处理, 并根据标准化处理后的连续信息形成第二子向量,
所述第二子 向量包括对应于所述第一连续信息的第二用户子 向量和对应于所述第二连续
信息的第二问题子向量;
将所述第一用户子向量与所述第二用户子向量进行融合处理, 得到所述第一向量表
示;
将所述第一问题子向量与所述第二问题子向量进行融合处理, 得到所述第二向量表
示。
5.根据权利要求4所述的方法, 其特征在于, 所述对所述连续信息进行标准化处理, 并
根据标准 化处理后的连续信息形成第二子向量, 包括:
根据所述连续信息的信息来源, 形成多个对应于不同信息来源的连续信息组;权 利 要 求 书 1/2 页
2
CN 114548314 A
2将各所述连续信息组经 预设的参数矩阵进行 标准化处理;
将标准化处理后的连续信息组进行融合处 理, 得到所述第二子向量。
6.根据权利要求4或5所述的方法, 其特征在于, 在所述将用户的输入文本与所述输入
文本对应的候选问题文本进行 特征交叉处 理, 得到问题交叉向量之前, 所述方法还 包括:
获取问题标签信息, 根据所述问题标签信息生成标签类目树结构, 所述标签类目树结
构中的每个标签节点具有类目标识和对应的随机初始化向量, 所述标签类目树结构的叶子
结点对应于不同的待匹配问题文本 。
7.根据权利要求6所述的方法, 其特征在于, 确定所述用户交互信 息中第一离散信 息的
第一类目标识, 包括:
基于所述标签 类目树结构, 查找所述第一离 散信息对应的目标 标签节点;
将所述第一离 散信息对应的目标 标签节点的类目标识确定为所述第一类目标识。
8.根据权利要求6所述的方法, 其特征在于, 所述候选问题文本的问题结构化信 息中的
第二离散信息, 为所述类目树结构的根节点至所述候选问题文本所在叶子结点的路径所包
括的目标 标签节点;
确定所述第二离 散信息的第二类目标识, 包括:
基于所述标签类目树结构, 自所述类目树结构的根节点至所述候选问题文本所在叶子
结点, 依次获取途经的目标 标签节点的类目标识;
将所述途经的目标 标签节点的类目标识, 确定为所述第二类目标识。
9.一种文本匹配装置, 其特 征在于, 包括:
第一特征交叉处理模块, 用于将用户的输入文本与所述输入文本对应的候选问题文本
进行特征交叉处 理, 得到问题交叉向量;
第二特征交叉处理模块, 用于将所述输入文本与 所述候选问题文本的答案文本进行特
征交叉处 理, 得到答案交叉向量;
向量转换模块, 用于将所述用户的用户交互信息进行特征向量转换, 得到第一向量表
示, 并将所述 候选问题文本的问题结构化信息进行 特征向量转换, 得到第二向量表示;
文本匹配模块, 用于将对应于同一候选问题文本的问题 交叉向量、 答案交叉向量、 第一
向量表示和第二向量表示进行融合处理, 得到每个候选 问题文本的目标向量, 并基于所述
目标向量从所述 候选问题文本中确定所述输入文本的匹配结果。
10.一种存储介质, 其上存储有计算机程序, 所述计算机程序被处理器执行时实现根据
权利要求1至8任一项所述的文本匹配方法。权 利 要 求 书 2/2 页
3
CN 114548314 A
3
专利 文本匹配方法、装置、存储介质及电子设备
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:51:00上传分享