专利文本匹配方法、装置、存储介质及电子设备 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210199238.6 (22)申请日 2022.03.02 (71)申请人杭州网易再顾科技有限公司地址 310052 浙江省杭州市滨江区长河街道网商路59 9号4幢411室 (72)发明人马勇强　杨杰　罗晓华　 (74)专利代理机构北京律智知识产权代理有限公司 11438 专利代理师王辉 (51)Int.Cl. G06K 9/62(2022.01) G06N 5/02(2006.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称文本匹配方法、装置、存储介质及电子设备 (57)摘要本公开涉及计算机技术领域，公开了一种文本匹配方法及装置、存储介质及电子设备。该方法包括：将用户的输入文本与所述输入文本对应的候选问题文本进行特征交叉处理，得到问题交叉向量；将所述输入文本与所述候选问题文本的答案文本进行特征交叉处理，得到答案交叉向量；将用户交互信息进行特征向量转换，得到第一向量表示，将所述候选问题文本的问题结构化信息进行特征向量转换，得到第二向量表示；将对应于同一候选问题文本的问题交叉向量、答案交叉向量、第一向量表示和第二向量表示进行融合处理，得到每个候选问题文本的目标向量，并基于所述目标向量从所述候选问题文本中确定所述输入文本的匹配结果。本公开能提升文本匹配的准确度。权利要求书2页说明书14页附图6页 CN 114548314 A 2022.05.27 CN 114548314 A 1.一种文本匹配方法，其特征在于，包括：将用户的输入文本与所述输入文本对应的候选问题文本进行特征交叉处理，得到问题交叉向量；将所述输入文本与所述候选问题文本的答案文本进行特征交叉处理，得到答案交叉向量；将所述用户的用户交互信息进行特征向量转换，得到第一向量表示，并将所述候选问题文本的问题结构化信息进行特征向量转换，得到第二向量表示；将对应于同一候选问题文本的问题交叉向量、答案交叉向量、第一向量表示和第二向量表示进行融合处理，得到每个候选问题文本的目标向量，并基于所述目标向量从所述候选问题文本中确定所述输入文本的匹配结果。 2.根据权利要求1所述的方法，其特征在于，所述将用户的输入文本与所述输入文本对应的候选问题文本进行特征交叉处理，得到问题交叉向量，包括：将所述输入文本、候选问题文本分别输入至预训练的语言表征模型，得到输入文本向量、候选问题向量；将所述输入文本向量与候选问题向量进行特征交叉处理，得到所述问题交叉向量。 3.根据权利要求2所述的方法，其特征在于，所述将所述输入文本与所述候选问题文本的答案文本进行特征交叉处理，得到答案交叉向量，包括：将所述答案文本输入至所述预训练的语言表征模型，得到答案文本向量；将所述输入文本向量与所述答案文本向量进行特征交叉处理，得到所述答案交叉向量。 4.根据权利要求1所述的方法，其特征在于，所述用户交互信息和候选问题文本的问题结构化信息中均包含离散信息和连续信息，所述用户交互信息中的第一连续信息为所述用户在第一预设时间内的历史交互行为的统计信息，所述问题结构化信息中的第二连续信息为所述候选问题文本在第二预设时间内发生的历史交互行为的统计信息；所述将所述用户的用户交互信息进行特征向量转换，得到第一向量表示，并将所述候选问题文本的问题结构化信息进行特征向量转换，得到第二向量表示，包括：确定所述离散信息的类目标识，并根据所述类目标识对应的随机初始化向量确定所述离散信息的第一子向量，所述第一子向量包括对应于所述用户交互信息中第一离散信息的第一用户子向量和对应于所述问题结构化信息中第二离散信息的第一问题子向量；对所述连续信息进行标准化处理，并根据标准化处理后的连续信息形成第二子向量，所述第二子向量包括对应于所述第一连续信息的第二用户子向量和对应于所述第二连续信息的第二问题子向量；将所述第一用户子向量与所述第二用户子向量进行融合处理，得到所述第一向量表示；将所述第一问题子向量与所述第二问题子向量进行融合处理，得到所述第二向量表示。 5.根据权利要求4所述的方法，其特征在于，所述对所述连续信息进行标准化处理，并根据标准化处理后的连续信息形成第二子向量，包括：根据所述连续信息的信息来源，形成多个对应于不同信息来源的连续信息组；权　利　要　求　书 1/2 页 2 CN 114548314 A 2将各所述连续信息组经预设的参数矩阵进行标准化处理；将标准化处理后的连续信息组进行融合处理，得到所述第二子向量。 6.根据权利要求4或5所述的方法，其特征在于，在所述将用户的输入文本与所述输入文本对应的候选问题文本进行特征交叉处理，得到问题交叉向量之前，所述方法还包括：获取问题标签信息，根据所述问题标签信息生成标签类目树结构，所述标签类目树结构中的每个标签节点具有类目标识和对应的随机初始化向量，所述标签类目树结构的叶子结点对应于不同的待匹配问题文本。 7.根据权利要求6所述的方法，其特征在于，确定所述用户交互信息中第一离散信息的第一类目标识，包括：基于所述标签类目树结构，查找所述第一离散信息对应的目标标签节点；将所述第一离散信息对应的目标标签节点的类目标识确定为所述第一类目标识。 8.根据权利要求6所述的方法，其特征在于，所述候选问题文本的问题结构化信息中的第二离散信息，为所述类目树结构的根节点至所述候选问题文本所在叶子结点的路径所包括的目标标签节点；确定所述第二离散信息的第二类目标识，包括：基于所述标签类目树结构，自所述类目树结构的根节点至所述候选问题文本所在叶子结点，依次获取途经的目标标签节点的类目标识；将所述途经的目标标签节点的类目标识，确定为所述第二类目标识。 9.一种文本匹配装置，其特征在于，包括：第一特征交叉处理模块，用于将用户的输入文本与所述输入文本对应的候选问题文本进行特征交叉处理，得到问题交叉向量；第二特征交叉处理模块，用于将所述输入文本与所述候选问题文本的答案文本进行特征交叉处理，得到答案交叉向量；向量转换模块，用于将所述用户的用户交互信息进行特征向量转换，得到第一向量表示，并将所述候选问题文本的问题结构化信息进行特征向量转换，得到第二向量表示；文本匹配模块，用于将对应于同一候选问题文本的问题交叉向量、答案交叉向量、第一向量表示和第二向量表示进行融合处理，得到每个候选问题文本的目标向量，并基于所述目标向量从所述候选问题文本中确定所述输入文本的匹配结果。 10.一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至8任一项所述的文本匹配方法。权　利　要　求　书 2/2 页 3 CN 114548314 A 3

专利 文本匹配方法、装置、存储介质及电子设备

专利文本匹配方法、装置、存储介质及电子设备