(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210491887.3 (22)申请日 2022.05.07 (71)申请人 阳光保险集团股份有限公司 地址 518000 广东省深圳市福田区红荔西 路7002号第一世界广场A座17层 (72)发明人 姚雷 杜新凯 吕超  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 专利代理师 高燕 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) (54)发明名称 一种语义文本相似度的计算方法、 装置及存 储介质 (57)摘要 本申请提供了一种语义文本相似度的计算 方法、 装置及存储介质, 将第一目标句子和第二 目标句子输入训练好的对比学习模 型, 以输出第 一目标句子对应的第一句子向量和第二目标句 子对应的第二句子向量; 将第一目标句子对应的 第一句子向量输入训练好的白化模 型, 以输出第 一目标句子对应的第一转换向量; 将第二目标句 子对应的第二句子向量输入训练好的白化模型, 以输出第二目标句子对应的第二转换向量; 根据 第一转换向量和第二转换向量, 计算第一目标句 子和第二目标句子的相似度, 能够解决现有技术 中存在的语义文本相似度计算结果与实际相似 度偏差较大的问题。 权利要求书2页 说明书9页 附图5页 CN 114742045 A 2022.07.12 CN 114742045 A 1.一种语义文本相似度的计算方法, 其特 征在于, 所述方法包括: 将第一目标句子和第 二目标句子输入训练好的对比学习 模型, 以输出所述第 一目标句 子对应的第一句子向量和第二目标句子对应的第二句子向量; 将所述第一目标句子对应的第 一句子向量输入训练好的白化模型, 以输出第 一目标句 子对应的第一 转换向量; 将所述第二目标句子对应的第 二句子向量输入训练好的白化模型, 以输出第 二目标句 子对应的第二 转换向量; 根据所述第 一转换向量和所述第 二转换向量, 计算所述第 一目标句子和第 二目标句子 的相似度。 2.根据权利要求1所述的方法, 其特征在于, 训练句子库包括多个训练句子集, 针对每 个所述训练句子集, 通过以下 方式生成训练好的对比学习模型: 将该训练句子集输入初始对比学习 模型, 以输出该训练句子集中每个训练句子对应的 训练句子向量; 确定每个训练句子对应的一个负样本训练句子向量和一个正样本训练句子向量, 并将 该训练句子对应的训练句子向量、 负样本训练句子向量和正样本训练句子向量输入目标损 失函数, 以输出 该训练句子对应的损失值; 根据每个训练句子对应的损 失值, 调整所述初始对比学习模型, 以使每个训练句子对 应的损失值 最小。 3.根据权利要求2所述的方法, 其特征在于, 编码器包括预设数量的归一化层, 通过以 下方式输出每 个训练句子对应的训练句子向量: 将训练句子集输入文本增强模块, 以输出每 个训练句子对应的多个相似训练句子; 针对该训练句子和对应的多个相似训练句子 中的任一个句子, 在该句子前添加预设标 签并输入所述编码器, 以将所述编 码器的最后一个归一化层的输出向量中与所述预设标签 对应的部分作为该句子对应的训练句子向量并输出。 4.根据权利要求2所述的方法, 其特征在于, 编码器包括预设数量的归一化层, 针对输 入初始对比学习模型的每个训练句子, 通过以下方式输出该训练句子对应的训练句子向 量: 将该训练句子 输入文本增强模块, 以输出多个相似训练句子; 针对该训练句子和对应的多个相似训练句子 中的任一个句子, 将该句子输入所述编码 器, 根据所述编码器的目标归一化层的输出向量的均值, 确定该句 子对应的训练句 子向量 并输出。 5.根据权利要求3或4所述的方法, 其特征在于, 所述归一化层包括多个神经网络节点, 通过以下 方式确定每 个训练句子对应的一个正样本训练句子向量: 将该训练句子对应的训练句子向量中, 除该训练句子外任一相似训练句子对应的训练 句子向量, 作为该训练句子对应的一个正样本训练句子向量; 或 将该训练句子和多个相似训练句子中的任一个句子输入所述编码器, 将所述编码器的 至少一个神经网络节点随机 置零, 以输出 该训练句子对应的一个正样本训练句子向量; 或 将该训练句子和多个相似训练句子中的任一个句子输入所述编码器, 将所述编码器中 目标归一 化层的输出向量的均值, 作为该训练句子对应的一个正样本训练句子向量。权 利 要 求 书 1/2 页 2 CN 114742045 A 26.根据权利要求4所述的方法, 其特征在于, 训练句子包括多个词语, 所述将训练句子 集输入文本增强模块, 以输出每 个训练句子对应的多个相似训练句子的步骤, 具体包括: 根据训练句子集中每 个训练句子的词语, 确定出 所有词语; 将该训练句子中的一个词语和其 他词语中的任一个词语的位置交换; 或 将该训练句子中一个词语或多个连续的词语删除; 或 在该训练句子中的一个词语后插 入其他词语中的任一个词语。 7.根据权利要求2所述的方法, 其特 征在于, 通过以下 方式生成训练好的白化模型: 确定与目标应用领域对应的至少一个目标训练句子集; 将所有目标训练句子集输入训练好的对比学习模型, 以输出每个目标训练句子集中每 个训练句子对应的目标训练句子向量; 根据所有目标训练句子向量, 计算目标协方差矩阵; 对目标协方差矩阵进行分解, 以确定目标协方差矩阵的特 征值和特 征向量; 根据目标协方差矩阵的特征值和特征向量, 计算 白化模型的参数, 以生成训练好的白 化模型。 8.一种语义文本相似度的计算装置, 其特 征在于, 所述装置包括: 提取模块, 用于将第一目标句子和第二目标句子输入训练好的对比学习模型, 以输出 所述第一目标句子对应的第一句子向量和第二目标句子对应的第二句子向量; 转换模块, 用于将所述第一目标句子对应的第一句子向量输入训练好的白化模型, 以 输出第一目标句子对应的第一 转换向量; 以及 将所述第二目标句子对应的第 二句子向量输入训练好的白化模型, 以输出第 二目标句 子对应的第二 转换向量; 计算模块, 用于根据所述第一转换向量和所述第二转换向量, 计算所述第一目标句子 和第二目标句子的相似度。 9.一种电子设备, 其特征在于, 包括: 处理器、 存储器和总线, 所述存储器存储有所述处 理器可执行 的机器可读指令, 当电子设备运行时, 所述处理器与所述存储器之间通过总线 通信, 所述处理器执行所述机器可读指令, 以执行如权利要求1至7任一所述语义文本相似 度的计算方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 程序, 所述计算机程序被处理器运行时执行如权利要求 1至7任一所述语义文本相似度的计 算方法的步骤。权 利 要 求 书 2/2 页 3 CN 114742045 A 3

.PDF文档 专利 一种语义文本相似度的计算方法、装置及存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种语义文本相似度的计算方法、装置及存储介质 第 1 页 专利 一种语义文本相似度的计算方法、装置及存储介质 第 2 页 专利 一种语义文本相似度的计算方法、装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:47:31上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。