(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210302920.3 (22)申请日 2022.03.24 (71)申请人 阳光保险集团股份有限公司 地址 518000 广东省深圳市福田区红荔西 路7002号第一世界广场A座17层 (72)发明人 韩佳 杜新凯 吕超 谷姗姗  张晗 史辉  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 专利代理师 唐正瑜 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/205(2020.01) G06F 16/335(2019.01) G06F 16/35(2019.01)G06Q 40/08(2012.01) (54)发明名称 训练语言表征模 型的方法、 查找语句的方法 及装置 (57)摘要 本申请实施例提供了训练语言表征模型的 方法、 查找语句的方法及装置, 该方法包括: 获取 目标训练语句, 其中, 所述目标训练语句是通过 对语言表征模型所应用的目标领域的语句进行 采集获得的; 根据所述目标训练语句对预训练语 言表征模型进行训练, 获得目标语言表征模型, 其中, 所述预训练语言表征模型依次包括短语特 征提取层、 句法特征提取层和语义特征提取层, 所述语义特征提取层中的第i层中部分节点的输 入为所述 短语特征提取层中的第j层的输出, i和 j为大于或等于1的整数。 通过本申请的一些实施 例能够提升语 言表征模型的运行速度, 并且能够 使目标语言表征模型中的参数更适合应用于目 标领域, 从而提升 语言表征模型的精确度。 权利要求书2页 说明书15页 附图5页 CN 114648030 A 2022.06.21 CN 114648030 A 1.一种训练语言表征模型的方法, 其特 征在于, 所述方法包括: 获取目标训练语句, 其中, 所述目标训练语句是通过对语言表征模型所应用的目标领 域的语句进行采集获得的; 根据所述目标训练语句对预训练语言表征模型进行训练, 获得目标语言表征模型, 其 中, 所述预训练语言表征模型依 次包括短语特征提取层、 句法特征提取层和语义特征提取 层, 所述语义特征提取层中的第i层中部 分节点的输入为所述短语特征提取层中的第j层的 输出, i和j为大于或等于1的整数。 2.根据权利要求1所述的方法, 其特征在于, 所述预训练语言表征模型中的各层中均包 括两类节点, 其中, 第一类节点用于提取文本特 征, 第二类节点用于提取字特 征; 其中, 所述第i层包括的第二类节点的输入为所述第j层包括的第二类节点的输出; 所述第i层包括的第一类节点的输入为第i ‑1层包括的第一类节点的输出; 其中, 所述文本特征用于表征所述目标训练语句的整体语义特征, 所述字特征用于表 征所述目标训练语句中一个字的语义特 征。 3.根据权利要求1所述的方法, 其特征在于, 所述语义特征提取层包括L层, 所述短语特 征提取层包括K层, 其中, L和K为大于1的整数, 其中, 所述语义特 征提取层中的第i层为K层中的第一层; 所述短语特 征提取层中的第j层为 L层中的最后一层。 4.一种查找语句的方法, 其特 征在于, 所述方法包括: 获取待匹配 语句; 将所述待匹配语句输入采用 如权利要求1 ‑3任一项所得到的目标语言表征模型中, 并 通过所述目标语言表征模型 得到与所述待匹配 语句匹配的目标语句。 5.根据权利要求4所述的方法, 其特征在于, 所述通过所述目标语言表征模型得到与 所 述待匹配 语句匹配的目标语句, 包括: 提取所述待匹配 语句的待匹配表征向量; 将所述待匹配表征向量与至少一组候选表征向量进行匹配, 获得所述目标语句, 其中, 一组候选表征向量用于表征一个候选语句, 一组候选表征向量对应一个候选语句。 6.根据权利要求5所述的方法, 其特征在于, 所述将所述待 匹配表征向量与至少一组候 选表征向量进行匹配, 获得 所述目标语句, 包括: 基于权重值计算所述待匹配表征向量与所述至少一组候选表征向量中各组候选表征 向量之间的目标相似值, 其中, 所述 目标相似值用于表征所述待匹配表征向量与所述各组 候选表征向量之间的相似程度, 其中, 所述权重值用于调整提取 的字特征与提取 的文本特 征之间的权 重; 通过所述目标相似值, 从至少一个候选语句中获得 所述目标语句。 7.根据权利要求6所述的方法, 其特征在于, 所述待 匹配表征向量包括待 匹配文本语义 表征子向量和待匹配字语义表征子向量, 与第K候选语句对应的候选表征向量包括第K候选 文本语义表征子向量和第K候选字语义表征子向量, 与所述第K候选语句对应的权重值包括 第K文本权重值和第K字 权重值, 所述第K文本 权重值与所述第K字 权重值的和为1; 所述基于权重值计算所述待匹配表征向量与所述至少一组候选表征向量中各组候选 表征向量之间的目标相似值, 包括:权 利 要 求 书 1/2 页 2 CN 114648030 A 2计算所述待匹配文本语义表征子向量与所述第K候选文本语义表征子向量之间的第K 文本相似值, 其中, K为大于或等于1的整数; 根据所述待匹配字语义表征子向量和所述第K候选字语义表征子向量, 计算获得第K字 相似值; 计算所述第K文本相似值与所述第K文本 权重值的乘积, 得到第一乘积; 计算所述第K字相似值与所述第K字 权重值的乘积, 得到第二乘积; 计算所述第一乘积和第二乘积的和, 得到与所述第K候选语句对应的目标相似值。 8.一种训练语言表征模型的装置, 其特 征在于, 所述装置包括: 训练语句获取模块, 被配置为获取目标训练语句, 其中, 所述目标训练语句是通过对语 言表征模型 所应用的目标 领域的语句进行采集获得的; 模型训练模块, 被配置为根据所述目标训练语句对预训练语言表征模型进行训练, 获 得目标语言表征模型, 其中, 所述预训练语言表征模型依次包括短语特征提取层、 句法特征 提取层和语义特征提取层, 所述语义特征提取层中的第i层中部分节点的输入为所述短语 特征提取层中的第j层的输出, i和j为大于或等于1的整数。 9.一种查找语句的装置, 其特 征在于, 所述装置包括: 语句获取模块, 被 配置为获取待匹配 语句; 语句匹配模块, 被配置为将所述待匹配语句输入采用如权利要求1 ‑3任一项所得到的 目标语言表征模型中, 并通过所述目标语言表征模型得到与所述待匹配语句匹配的目标语 句。 10.一种电子设备, 其特 征在于, 包括: 处 理器、 存储器和总线; 所述处理器通过所述总线与所述存储器相连, 所述存储器存储有计算机可读取指令, 当所述计算机可读取指令由所述处 理器执行时, 用于实现如权利要求1 ‑7任一项所述方法。权 利 要 求 书 2/2 页 3 CN 114648030 A 3

.PDF文档 专利 训练语言表征模型的方法、查找语句的方法及装置

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 训练语言表征模型的方法、查找语句的方法及装置 第 1 页 专利 训练语言表征模型的方法、查找语句的方法及装置 第 2 页 专利 训练语言表征模型的方法、查找语句的方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:52:20上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。