(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210261106.1 (22)申请日 2022.03.16 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 余剑扬 陈楚杰 谢润泉 邵纪春  (74)专利代理 机构 北京三高永信知识产权代理 有限责任公司 1 1138 专利代理师 李文静 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/205(2020.01) G06F 40/211(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 语言模型的训练方法、 文本匹配方法及相关 装置 (57)摘要 本申请公开了一种语 言模型的训练方法、 文 本匹配方法及相关装置, 本申请提供的方案能够 通过粒度划分, 将目标领域的高频词语融入第一 训练文本, 并以SOP 任务和MSP 任务为第一阶段的 训练任务, 采用该第一训练文本预训练语言模 型。 由此, 在预训练阶段, 该方法不仅能够让语言 模型学习到通用领域的知识, 还能够学习到目标 领域的知识。 并且, 该方法还能够以文本匹配任 务为第二阶段的训练任务, 采用从目标领域获取 到的第二训练文本训练语言模型, 从而使语言模 型能够更广泛地学习到该目标领域的基础知 识。 由此, 可以增加该语言模型的泛化能力, 从而确 保模型的训练效果。 权利要求书3页 说明书21页 附图11页 CN 114626463 A 2022.06.14 CN 114626463 A 1.一种语言模型的训练方法, 其特 征在于, 所述方法包括: 从文档库中的第一文档中获取两个句子样本, 所述文档库中包 含目标领域的文档; 分别对每个所述句子样本进行粒度划分, 粒度划分后的所述句子样本包括多个句子 段, 至少一个所述句 子段包括多个文字, 以及由所述多个文字组成的至少一个属于高频词 语库的词语, 所述高频词语库中包 含所述目标 领域的高频词语; 对粒度划分后的所述两个句子样本中的至少一个所述句子段进行掩码处理, 得到第 一 训练文本; 以句子顺序预测 SOP任务和掩码段预测MSP任务为第一阶段的训练任务, 采用所述第一 训练文本预训练语言模型, 所述SOP任务用于预测所述两个句子样本在所述第一文档中的 顺序, 所述MS P任务用于预测被掩码处 理的至少一个句子段; 以文本匹配任务为第二阶段的训练任务, 采用第二训练文本训练所述语言模型, 所述 第二训练文本包括所述目标领域的第一输入文本, 以及所述目标领域的第二文档的标识文 本, 所述文本匹配任务用于预测所述第二文档与所述第一输入文本的匹配度。 2.根据权利要求1所述的方法, 其特征在于, 所述对粒度划分后的两个句子样本 中的至 少一个所述句子段进行掩码处 理, 包括: 从粒度划分后的两个句子样本中获取至少一个所述句子段; 对于每个所述句子段, 将所述句子段中的第一句子成分替换为掩码, 并将所述句子段 中的第二句子成分替换为 其他句子成分; 其中, 所述第一句子成分和所述第二句子成分均为单个文字或词语。 3.根据权利要求1所述的方法, 其特征在于, 所述以句子顺序预测SOP任务和掩码段预 测MSP任务为第一阶段的训练任务, 采用所述第一训练文本预训练语言模型, 包括: 将所述第一训练文本输入至所述语言模型, 得到所述语言模型输出的预测顺序, 以及 预测句子段; 根据所述预测顺序和所述两个句子样本的顺序标签, 确定第一损 失值, 所述顺序标签 用于指示所述两个句子样本在所述第一文档中的顺序; 根据所述预测句子段和所述粒度划分后的两个句子样本中被掩码处理 的句子段, 确定 第二损失值; 根据所述第一损失值和所述第二损失值预训练所述语言模型。 4.根据权利要求3所述的方法, 其特征在于, 在以句子顺序预测SOP任务和掩码段预测 MSP任务为第一阶段的训练任务, 采用所述第一训练文本预训练语言模 型之前, 所述方法还 包括: 若所述两个句子样本在所述第 一训练文本中的顺序与在所述第 一文档中的顺序相同, 则将所述两个句子样本的顺序标签设置为第一标签; 若所述两个句子样本在所述第 一训练文本中的顺序与在所述第 一文档中的顺序不同, 则将所述两个句子样本的顺序标签设置为第二标签。 5.根据权利要求1至4任一所述的方法, 其特征在于, 所述以文本匹配任务为第二阶段 的训练任务, 采用第二训练文本训练所述语言模型, 包括: 将所述第二训练文本 输入至所述语言模型, 得到所述语言模型输出的预测匹配度; 根据所述预测匹配度, 以及所述第二文档与所述第一输入文本的匹配度标签, 确定第权 利 要 求 书 1/3 页 2 CN 114626463 A 2三损失值; 根据所述第三损失值训练所述语言模型。 6.根据权利要求5所述的方法, 其特征在于, 在以文本匹配任务为第二阶段的训练任 务, 采用第二训练文本训练所述语言模型之前, 所述方法还 包括: 从所述目标领域的数据库中获取所述第 一输入文本, 以及与 所述第一输入文本关联的 第二文档的标识文本, 得到所述第二训练文本; 计算所述第一输入文本与所述第二文档的匹配度, 得到所述匹配度标签。 7.根据权利要求1至4任一所述的方法, 其特 征在于, 所述方法还 包括: 以所述文本匹配任务为第三阶段的训练任务, 采用第三训练文本训练所述语言模型, 所述第三训练文本包括所述目标领域的第二输入文本, 以及所述目标领域的第三文档的标 识文本; 其中, 所述第二训练文本中第一输入文本与第二文档的匹配度由机器标注, 所述第三 训练文本中第二输入文本与第三文档的匹配度由人工标注。 8.一种文本匹配方法, 其特 征在于, 所述方法包括: 获取目标输入文本; 将所述目标输入文本输入至文本匹配模型, 得到所述文本匹配模型输出的与 所述目标 输入文本所匹配的推荐 文档的标识文本; 其中, 所述文本匹配模型是采用如权利要求1至7任一所述的方法对语言模型进行训练 得到的。 9.一种语言模型的训练装置, 其特 征在于, 所述装置包括: 获取模块, 用于从文档库中的第一文档 中获取两个句子样本, 所述文档库中包含目标 领域的文档; 划分模块, 用于分别对每个所述句子样本进行粒度划分, 粒度划分后的所述句子样本 包括多个句 子段, 至少一个所述句 子段包括多个文字, 以及由所述多个文字组成的至少一 个属于高频词语库的词语, 所述高频词语库中包 含所述目标 领域的高频词语; 掩码模块, 用于对粒度划分后的所述两个句子样本 中的至少一个所述句子段进行掩码 处理, 得到第一训练文本; 训练模块, 用于以句子顺序预测SOP任务和掩码段预测MSP任务为第一阶段的训练任 务, 采用所述第一训练文本预训练语言模型, 所述SOP任务用于预测所述两个句子样 本在所 述第一文档中的顺序, 所述MS P任务用于预测被掩码处 理的至少一个句子段; 所述训练模块, 还用于以文本匹配任务为第二阶段的训练任务, 采用第二训练文本训 练所述语言模型, 所述第二训练文本包括所述 目标领域的第一输入文本, 以及所述 目标领 域的第二文档的标识文本, 所述文本匹配任务用于预测所述第二文本与所述第一输入文本 的匹配度。 10.一种文本匹配装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取目标输入文本; 匹配模块, 用于将所述目标输入文本输入至文本匹配模型, 得到所述文本匹配模型输 出的与所述目标输入文本所匹配的推荐 文档的标识文本; 其中, 所述文本匹配模型采用如权利要求9所述的语言模型的训练装置训练得到 。权 利 要 求 书 2/3 页 3 CN 114626463 A 3

.PDF文档 专利 语言模型的训练方法、文本匹配方法及相关装置

文档预览
中文文档 36 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共36页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 语言模型的训练方法、文本匹配方法及相关装置 第 1 页 专利 语言模型的训练方法、文本匹配方法及相关装置 第 2 页 专利 语言模型的训练方法、文本匹配方法及相关装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:52:32上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。