国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210261106.1 (22)申请日 2022.03.16 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 余剑扬 陈楚杰 谢润泉 邵纪春 (74)专利代理 机构 北京三高永信知识产权代理 有限责任公司 1 1138 专利代理师 李文静 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/205(2020.01) G06F 40/211(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 语言模型的训练方法、 文本匹配方法及相关 装置 (57)摘要 本申请公开了一种语 言模型的训练方法、 文 本匹配方法及相关装置, 本申请提供的方案能够 通过粒度划分, 将目标领域的高频词语融入第一 训练文本, 并以SOP 任务和MSP 任务为第一阶段的 训练任务, 采用该第一训练文本预训练语言模 型。 由此, 在预训练阶段, 该方法不仅能够让语言 模型学习到通用领域的知识, 还能够学习到目标 领域的知识。 并且, 该方法还能够以文本匹配任 务为第二阶段的训练任务, 采用从目标领域获取 到的第二训练文本训练语言模型, 从而使语言模 型能够更广泛地学习到该目标领域的基础知 识。 由此, 可以增加该语言模型的泛化能力, 从而确 保模型的训练效果。 权利要求书3页 说明书21页 附图11页 CN 114626463 A 2022.06.14 CN 114626463 A 1.一种语言模型的训练方法, 其特 征在于, 所述方法包括: 从文档库中的第一文档中获取两个句子样本, 所述文档库中包 含目标领域的文档; 分别对每个所述句子样本进行粒度划分, 粒度划分后的所述句子样本包括多个句子 段, 至少一个所述句 子段包括多个文字, 以及由所述多个文字组成的至少一个属于高频词 语库的词语, 所述高频词语库中包 含所述目标 领域的高频词语; 对粒度划分后的所述两个句子样本中的至少一个所述句子段进行掩码处理, 得到第 一 训练文本; 以句子顺序预测 SOP任务和掩码段预测MSP任务为第一阶段的训练任务, 采用所述第一 训练文本预训练语言模型, 所述SOP任务用于预测所述两个句子样本在所述第一文档中的 顺序, 所述MS P任务用于预测被掩码处 理的至少一个句子段; 以文本匹配任务为第二阶段的训练任务, 采用第二训练文本训练所述语言模型, 所述 第二训练文本包括所述目标领域的第一输入文本, 以及所述目标领域的第二文档的标识文 本, 所述文本匹配任务用于预测所述第二文档与所述第一输入文本的匹配度。 2.根据权利要求1所述的方法, 其特征在于, 所述对粒度划分后的两个句子样本 中的至 少一个所述句子段进行掩码处 理, 包括: 从粒度划分后的两个句子样本中获取至少一个所述句子段; 对于每个所述句子段, 将所述句子段中的第一句子成分替换为掩码, 并将所述句子段 中的第二句子成分替换为 其他句子成分; 其中, 所述第一句子成分和所述第二句子成分均为单个文字或词语。 3.根据权利要求1所述的方法, 其特征在于, 所述以句子顺序预测SOP任务和掩码段预 测MSP任务为第一阶段的训练任务, 采用所述第一训练文本预训练语言模型, 包括: 将所述第一训练文本输入至所述语言模型, 得到所述语言模型输出的预测顺序, 以及 预测句子段; 根据所述预测顺序和所述两个句子样本的顺序标签, 确定第一损 失值, 所述顺序标签 用于指示所述两个句子样本在所述第一文档中的顺序; 根据所述预测句子段和所述粒度划分后的两个句子样本中被掩码处理 的句子段, 确定 第二损失值; 根据所述第一损失值和所述第二损失值预训练所述语言模型。 4.根据权利要求3所述的方法, 其特征在于, 在以句子顺序预测SOP任务和掩码段预测 MSP任务为第一阶段的训练任务, 采用所述第一训练文本预训练语言模 型之前, 所述方法还 包括: 若所述两个句子样本在所述第 一训练文本中的顺序与在所述第 一文档中的顺序相同, 则将所述两个句子样本的顺序标签设置为第一标签; 若所述两个句子样本在所述第 一训练文本中的顺序与在所述第 一文档中的顺序不同, 则将所述两个句子样本的顺序标签设置为第二标签。 5.根据权利要求1至4任一所述的方法, 其特征在于, 所述以文本匹配任务为第二阶段 的训练任务, 采用第二训练文本训练所述语言模型, 包括: 将所述第二训练文本 输入至所述语言模型, 得到所述语言模型输出的预测匹配度; 根据所述预测匹配度, 以及所述第二文档与所述第一输入文本的匹配度标签, 确定第权 利 要 求 书 1/3 页 2 CN 114626463 A 2三损失值; 根据所述第三损失值训练所述语言模型。 6.根据权利要求5所述的方法, 其特征在于, 在以文本匹配任务为第二阶段的训练任 务, 采用第二训练文本训练所述语言模型之前, 所述方法还 包括: 从所述目标领域的数据库中获取所述第 一输入文本, 以及与 所述第一输入文本关联的 第二文档的标识文本, 得到所述第二训练文本; 计算所述第一输入文本与所述第二文档的匹配度, 得到所述匹配度标签。 7.根据权利要求1至4任一所述的方法, 其特 征在于, 所述方法还 包括: 以所述文本匹配任务为第三阶段的训练任务, 采用第三训练文本训练所述语言模型, 所述第三训练文本包括所述目标领域的第二输入文本, 以及所述目标领域的第三文档的标 识文本; 其中, 所述第二训练文本中第一输入文本与第二文档的匹配度由机器标注, 所述第三 训练文本中第二输入文本与第三文档的匹配度由人工标注。 8.一种文本匹配方法, 其特 征在于, 所述方法包括: 获取目标输入文本; 将所述目标输入文本输入至文本匹配模型, 得到所述文本匹配模型输出的与 所述目标 输入文本所匹配的推荐 文档的标识文本; 其中, 所述文本匹配模型是采用如权利要求1至7任一所述的方法对语言模型进行训练 得到的。 9.一种语言模型的训练装置, 其特 征在于, 所述装置包括: 获取模块, 用于从文档库中的第一文档 中获取两个句子样本, 所述文档库中包含目标 领域的文档; 划分模块, 用于分别对每个所述句子样本进行粒度划分, 粒度划分后的所述句子样本 包括多个句 子段, 至少一个所述句 子段包括多个文字, 以及由所述多个文字组成的至少一 个属于高频词语库的词语, 所述高频词语库中包 含所述目标 领域的高频词语; 掩码模块, 用于对粒度划分后的所述两个句子样本 中的至少一个所述句子段进行掩码 处理, 得到第一训练文本; 训练模块, 用于以句子顺序预测SOP任务和掩码段预测MSP任务为第一阶段的训练任 务, 采用所述第一训练文本预训练语言模型, 所述SOP任务用于预测所述两个句子样 本在所 述第一文档中的顺序, 所述MS P任务用于预测被掩码处 理的至少一个句子段; 所述训练模块, 还用于以文本匹配任务为第二阶段的训练任务, 采用第二训练文本训 练所述语言模型, 所述第二训练文本包括所述 目标领域的第一输入文本, 以及所述 目标领 域的第二文档的标识文本, 所述文本匹配任务用于预测所述第二文本与所述第一输入文本 的匹配度。 10.一种文本匹配装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取目标输入文本; 匹配模块, 用于将所述目标输入文本输入至文本匹配模型, 得到所述文本匹配模型输 出的与所述目标输入文本所匹配的推荐 文档的标识文本; 其中, 所述文本匹配模型采用如权利要求9所述的语言模型的训练装置训练得到 。权 利 要 求 书 2/3 页 3 CN 114626463 A 3
专利 语言模型的训练方法、文本匹配方法及相关装置
文档预览
中文文档
36 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共36页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:52:32
上传分享
举报
下载
原文档
(1.4 MB)
分享
友情链接
腾讯安全 政务大数据平台数据安全体系建设指南V1.0.pdf
GA-T 1177-2014 信息安全技术 第二代防火墙安全技术要求.pdf
GB-T 39725-2020 信息安全技术 健康医疗数据安全指南.pdf
NY-T 848-2004 蔬菜产地环境技术条件.pdf
GB-T 28534-2012 高压开关设备和控制设备中六氟化硫(SF6)气体的释放对环境和健康的影响.pdf
GB-T 37400.1-2019 重型机械通用技术条件 第1部分:产品检验.pdf
信通院 封莎 云服务数据安全能力构建与最佳实践.pdf
GB-T 30283-2022 信息安全技术 信息安全服务分类与代码.pdf
GB-T 27926.8-2021 金融服务 金融业通用报文方案 第8部分:ASN.1生成.pdf
GB-T 29309-2012 电工电子产品加速应力试验规程 高加速寿命试验导则.pdf
YD-T 3763.1-2021 研发运营一体化(DevOps)能力成熟度模型 第1部分:总体架构.pdf
GB-T 20848-2017 系泊链.pdf
GB-T 37580-2019 聚乙烯 PE 埋地燃气管道腐蚀控制工程全生命周期要求.pdf
GB-T 39044-2020 政务服务平台接入规范.pdf
GB-T 21062.3-2007 政务信息资源交换体系 第3部分:数据接口规范.pdf
GM-T 0003.4-2012 SM2椭圆曲线公钥密码算法第4部分:公钥加密算法.pdf
GB-T 41919-2022 人造石建筑板材.pdf
POS终端 银行卡受理终端安全规范 第1部分销售点.pdf
GB-T 17626.12-2023 电磁兼容 试验和测量技术 第12部分:振铃波抗扰度试验.pdf
ISO 27002 2022 中文试译交流版.pdf
1
/
3
36
评价文档
赞助2.5元 点击下载(1.4 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。