(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221028723 6.2 (22)申请日 2022.03.22 (71)申请人 鼎富智能科技有限公司 地址 230000 安徽省合肥市高新区习友路 3333号A1楼19层-B区 (72)发明人 李健铨 吴相博 胡加明  (74)专利代理 机构 北京弘权知识产权代理有限 公司 11363 专利代理师 李少丹 许伟群 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/30(2020.01) G06F 40/126(2020.01) G06F 40/242(2020.01) G06K 9/62(2022.01) (54)发明名称 一种预训练语言模型的训练方法及装置 (57)摘要 本申请实施例提供了一种预训练语言模型 的训练方法及装置。 包括: 从WordNet词表中获取 样本分词的关系词, 其中, 样本分词在WordNet词 表中包含至少一种关系, 关系词与样本分词具有 第一关系, 第一关系是从至少一种关系中选取 的; 从关系词中随机选取N个正样例词; 以及, 从 关系词以外的词中选取K个负样例词; 获取样本 分词、 每个正样例词和每个负样例词对应的句 子; 对获取到的句子进行局部遮罩mask处理; 对 遮罩处理后的各个句子两两拼接, 并使用拼接后 的句子训练预训练语言模型。 本申请实施例的技 术方案, 能够使预训练语言模型捕捉到更丰富语 义空间的词语或句子级别的表 示, 从而提高了下 游任务的使用效果。 权利要求书2页 说明书10页 附图3页 CN 114626371 A 2022.06.14 CN 114626371 A 1.一种预训练语言模型的训练方法, 其特 征在于, 包括: 从WordNet词表中获取所述样本分词的关系词, 其中, 所述样本分词在所述WordNet词 表中包含至少一种关系, 所述关系词与所述样本分词具有第一关系, 所述第一关系 是从所 述至少一种关系中选取的, 所述关系包含近义关系、 蕴含关系、 属性关系、 反义关系、 上位关 系、 下位关系、 整体关系、 部分关系中的一种或多种, 所述近义关系与反义关系互为对立关 系, 所述上位关系与所述下位关系互为对立关系, 所述整体关系与所述部分关系互为对立 关系; 从所述关系词中随机选取N个正样例词, N为大于或者等于2的正整数; 以及, 从所述关 系词以外的词中选取K个负样例词, K为大于或者等于1的正整数; 其中, 所述负样例词从所 述样本分词的对立关系的词中随机选取, 和/或者, 从所述WordNet词表和/或样 本语料中的 除去所述关系词以外的剩余词中随机获取; 获取所述样本分词对应的句子、 每个所述正样例词对应的句子和每个所述负样例词对 应的句子; 按照预设比例对获取到的句子进行局部遮罩mask处 理; 对局部遮罩处 理后的各个句子 两两拼接, 并使用拼接后的句子训练预训练语言模型。 2.根据权利要求1所述的方法, 其特征在于, 所述从WordNet词表中获取样本分词的多 个关系词之前, 还 包括: 对所述样本语料进行分句和 切词处理, 得到多个样本句子和多个所述样本分词; 记录所述样本分词与 所述样本句子的对应关系, 所述对应关系 包括每个样本分词包含 在哪些样本句子中。 3.根据权利要求2所述的方法, 其特征在于, 从WordNet词表中获取所述样本分词的关 系词, 还包括: 从所述WordNet词表获取所述样本分词及其各个所述关系词对应的定义句, 所述定义句用于解释所述样 本分词或所述关系词, 以及, 从所述WordNet词表获取所述样 本 分词及其各个所述关系词对应的例 句, 所述例 句包含所述样本分词或者所述关系词。 4.根据权利要求2所述的方法, 其特征在于, 所述从所述关系词中随机选取N个正样例 词, 包括: 判断所述样本分词在所述 WordNet词表中是否存在; 如果存在, 从所述样本分词的所述关系词中随机 选取N个词作为所述 正样例词。 5.根据权利要求2所述的方法, 其特征在于, 所述从所述关系词以外的词中选取K个负 样例词, 包括: 判断所述样本分词在所述WordNet词表中是否存在第二关系, 所述第二关系是所述第 一关系的对立关系; 如果存在, 以第一概率从所述样本分词的第二关系的词中选取负样例词, 以第二概率 从所述WordNet词表和 /或样本语料中的除去所述关系词以外的剩 余词中选取所述负样例 词, 所述第一 概率和所述第二 概率之和为1; 如果不存在, 从所述WordNet词 表和/或样本语料中的除去所述关系词以外的剩余词中 获取所述负样例词。 6.根据权利要求3所述的方法, 其特征在于, 所述获取所述样本分词对应的句子、 每个 所述正样例词对应的句子和每 个所述负 样例词对应的句子, 包括:权 利 要 求 书 1/2 页 2 CN 114626371 A 2所述样本分词对应的句子以第三概率从所述样本语料中获取, 以第四概率从所述 WordNet词表中的定义句中获取, 以第五概 率从所述 WordNet词表中的例 句中获取; 和/或, 所述正样例词对应的句子以第三概率从所述样本语料中获取, 以第四概率从所述 WordNet词表中的定义句中获取, 以第五概 率从所述 WordNet词表中的例 句中获取; 和/或, 所述负样例词对应的句子以第三概率从所述样本语料中获取, 以第四概率从所述 WordNet词表中的定义句中获取, 以第五概 率从所述 WordNet词表中的例 句中获取; 所述第三概率、 所述第四概率和所述第五概率之和为1, 所述第三概率大于所述第四概 率和所述第五概 率。 7.根据权利要求1所述的方法, 其特征在于, 所述按照预设比例对获取到的句子进行局 部遮罩处 理, 包括: 对获取到的句子 中的词按照第六概率进行随机遮罩处理; 其中, 在被遮罩的词中, 以第 七概率使用预设字符进行遮罩, 以第八概率使用随机词进行遮罩, 以第九概率使用被遮罩 的词的原词进行遮罩; 所述第七概率、 所述第八概率和所述第九概率之和为1, 所述第七概 率大于所述第八概 率和所述第九概 率。 8.根据权利要求1所述的方法, 其特征在于, 所述使用两两拼接后的句子训练预训练语 言模型, 包括: 在嵌入embedding层的结构基础上, 增加关系编码矩阵; 其中, 所述关系编码 矩阵为M×H维矩阵, M为所述预训练语 言模型捕捉的关系的数量加1, 所述 1表示其他关系对 应的维度, H为所述预训练语言模型的隐含层维度。 9.根据权利要求1所述的方法, 其特征在于, 所述使用两两拼接后的句子训练预训练语 言模型, 包括: 在使用预训练语言模型获得句子表示之后, 取所述句子表示中的标志位CLS 的表示, 连接全连接层, 以全连接层的输出作为最 终的句子表示; 其中, 所述全连接层为M × H维矩阵, M为所述预训练语言模型捕捉的关系的数量加1, H为所述预训练语言模型的隐含 层维度。 10.一种预训练语言模型的训练装置, 其特 征在于, 包括: 第一取模块, 用于从WordNet词表中获取所述样本分词的关系词, 其中, 所述样本分词 在所述WordNet词表中包含至少一种关系, 所述关系词 与所述样 本分词具有第一关系, 所述 第一关系是从所述至少一种关系中选取 的, 所述关系包含近义关系、 蕴含关系、 属性关系、 反义关系、 上位关系、 下位关系、 整体关系、 部 分关系中的一种或多种, 所述近义关系 与反义 关系互为对立关系, 所述上位关系与所述下位关系互为对立关系, 所述整体关系与所述部 分关系互为对立关系; 第二获取模块, 用于从所述关系词中随机选取N个正样例词, N为大于或者等于2的正整 数; 以及, 从所述关系词以外的词中选取 K个负样例词, K为大于或者 等于1的正整数; 其中, 所述负样例词从所述样本分词的对立关系的词中随机选取, 和/或者, 从所述 WordNet词表和/或样本语料中的除去所述关系词以外的剩余词中随机获取; 第三获取模块, 用于获取所述样本分词对应的句子、 每个所述正样例词对应的句子和 每个所述负 样例词对应的句子; 遮罩模块, 用于按照预设比例对获取到的句子进行局部遮罩处 理; 预训练模块, 用于对局部遮罩处理后的各个句子两两拼接, 并使用拼接后的句子训练 预训练语言模型。权 利 要 求 书 2/2 页 3 CN 114626371 A 3

.PDF文档 专利 一种预训练语言模型的训练方法及装置

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种预训练语言模型的训练方法及装置 第 1 页 专利 一种预训练语言模型的训练方法及装置 第 2 页 专利 一种预训练语言模型的训练方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:47:50上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。