(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221028723 6.2
(22)申请日 2022.03.22
(71)申请人 鼎富智能科技有限公司
地址 230000 安徽省合肥市高新区习友路
3333号A1楼19层-B区
(72)发明人 李健铨 吴相博 胡加明
(74)专利代理 机构 北京弘权知识产权代理有限
公司 11363
专利代理师 李少丹 许伟群
(51)Int.Cl.
G06F 40/279(2020.01)
G06F 40/30(2020.01)
G06F 40/126(2020.01)
G06F 40/242(2020.01)
G06K 9/62(2022.01)
(54)发明名称
一种预训练语言模型的训练方法及装置
(57)摘要
本申请实施例提供了一种预训练语言模型
的训练方法及装置。 包括: 从WordNet词表中获取
样本分词的关系词, 其中, 样本分词在WordNet词
表中包含至少一种关系, 关系词与样本分词具有
第一关系, 第一关系是从至少一种关系中选取
的; 从关系词中随机选取N个正样例词; 以及, 从
关系词以外的词中选取K个负样例词; 获取样本
分词、 每个正样例词和每个负样例词对应的句
子; 对获取到的句子进行局部遮罩mask处理; 对
遮罩处理后的各个句子两两拼接, 并使用拼接后
的句子训练预训练语言模型。 本申请实施例的技
术方案, 能够使预训练语言模型捕捉到更丰富语
义空间的词语或句子级别的表 示, 从而提高了下
游任务的使用效果。
权利要求书2页 说明书10页 附图3页
CN 114626371 A
2022.06.14
CN 114626371 A
1.一种预训练语言模型的训练方法, 其特 征在于, 包括:
从WordNet词表中获取所述样本分词的关系词, 其中, 所述样本分词在所述WordNet词
表中包含至少一种关系, 所述关系词与所述样本分词具有第一关系, 所述第一关系 是从所
述至少一种关系中选取的, 所述关系包含近义关系、 蕴含关系、 属性关系、 反义关系、 上位关
系、 下位关系、 整体关系、 部分关系中的一种或多种, 所述近义关系与反义关系互为对立关
系, 所述上位关系与所述下位关系互为对立关系, 所述整体关系与所述部分关系互为对立
关系;
从所述关系词中随机选取N个正样例词, N为大于或者等于2的正整数; 以及, 从所述关
系词以外的词中选取K个负样例词, K为大于或者等于1的正整数; 其中, 所述负样例词从所
述样本分词的对立关系的词中随机选取, 和/或者, 从所述WordNet词表和/或样 本语料中的
除去所述关系词以外的剩余词中随机获取;
获取所述样本分词对应的句子、 每个所述正样例词对应的句子和每个所述负样例词对
应的句子;
按照预设比例对获取到的句子进行局部遮罩mask处 理;
对局部遮罩处 理后的各个句子 两两拼接, 并使用拼接后的句子训练预训练语言模型。
2.根据权利要求1所述的方法, 其特征在于, 所述从WordNet词表中获取样本分词的多
个关系词之前, 还 包括:
对所述样本语料进行分句和 切词处理, 得到多个样本句子和多个所述样本分词;
记录所述样本分词与 所述样本句子的对应关系, 所述对应关系 包括每个样本分词包含
在哪些样本句子中。
3.根据权利要求2所述的方法, 其特征在于, 从WordNet词表中获取所述样本分词的关
系词, 还包括: 从所述WordNet词表获取所述样本分词及其各个所述关系词对应的定义句,
所述定义句用于解释所述样 本分词或所述关系词, 以及, 从所述WordNet词表获取所述样 本
分词及其各个所述关系词对应的例 句, 所述例 句包含所述样本分词或者所述关系词。
4.根据权利要求2所述的方法, 其特征在于, 所述从所述关系词中随机选取N个正样例
词, 包括:
判断所述样本分词在所述 WordNet词表中是否存在;
如果存在, 从所述样本分词的所述关系词中随机 选取N个词作为所述 正样例词。
5.根据权利要求2所述的方法, 其特征在于, 所述从所述关系词以外的词中选取K个负
样例词, 包括:
判断所述样本分词在所述WordNet词表中是否存在第二关系, 所述第二关系是所述第
一关系的对立关系;
如果存在, 以第一概率从所述样本分词的第二关系的词中选取负样例词, 以第二概率
从所述WordNet词表和 /或样本语料中的除去所述关系词以外的剩 余词中选取所述负样例
词, 所述第一 概率和所述第二 概率之和为1;
如果不存在, 从所述WordNet词 表和/或样本语料中的除去所述关系词以外的剩余词中
获取所述负样例词。
6.根据权利要求3所述的方法, 其特征在于, 所述获取所述样本分词对应的句子、 每个
所述正样例词对应的句子和每 个所述负 样例词对应的句子, 包括:权 利 要 求 书 1/2 页
2
CN 114626371 A
2所述样本分词对应的句子以第三概率从所述样本语料中获取, 以第四概率从所述
WordNet词表中的定义句中获取, 以第五概 率从所述 WordNet词表中的例 句中获取; 和/或,
所述正样例词对应的句子以第三概率从所述样本语料中获取, 以第四概率从所述
WordNet词表中的定义句中获取, 以第五概 率从所述 WordNet词表中的例 句中获取; 和/或,
所述负样例词对应的句子以第三概率从所述样本语料中获取, 以第四概率从所述
WordNet词表中的定义句中获取, 以第五概 率从所述 WordNet词表中的例 句中获取;
所述第三概率、 所述第四概率和所述第五概率之和为1, 所述第三概率大于所述第四概
率和所述第五概 率。
7.根据权利要求1所述的方法, 其特征在于, 所述按照预设比例对获取到的句子进行局
部遮罩处 理, 包括:
对获取到的句子 中的词按照第六概率进行随机遮罩处理; 其中, 在被遮罩的词中, 以第
七概率使用预设字符进行遮罩, 以第八概率使用随机词进行遮罩, 以第九概率使用被遮罩
的词的原词进行遮罩; 所述第七概率、 所述第八概率和所述第九概率之和为1, 所述第七概
率大于所述第八概 率和所述第九概 率。
8.根据权利要求1所述的方法, 其特征在于, 所述使用两两拼接后的句子训练预训练语
言模型, 包括: 在嵌入embedding层的结构基础上, 增加关系编码矩阵; 其中, 所述关系编码
矩阵为M×H维矩阵, M为所述预训练语 言模型捕捉的关系的数量加1, 所述 1表示其他关系对
应的维度, H为所述预训练语言模型的隐含层维度。
9.根据权利要求1所述的方法, 其特征在于, 所述使用两两拼接后的句子训练预训练语
言模型, 包括: 在使用预训练语言模型获得句子表示之后, 取所述句子表示中的标志位CLS
的表示, 连接全连接层, 以全连接层的输出作为最 终的句子表示; 其中, 所述全连接层为M ×
H维矩阵, M为所述预训练语言模型捕捉的关系的数量加1, H为所述预训练语言模型的隐含
层维度。
10.一种预训练语言模型的训练装置, 其特 征在于, 包括:
第一取模块, 用于从WordNet词表中获取所述样本分词的关系词, 其中, 所述样本分词
在所述WordNet词表中包含至少一种关系, 所述关系词 与所述样 本分词具有第一关系, 所述
第一关系是从所述至少一种关系中选取 的, 所述关系包含近义关系、 蕴含关系、 属性关系、
反义关系、 上位关系、 下位关系、 整体关系、 部 分关系中的一种或多种, 所述近义关系 与反义
关系互为对立关系, 所述上位关系与所述下位关系互为对立关系, 所述整体关系与所述部
分关系互为对立关系;
第二获取模块, 用于从所述关系词中随机选取N个正样例词, N为大于或者等于2的正整
数; 以及, 从所述关系词以外的词中选取 K个负样例词, K为大于或者 等于1的正整数;
其中, 所述负样例词从所述样本分词的对立关系的词中随机选取, 和/或者, 从所述
WordNet词表和/或样本语料中的除去所述关系词以外的剩余词中随机获取;
第三获取模块, 用于获取所述样本分词对应的句子、 每个所述正样例词对应的句子和
每个所述负 样例词对应的句子;
遮罩模块, 用于按照预设比例对获取到的句子进行局部遮罩处 理;
预训练模块, 用于对局部遮罩处理后的各个句子两两拼接, 并使用拼接后的句子训练
预训练语言模型。权 利 要 求 书 2/2 页
3
CN 114626371 A
3
专利 一种预训练语言模型的训练方法及装置
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:47:50上传分享