专利一种预训练语言模型的训练方法及装置 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221028723 6.2 (22)申请日 2022.03.22 (71)申请人鼎富智能科技有限公司地址 230000 安徽省合肥市高新区习友路 3333号A1楼19层-B区 (72)发明人李健铨　吴相博　胡加明　 (74)专利代理机构北京弘权知识产权代理有限公司 11363 专利代理师李少丹　许伟群 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/30(2020.01) G06F 40/126(2020.01) G06F 40/242(2020.01) G06K 9/62(2022.01) (54)发明名称一种预训练语言模型的训练方法及装置 (57)摘要本申请实施例提供了一种预训练语言模型的训练方法及装置。包括：从WordNet词表中获取样本分词的关系词，其中，样本分词在WordNet词表中包含至少一种关系，关系词与样本分词具有第一关系，第一关系是从至少一种关系中选取的；从关系词中随机选取N个正样例词；以及，从关系词以外的词中选取K个负样例词；获取样本分词、每个正样例词和每个负样例词对应的句子；对获取到的句子进行局部遮罩mask处理；对遮罩处理后的各个句子两两拼接，并使用拼接后的句子训练预训练语言模型。本申请实施例的技术方案，能够使预训练语言模型捕捉到更丰富语义空间的词语或句子级别的表示，从而提高了下游任务的使用效果。权利要求书2页说明书10页附图3页 CN 114626371 A 2022.06.14 CN 114626371 A 1.一种预训练语言模型的训练方法，其特征在于，包括：从WordNet词表中获取所述样本分词的关系词，其中，所述样本分词在所述WordNet词表中包含至少一种关系，所述关系词与所述样本分词具有第一关系，所述第一关系是从所述至少一种关系中选取的，所述关系包含近义关系、蕴含关系、属性关系、反义关系、上位关系、下位关系、整体关系、部分关系中的一种或多种，所述近义关系与反义关系互为对立关系，所述上位关系与所述下位关系互为对立关系，所述整体关系与所述部分关系互为对立关系；从所述关系词中随机选取N个正样例词， N为大于或者等于2的正整数；以及，从所述关系词以外的词中选取K个负样例词， K为大于或者等于1的正整数；其中，所述负样例词从所述样本分词的对立关系的词中随机选取，和/或者，从所述WordNet词表和/或样本语料中的除去所述关系词以外的剩余词中随机获取；获取所述样本分词对应的句子、每个所述正样例词对应的句子和每个所述负样例词对应的句子；按照预设比例对获取到的句子进行局部遮罩mask处理；对局部遮罩处理后的各个句子两两拼接，并使用拼接后的句子训练预训练语言模型。 2.根据权利要求1所述的方法，其特征在于，所述从WordNet词表中获取样本分词的多个关系词之前，还包括：对所述样本语料进行分句和切词处理，得到多个样本句子和多个所述样本分词；记录所述样本分词与所述样本句子的对应关系，所述对应关系包括每个样本分词包含在哪些样本句子中。 3.根据权利要求2所述的方法，其特征在于，从WordNet词表中获取所述样本分词的关系词，还包括：从所述WordNet词表获取所述样本分词及其各个所述关系词对应的定义句，所述定义句用于解释所述样本分词或所述关系词，以及，从所述WordNet词表获取所述样本分词及其各个所述关系词对应的例句，所述例句包含所述样本分词或者所述关系词。 4.根据权利要求2所述的方法，其特征在于，所述从所述关系词中随机选取N个正样例词，包括：判断所述样本分词在所述 WordNet词表中是否存在；如果存在，从所述样本分词的所述关系词中随机选取N个词作为所述正样例词。 5.根据权利要求2所述的方法，其特征在于，所述从所述关系词以外的词中选取K个负样例词，包括：判断所述样本分词在所述WordNet词表中是否存在第二关系，所述第二关系是所述第一关系的对立关系；如果存在，以第一概率从所述样本分词的第二关系的词中选取负样例词，以第二概率从所述WordNet词表和 /或样本语料中的除去所述关系词以外的剩余词中选取所述负样例词，所述第一概率和所述第二概率之和为1；如果不存在，从所述WordNet词表和/或样本语料中的除去所述关系词以外的剩余词中获取所述负样例词。 6.根据权利要求3所述的方法，其特征在于，所述获取所述样本分词对应的句子、每个所述正样例词对应的句子和每个所述负样例词对应的句子，包括：权　利　要　求　书 1/2 页 2 CN 114626371 A 2所述样本分词对应的句子以第三概率从所述样本语料中获取，以第四概率从所述 WordNet词表中的定义句中获取，以第五概率从所述 WordNet词表中的例句中获取；和/或，所述正样例词对应的句子以第三概率从所述样本语料中获取，以第四概率从所述 WordNet词表中的定义句中获取，以第五概率从所述 WordNet词表中的例句中获取；和/或，所述负样例词对应的句子以第三概率从所述样本语料中获取，以第四概率从所述 WordNet词表中的定义句中获取，以第五概率从所述 WordNet词表中的例句中获取；所述第三概率、所述第四概率和所述第五概率之和为1，所述第三概率大于所述第四概率和所述第五概率。 7.根据权利要求1所述的方法，其特征在于，所述按照预设比例对获取到的句子进行局部遮罩处理，包括：对获取到的句子中的词按照第六概率进行随机遮罩处理；其中，在被遮罩的词中，以第七概率使用预设字符进行遮罩，以第八概率使用随机词进行遮罩，以第九概率使用被遮罩的词的原词进行遮罩；所述第七概率、所述第八概率和所述第九概率之和为1，所述第七概率大于所述第八概率和所述第九概率。 8.根据权利要求1所述的方法，其特征在于，所述使用两两拼接后的句子训练预训练语言模型，包括：在嵌入embedding层的结构基础上，增加关系编码矩阵；其中，所述关系编码矩阵为M×H维矩阵， M为所述预训练语言模型捕捉的关系的数量加1，所述 1表示其他关系对应的维度， H为所述预训练语言模型的隐含层维度。 9.根据权利要求1所述的方法，其特征在于，所述使用两两拼接后的句子训练预训练语言模型，包括：在使用预训练语言模型获得句子表示之后，取所述句子表示中的标志位CLS 的表示，连接全连接层，以全连接层的输出作为最终的句子表示；其中，所述全连接层为M × H维矩阵， M为所述预训练语言模型捕捉的关系的数量加1， H为所述预训练语言模型的隐含层维度。 10.一种预训练语言模型的训练装置，其特征在于，包括：第一取模块，用于从WordNet词表中获取所述样本分词的关系词，其中，所述样本分词在所述WordNet词表中包含至少一种关系，所述关系词与所述样本分词具有第一关系，所述第一关系是从所述至少一种关系中选取的，所述关系包含近义关系、蕴含关系、属性关系、反义关系、上位关系、下位关系、整体关系、部分关系中的一种或多种，所述近义关系与反义关系互为对立关系，所述上位关系与所述下位关系互为对立关系，所述整体关系与所述部分关系互为对立关系；第二获取模块，用于从所述关系词中随机选取N个正样例词， N为大于或者等于2的正整数；以及，从所述关系词以外的词中选取 K个负样例词， K为大于或者等于1的正整数；其中，所述负样例词从所述样本分词的对立关系的词中随机选取，和/或者，从所述 WordNet词表和/或样本语料中的除去所述关系词以外的剩余词中随机获取；第三获取模块，用于获取所述样本分词对应的句子、每个所述正样例词对应的句子和每个所述负样例词对应的句子；遮罩模块，用于按照预设比例对获取到的句子进行局部遮罩处理；预训练模块，用于对局部遮罩处理后的各个句子两两拼接，并使用拼接后的句子训练预训练语言模型。权　利　要　求　书 2/2 页 3 CN 114626371 A 3

专利 一种预训练语言模型的训练方法及装置

专利一种预训练语言模型的训练方法及装置