专利语言模型的训练方法、文本匹配方法及相关装置 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210261106.1 (22)申请日 2022.03.16 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人余剑扬　陈楚杰　谢润泉　邵纪春　 (74)专利代理机构北京三高永信知识产权代理有限责任公司 1 1138 专利代理师李文静 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/205(2020.01) G06F 40/211(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称语言模型的训练方法、文本匹配方法及相关装置 (57)摘要本申请公开了一种语言模型的训练方法、文本匹配方法及相关装置，本申请提供的方案能够通过粒度划分，将目标领域的高频词语融入第一训练文本，并以SOP 任务和MSP 任务为第一阶段的训练任务，采用该第一训练文本预训练语言模型。由此，在预训练阶段，该方法不仅能够让语言模型学习到通用领域的知识，还能够学习到目标领域的知识。并且，该方法还能够以文本匹配任务为第二阶段的训练任务，采用从目标领域获取到的第二训练文本训练语言模型，从而使语言模型能够更广泛地学习到该目标领域的基础知识。由此，可以增加该语言模型的泛化能力，从而确保模型的训练效果。权利要求书3页说明书21页附图11页 CN 114626463 A 2022.06.14 CN 114626463 A 1.一种语言模型的训练方法，其特征在于，所述方法包括：从文档库中的第一文档中获取两个句子样本，所述文档库中包含目标领域的文档；分别对每个所述句子样本进行粒度划分，粒度划分后的所述句子样本包括多个句子段，至少一个所述句子段包括多个文字，以及由所述多个文字组成的至少一个属于高频词语库的词语，所述高频词语库中包含所述目标领域的高频词语；对粒度划分后的所述两个句子样本中的至少一个所述句子段进行掩码处理，得到第一训练文本；以句子顺序预测 SOP任务和掩码段预测MSP任务为第一阶段的训练任务，采用所述第一训练文本预训练语言模型，所述SOP任务用于预测所述两个句子样本在所述第一文档中的顺序，所述MS P任务用于预测被掩码处理的至少一个句子段；以文本匹配任务为第二阶段的训练任务，采用第二训练文本训练所述语言模型，所述第二训练文本包括所述目标领域的第一输入文本，以及所述目标领域的第二文档的标识文本，所述文本匹配任务用于预测所述第二文档与所述第一输入文本的匹配度。 2.根据权利要求1所述的方法，其特征在于，所述对粒度划分后的两个句子样本中的至少一个所述句子段进行掩码处理，包括：从粒度划分后的两个句子样本中获取至少一个所述句子段；对于每个所述句子段，将所述句子段中的第一句子成分替换为掩码，并将所述句子段中的第二句子成分替换为其他句子成分；其中，所述第一句子成分和所述第二句子成分均为单个文字或词语。 3.根据权利要求1所述的方法，其特征在于，所述以句子顺序预测SOP任务和掩码段预测MSP任务为第一阶段的训练任务，采用所述第一训练文本预训练语言模型，包括：将所述第一训练文本输入至所述语言模型，得到所述语言模型输出的预测顺序，以及预测句子段；根据所述预测顺序和所述两个句子样本的顺序标签，确定第一损失值，所述顺序标签用于指示所述两个句子样本在所述第一文档中的顺序；根据所述预测句子段和所述粒度划分后的两个句子样本中被掩码处理的句子段，确定第二损失值；根据所述第一损失值和所述第二损失值预训练所述语言模型。 4.根据权利要求3所述的方法，其特征在于，在以句子顺序预测SOP任务和掩码段预测 MSP任务为第一阶段的训练任务，采用所述第一训练文本预训练语言模型之前，所述方法还包括：若所述两个句子样本在所述第一训练文本中的顺序与在所述第一文档中的顺序相同，则将所述两个句子样本的顺序标签设置为第一标签；若所述两个句子样本在所述第一训练文本中的顺序与在所述第一文档中的顺序不同，则将所述两个句子样本的顺序标签设置为第二标签。 5.根据权利要求1至4任一所述的方法，其特征在于，所述以文本匹配任务为第二阶段的训练任务，采用第二训练文本训练所述语言模型，包括：将所述第二训练文本输入至所述语言模型，得到所述语言模型输出的预测匹配度；根据所述预测匹配度，以及所述第二文档与所述第一输入文本的匹配度标签，确定第权　利　要　求　书 1/3 页 2 CN 114626463 A 2三损失值；根据所述第三损失值训练所述语言模型。 6.根据权利要求5所述的方法，其特征在于，在以文本匹配任务为第二阶段的训练任务，采用第二训练文本训练所述语言模型之前，所述方法还包括：从所述目标领域的数据库中获取所述第一输入文本，以及与所述第一输入文本关联的第二文档的标识文本，得到所述第二训练文本；计算所述第一输入文本与所述第二文档的匹配度，得到所述匹配度标签。 7.根据权利要求1至4任一所述的方法，其特征在于，所述方法还包括：以所述文本匹配任务为第三阶段的训练任务，采用第三训练文本训练所述语言模型，所述第三训练文本包括所述目标领域的第二输入文本，以及所述目标领域的第三文档的标识文本；其中，所述第二训练文本中第一输入文本与第二文档的匹配度由机器标注，所述第三训练文本中第二输入文本与第三文档的匹配度由人工标注。 8.一种文本匹配方法，其特征在于，所述方法包括：获取目标输入文本；将所述目标输入文本输入至文本匹配模型，得到所述文本匹配模型输出的与所述目标输入文本所匹配的推荐文档的标识文本；其中，所述文本匹配模型是采用如权利要求1至7任一所述的方法对语言模型进行训练得到的。 9.一种语言模型的训练装置，其特征在于，所述装置包括：获取模块，用于从文档库中的第一文档中获取两个句子样本，所述文档库中包含目标领域的文档；划分模块，用于分别对每个所述句子样本进行粒度划分，粒度划分后的所述句子样本包括多个句子段，至少一个所述句子段包括多个文字，以及由所述多个文字组成的至少一个属于高频词语库的词语，所述高频词语库中包含所述目标领域的高频词语；掩码模块，用于对粒度划分后的所述两个句子样本中的至少一个所述句子段进行掩码处理，得到第一训练文本；训练模块，用于以句子顺序预测SOP任务和掩码段预测MSP任务为第一阶段的训练任务，采用所述第一训练文本预训练语言模型，所述SOP任务用于预测所述两个句子样本在所述第一文档中的顺序，所述MS P任务用于预测被掩码处理的至少一个句子段；所述训练模块，还用于以文本匹配任务为第二阶段的训练任务，采用第二训练文本训练所述语言模型，所述第二训练文本包括所述目标领域的第一输入文本，以及所述目标领域的第二文档的标识文本，所述文本匹配任务用于预测所述第二文本与所述第一输入文本的匹配度。 10.一种文本匹配装置，其特征在于，所述装置包括：获取模块，用于获取目标输入文本；匹配模块，用于将所述目标输入文本输入至文本匹配模型，得到所述文本匹配模型输出的与所述目标输入文本所匹配的推荐文档的标识文本；其中，所述文本匹配模型采用如权利要求9所述的语言模型的训练装置训练得到。权　利　要　求　书 2/3 页 3 CN 114626463 A 3

专利 语言模型的训练方法、文本匹配方法及相关装置

专利语言模型的训练方法、文本匹配方法及相关装置