(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210443857.5
(22)申请日 2022.04.26
(71)申请人 阿里巴巴 (中国) 有限公司
地址 311121 浙江省杭州市余杭区五常街
道文一西路969号3幢5层5 54室
(72)发明人 谭传奇 黄非 黄松芳 张宁豫
李泺秋 陈想 邓淑敏 毕祯
陈华钧
(74)专利代理 机构 北京合智同创知识产权代理
有限公司 1 1545
专利代理师 李杰
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 16/33(2019.01)
G06F 40/186(2020.01)G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
(54)发明名称
语言模型微调方法、 文本分类方法、 装置及
设备
(57)摘要
本申请实施例提供了一种语言模型微调方
法、 文本分类方法、 装置及设备。 微调方法包括:
获取第一输入词向量, 第一输入词向量包括: 训
练样本对应的训练样本词向量、 模板词对应的初
始模板词向量以及第一掩码; 将第一输入词向量
输入预训练语 言模型, 得到第一掩码对应的第一
预测词向量; 基于第一预测词向量、 各预设标签
词对应的初始标签词向量 以及训练样本的真实
标签词向量, 得到第一损失值; 并基于第一损失
值对预训练语 言模型、 初始模板词向量以及初始
标签词向量进行训练, 得到训练完成的语言模
型、 模板词向量以及标签词向量。 本申请实施例
可以减少人工工作量, 同时, 提升最终得到的语
言模型的预测性能。
权利要求书2页 说明书11页 附图5页
CN 114896395 A
2022.08.12
CN 114896395 A
1.一种语言模型微调方法, 包括:
获取第一输入词向量, 所述第 一输入词向量包括: 训练样本对应的训练样本词向量、 模
板词对应的初始模板词向量以及第一掩码;
将所述第一输入词向量输入预训练语言模型, 得到所述第 一掩码对应的第 一预测词向
量;
基于所述第 一预测词向量、 各预设标签词对应的初始标签词向量以及所述训练样本的
真实标签词向量, 得到第一损失值; 并基于所述第一损失值对 所述预训练语言模 型、 所述初
始模板词向量以及所述初始标签词向量进行训练, 得到训练完成的语言模型、 模板词向量
以及标签词向量。
2.根据权利要求1所述的方法, 其中, 所述方法还 包括:
获取第二输入词向量, 所述第 二输入词向量包括: 掩码样本对应的掩码样本词向量、 所
述初始模板词向量以及所述真实标签词向量; 所述掩码样本为对所述训练样本进 行掩码处
理得到的样本; 所述掩码 样本词向量中包 含有第二掩码;
将所述第二输入词向量输入所述预训练语言模型, 得到所述第 二掩码对应的第 二预测
词向量;
基于所述第 二预测词向量、 所述预训练语言模型对应的词汇表中各词元的词元向量以
及所述第二掩码对应的真实词元向量, 得到第二损失值;
融合所述第一损失值和所述第二损失值, 得到融合损失值;
所述基于所述第 一损失值对所述预训练语言模型、 所述初始模板词向量以及所述初始
标签词向量进行训练, 得到训练完成的语言模型、 模板词向量以及标签词向量, 包括:
基于所述融合损失值对所述预训练语言模型、 所述初始模板词向量以及所述初始标签
词向量进行训练, 得到训练完成的语言模型、 模板词向量以及标签词向量。
3.根据权利要求2所述的方法, 其中, 所述基于所述第一预测词向量、 各预设标签词对
应的初始标签词向量以及所述训练样本的真实标签词向量, 得到第一损失值, 包括:
基于所述第 一预测词向量、 各预设标签词对应的初始标签词向量以及所述训练样本的
真实标签词向量, 通过交叉熵损失函数 得到第一损失值;
所述基于所述第 二预测词向量、 所述预训练语言模型对应的词汇表中各词元的词元向
量以及所述第二掩码对应的真实词元向量, 得到第二损失值, 包括:
基于所述第 二预测词向量、 所述预训练语言模型对应的词汇表中各词元的词元向量以
及所述第二掩码对应的真实词元向量, 通过交叉熵损失函数 得到第二损失值。
4.根据权利要求2或3所述的方法, 其中, 所述融合所述第 一损失值和所述第 二损失值,
得到融合损失值, 包括:
获取所述第一损失值对应的第一权 重值和所述第二损失值对应的第二权 重值;
基于所述第 一权重值和所述第 二权重值, 对所述第 一损失值和所述第 二损失值进行加
权融合, 得到融合损失值。
5.根据权利要求1所述的方法, 其中, 所述模板词和所述预设标签词均为所述预训练语
言模型对应的词汇 表中已存在且未被使用的非语义词元。
6.一种文本分类方法, 包括:
获取待分类的目标文本;权 利 要 求 书 1/2 页
2
CN 114896395 A
2获取目标词向量, 所述目标词向量包括: 所述目标文本对应的目标文本词向量、 模板词
对应的模板词向量以及掩码;
将所述目标词向量输入预 先训练完成的语言模型, 得到所述掩码对应的预测词向量;
基于所述预测词向量和各预设标签词对应的标签词向量之间的相似度, 确定所述目标
文本的类别标签;
其中, 所述语言模型、 所述模板词向量以及所述标签词向量为通过权利要求1 ‑5任一方
法得到的。
7.一种语言模型微调装置, 包括:
第一获取模块, 用于获取第 一输入词向量, 所述第 一输入词向量包括: 训练样本对应的
训练样本词向量、 模板词对应的初始模板词向量以及第一掩码;
第一预测模块, 用于将所述第一输入词向量输入预训练语言模型, 得到所述第一掩码
对应的第一预测词向量;
训练模块, 用于基于所述第一预测词向量、 各预设标签词对应的初始标签词向量以及
所述训练样本的真实标签词向量, 得到第一损失值; 并基于所述第一损失值对所述预训练
语言模型、 所述初始模板词向量以及所述初始标签词向量进行训练, 得到训练完成的语言
模型、 模板词向量以及标签词向量。
8.一种文本分类装置, 包括:
目标文本获取模块, 用于获取待分类的目标文本;
目标词向量获取模块, 用于获取目标词向量, 所述目标词向量包括: 所述目标文本对应
的目标文本词向量、 模板词对应的模板词向量以及掩码;
预测词向量得到模块, 用于将所述目标词向量输入预先训练完成的语言模型, 得到所
述掩码对应的预测词向量;
类别标签确定模块, 用于基于所述预测词向量和各预设标签词对应的标签词向量之间
的相似度, 确定所述目标文本的类别标签;
其中, 所述语言模型、 所述模板词向量以及所述标签词向量为通过权利要求1 ‑5任一方
法得到的。
9.一种电子设备, 包括: 处理器、 存储器、 通信接口和通信总线, 所述处理器、 所述存储
器和所述 通信接口通过 所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令, 所述可执行指令使所述处理器执行如权利要
求1‑5中任一项所述的语言模型微调方法对应的操作, 或者, 执行如权利要求6所述的文本
分类方法对应的操作。
10.一种计算机存储介质, 其上存储有计算机程序, 该程序被处理器执行时实现如权利
要求1‑5中任一所述的语言模型微调方法, 或者, 实现如权利要求6所述的文本分类方法。
11.一种计算机程序产品, 包括计算机指令, 所述计算机指令指示计算设备执行如权利
要求1‑5中任一所述的语言模型微调方法对应的操作, 或者, 执行如权利要求6所述的文本
分类方法对应的操作。权 利 要 求 书 2/2 页
3
CN 114896395 A
3
专利 语言模型微调方法、文本分类方法、装置及设备
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:52:32上传分享