(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210368115.0
(22)申请日 2022.04.08
(71)申请人 中国人民解 放军国防科技大 学
地址 410073 湖南省长 沙市开福区砚瓦池
正街47号
(72)发明人 唐宇 乔林波 阚志刚 梁鹏
高翊夫 韩毅 李东升
(74)专利代理 机构 湖南兆弘专利事务所(普通
合伙) 43008
专利代理师 胡君 邹大坚
(51)Int.Cl.
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于乘子交替方向法的BERT模型训练方法
及系统
(57)摘要
本发明公开一种基于乘子交替方向法的
BERT模型训练方法及系统, 该方法步骤包括: 步
骤S1.从训练集中取出待训练语句并提取出词向
量后输入至BERT模型中; 步骤S2.在BERT模型对
输入词向量进行训练时, 使用乘子交替方向法对
目标函数进行求解, 其中确定出目标函数, 并对
输入词向量加入限制条件, 将确定的目标函数变
换为增强拉格朗日函数, 通过求解增强拉格朗日
函数求解出目标函数中各变量参数以及BERT模
型的输出结果; 步骤S3.对目标函数中求解的变
量参数进行更新, 直至完成训练, 得到最终的
BERT模型训练结果输 出。 本发明具有能够避免训
练过程中的梯度消失和爆炸问题, 且易于并行实
现、 训练效率高以及训练性能好 等优点。
权利要求书2页 说明书10页 附图4页
CN 114818725 A
2022.07.29
CN 114818725 A
1.一种基于乘子交替方向法的BERT模型训练方法, 其特 征在于, 步骤 包括:
步骤S1.数据输入: 从训练集中取 出待训练语句并提取 出词向量后输入至BERT模型中;
步骤S2.乘子交替方向法求解: 在BERT模型对输入词向量进行训练时, 使用乘子交替方
向法对目标函数进行求解, 其中使用Transformer模 型中Encoder模块对BERT模型的表示确
定出所述 目标函数, 并对输入词向量加入限制条件, 采用增强拉格朗日算法将所述 目标函
数变换为增强拉格朗日函数, 通过求解所述增强拉格朗日函数求解出所述目标函数中各变
量参数以及 BERT模型的输出 结果;
步骤S3.参数更新: 对所述目标函数中求解的变量参数进行更新, 直至完成训练, 得到
最终的BERT模型训练结果输出以用于事 件抽取。
2.根据权利要求1所述的基于乘子交替方向法的BERT模型训练方法, 其特征在于, 所述
步骤S2中使用Transformer模型中Encoder模块对BERT模型的表示的步骤 包括:
S201.利用Encoder模块对BERT模型进行表示, 得到BERT模型的数 学表达式为:
meo=MultiHead(Xn‑1, Xn‑1, Xn‑1)
leo=LayerNorm(Xn‑1+meo)
feo=FeedForward(leo)
Xn=LayerNorm(leo+feo)
其中, Xn、 Xn‑1分别为第 n、 n‑1个Encoder模块的计算输出结果, MultiHead表示多头机制
模块, LayerNorm表示深度学习中正则化计算模块, FeedForw ard表示为线性变换模块, feo、
meo、 leo分别表示经过FeedForward模块、 多头机制模块和正则化计算模块之后对应的计算
输出结果;
S202.对LayerNorm模块的操作执行ReZero近似计算: 将Transformer模型中的LN层进
行简化, 并对每个LN层定义一个残差参数α, 得到使用Encoder模块对BERT模型进行表示的
数学表达式为:
meo=MultiHead(Xn‑1, Xn‑1, Xn‑1)
leo=Xn‑1+αn1meo
feo=FeedForward(leo)
Xn=leo+αn2feo
其中, αn1、 αn2分别表示meo和feo对应的残差参数。
3.根据权利要求2所述的基于乘子交替方向法的BERT模型训练方法, 其特征在于, 所述
步骤S2中, 按照下式确定出目标函数:
其中, Φ表示求解的最终目标函数, L表示损失函数, ΩE、 ΩD分别为针对E、 D的正则化函
数, E、 D分别表示Transformer模块中的Encoder和 Decoder模块, WEi、 WDi、 Xi‑1分别表示Ei、 Di
的权重和第i ‑1次对应的输入数据, FF表示FeedForward, FF(leo)表示为输入leo的权 利 要 求 书 1/2 页
2
CN 114818725 A
2FeedForward的计算输出, ν表示 为超参数。
4.根据权利要求3所述的基于乘子交替方向法的BERT模型训练方法, 其特征在于, 所述
步骤S2中使用Encoder模块对BERT模型进行表示的数 学表达式设置所述限制条件, 即为:
meo=Multihead(Xn‑1, Xn‑1, Xn‑1)
leo=Xn‑1+αn1meo
feo=FF(leo)
Xn=leo+αn2feo。
5.根据权利要求2所述的基于乘子交替方向法的BERT模型训练方法, 其特征在于, 所述
步骤S2中, 变换 得到的所述增强拉格朗日函数 具体为:
其中, λ1, λ2, λ3, λ4分别为拉格朗日算子, ρ1, ρ2, ρ3, ρ4分别为超参数;
通过求解出变量meo, Xn‑1, αn1, leo, feo, αn2, Xn, 以完成对所述目标函数的求 解。
6.根据权利要求1~5 中任意一项所述的基于乘子交替方向法的BERT模型训练方法, 其
特征在于, 所述步骤S3中, 采用backward ‑forward的参数更新顺序对所述目标函数中求解
的变量参数进行更新, 即前向过程按照先更新权重后更新偏差的规则更新、 后向过程按照
先更新偏差后执 行更新权重的规则更新。
7.根据权利要求6所述的基于乘子交替方向法的BERT模型训练方法, 其特征在于, 对所
述目标函数中求解的变量参数, 具体按照Xn→αn2→feo→leo→αn1→meo→Xn‑1→Xn‑1→meo→αn1
→leo→feo→αn2→Xn的顺序进行更新, 其中Xn、 Xn‑1分别为第n、 n ‑1个Encoder模块的计 算输出
结果, feo、 meo、 leo分别表示经过FeedForward模块、 多头机制模块和正则化计算模块之后对
应的计算输出 结果, αn1、 αn2分别表示meo和feo对应的残差参数。
8.根据权利要求1~5 中任意一项所述的基于乘子交替方向法的BERT模型训练方法, 其
特征在于, 所述步骤S 3中, 当目标参数更新完成之后, 立即释放已经更新完成的参数所占据
的内存。
9.一种基于乘子交替方向法的BERT模型训练系统, 包括处理器以及存储器, 所述存储
器用于存储计算机程序, 所述处理器用于执行所述计算机程序, 其特征在于, 所述处理器用
于执行所述计算机程序以执 行如权利要求1~8中任意 一项所述方法。
10.一种存储有计算机程序的计算机可读存储介质, 其特征在于, 所述计算机程序 执行
时实现如权利要求1~8中任意 一项所述的方法。权 利 要 求 书 2/2 页
3
CN 114818725 A
3
专利 基于乘子交替方向法的BERT模型训练方法及系统
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:48:42上传分享