专利基于乘子交替方向法的BERT模型训练方法及系统 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210368115.0 (22)申请日 2022.04.08 (71)申请人中国人民解放军国防科技大学地址 410073 湖南省长沙市开福区砚瓦池正街47号 (72)发明人唐宇　乔林波　阚志刚　梁鹏　高翊夫　韩毅　李东升　 (74)专利代理机构湖南兆弘专利事务所(普通合伙) 43008 专利代理师胡君　邹大坚 (51)Int.Cl. G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于乘子交替方向法的BERT模型训练方法及系统 (57)摘要本发明公开一种基于乘子交替方向法的 BERT模型训练方法及系统，该方法步骤包括：步骤S1.从训练集中取出待训练语句并提取出词向量后输入至BERT模型中；步骤S2.在BERT模型对输入词向量进行训练时，使用乘子交替方向法对目标函数进行求解，其中确定出目标函数，并对输入词向量加入限制条件，将确定的目标函数变换为增强拉格朗日函数，通过求解增强拉格朗日函数求解出目标函数中各变量参数以及BERT模型的输出结果；步骤S3.对目标函数中求解的变量参数进行更新，直至完成训练，得到最终的 BERT模型训练结果输出。本发明具有能够避免训练过程中的梯度消失和爆炸问题，且易于并行实现、训练效率高以及训练性能好等优点。权利要求书2页说明书10页附图4页 CN 114818725 A 2022.07.29 CN 114818725 A 1.一种基于乘子交替方向法的BERT模型训练方法，其特征在于，步骤包括：步骤S1.数据输入：从训练集中取出待训练语句并提取出词向量后输入至BERT模型中；步骤S2.乘子交替方向法求解：在BERT模型对输入词向量进行训练时，使用乘子交替方向法对目标函数进行求解，其中使用Transformer模型中Encoder模块对BERT模型的表示确定出所述目标函数，并对输入词向量加入限制条件，采用增强拉格朗日算法将所述目标函数变换为增强拉格朗日函数，通过求解所述增强拉格朗日函数求解出所述目标函数中各变量参数以及 BERT模型的输出结果；步骤S3.参数更新：对所述目标函数中求解的变量参数进行更新，直至完成训练，得到最终的BERT模型训练结果输出以用于事件抽取。 2.根据权利要求1所述的基于乘子交替方向法的BERT模型训练方法，其特征在于，所述步骤S2中使用Transformer模型中Encoder模块对BERT模型的表示的步骤包括： S201.利用Encoder模块对BERT模型进行表示，得到BERT模型的数学表达式为： meo＝MultiHead(Xn‑1， Xn‑1， Xn‑1) leo＝LayerNorm(Xn‑1+meo) feo＝FeedForward(leo) Xn＝LayerNorm(leo+feo) 其中， Xn、 Xn‑1分别为第 n、 n‑1个Encoder模块的计算输出结果， MultiHead表示多头机制模块， LayerNorm表示深度学习中正则化计算模块， FeedForw ard表示为线性变换模块， feo、 meo、 leo分别表示经过FeedForward模块、多头机制模块和正则化计算模块之后对应的计算输出结果； S202.对LayerNorm模块的操作执行ReZero近似计算：将Transformer模型中的LN层进行简化，并对每个LN层定义一个残差参数α，得到使用Encoder模块对BERT模型进行表示的数学表达式为： meo＝MultiHead(Xn‑1， Xn‑1， Xn‑1) leo＝Xn‑1+αn1meo feo＝FeedForward(leo) Xn＝leo+αn2feo 其中， αn1、 αn2分别表示meo和feo对应的残差参数。 3.根据权利要求2所述的基于乘子交替方向法的BERT模型训练方法，其特征在于，所述步骤S2中，按照下式确定出目标函数：其中， Φ表示求解的最终目标函数， L表示损失函数， ΩE、 ΩD分别为针对E、 D的正则化函数， E、 D分别表示Transformer模块中的Encoder和 Decoder模块， WEi、 WDi、 Xi‑1分别表示Ei、 Di 的权重和第i ‑1次对应的输入数据， FF表示FeedForward， FF(leo)表示为输入leo的权　利　要　求　书 1/2 页 2 CN 114818725 A 2FeedForward的计算输出， ν表示为超参数。 4.根据权利要求3所述的基于乘子交替方向法的BERT模型训练方法，其特征在于，所述步骤S2中使用Encoder模块对BERT模型进行表示的数学表达式设置所述限制条件，即为： meo＝Multihead(Xn‑1， Xn‑1， Xn‑1) leo＝Xn‑1+αn1meo feo＝FF(leo) Xn＝leo+αn2feo。 5.根据权利要求2所述的基于乘子交替方向法的BERT模型训练方法，其特征在于，所述步骤S2中，变换得到的所述增强拉格朗日函数具体为：其中， λ1， λ2， λ3， λ4分别为拉格朗日算子， ρ1， ρ2， ρ3， ρ4分别为超参数；通过求解出变量meo， Xn‑1， αn1， leo， feo， αn2， Xn，以完成对所述目标函数的求解。 6.根据权利要求1～5 中任意一项所述的基于乘子交替方向法的BERT模型训练方法，其特征在于，所述步骤S3中，采用backward ‑forward的参数更新顺序对所述目标函数中求解的变量参数进行更新，即前向过程按照先更新权重后更新偏差的规则更新、后向过程按照先更新偏差后执行更新权重的规则更新。 7.根据权利要求6所述的基于乘子交替方向法的BERT模型训练方法，其特征在于，对所述目标函数中求解的变量参数，具体按照Xn→αn2→feo→leo→αn1→meo→Xn‑1→Xn‑1→meo→αn1 →leo→feo→αn2→Xn的顺序进行更新，其中Xn、 Xn‑1分别为第n、 n ‑1个Encoder模块的计算输出结果， feo、 meo、 leo分别表示经过FeedForward模块、多头机制模块和正则化计算模块之后对应的计算输出结果， αn1、 αn2分别表示meo和feo对应的残差参数。 8.根据权利要求1～5 中任意一项所述的基于乘子交替方向法的BERT模型训练方法，其特征在于，所述步骤S 3中，当目标参数更新完成之后，立即释放已经更新完成的参数所占据的内存。 9.一种基于乘子交替方向法的BERT模型训练系统，包括处理器以及存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，其特征在于，所述处理器用于执行所述计算机程序以执行如权利要求1～8中任意一项所述方法。 10.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序执行时实现如权利要求1～8中任意一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114818725 A 3

专利 基于乘子交替方向法的BERT模型训练方法及系统

专利基于乘子交替方向法的BERT模型训练方法及系统