(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210368115.0 (22)申请日 2022.04.08 (71)申请人 中国人民解 放军国防科技大 学 地址 410073 湖南省长 沙市开福区砚瓦池 正街47号 (72)发明人 唐宇 乔林波 阚志刚 梁鹏  高翊夫 韩毅 李东升  (74)专利代理 机构 湖南兆弘专利事务所(普通 合伙) 43008 专利代理师 胡君 邹大坚 (51)Int.Cl. G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于乘子交替方向法的BERT模型训练方法 及系统 (57)摘要 本发明公开一种基于乘子交替方向法的 BERT模型训练方法及系统, 该方法步骤包括: 步 骤S1.从训练集中取出待训练语句并提取出词向 量后输入至BERT模型中; 步骤S2.在BERT模型对 输入词向量进行训练时, 使用乘子交替方向法对 目标函数进行求解, 其中确定出目标函数, 并对 输入词向量加入限制条件, 将确定的目标函数变 换为增强拉格朗日函数, 通过求解增强拉格朗日 函数求解出目标函数中各变量参数以及BERT模 型的输出结果; 步骤S3.对目标函数中求解的变 量参数进行更新, 直至完成训练, 得到最终的 BERT模型训练结果输 出。 本发明具有能够避免训 练过程中的梯度消失和爆炸问题, 且易于并行实 现、 训练效率高以及训练性能好 等优点。 权利要求书2页 说明书10页 附图4页 CN 114818725 A 2022.07.29 CN 114818725 A 1.一种基于乘子交替方向法的BERT模型训练方法, 其特 征在于, 步骤 包括: 步骤S1.数据输入: 从训练集中取 出待训练语句并提取 出词向量后输入至BERT模型中; 步骤S2.乘子交替方向法求解: 在BERT模型对输入词向量进行训练时, 使用乘子交替方 向法对目标函数进行求解, 其中使用Transformer模 型中Encoder模块对BERT模型的表示确 定出所述 目标函数, 并对输入词向量加入限制条件, 采用增强拉格朗日算法将所述 目标函 数变换为增强拉格朗日函数, 通过求解所述增强拉格朗日函数求解出所述目标函数中各变 量参数以及 BERT模型的输出 结果; 步骤S3.参数更新: 对所述目标函数中求解的变量参数进行更新, 直至完成训练, 得到 最终的BERT模型训练结果输出以用于事 件抽取。 2.根据权利要求1所述的基于乘子交替方向法的BERT模型训练方法, 其特征在于, 所述 步骤S2中使用Transformer模型中Encoder模块对BERT模型的表示的步骤 包括: S201.利用Encoder模块对BERT模型进行表示, 得到BERT模型的数 学表达式为: meo=MultiHead(Xn‑1, Xn‑1, Xn‑1) leo=LayerNorm(Xn‑1+meo) feo=FeedForward(leo) Xn=LayerNorm(leo+feo) 其中, Xn、 Xn‑1分别为第 n、 n‑1个Encoder模块的计算输出结果, MultiHead表示多头机制 模块, LayerNorm表示深度学习中正则化计算模块, FeedForw ard表示为线性变换模块, feo、 meo、 leo分别表示经过FeedForward模块、 多头机制模块和正则化计算模块之后对应的计算 输出结果; S202.对LayerNorm模块的操作执行ReZero近似计算: 将Transformer模型中的LN层进 行简化, 并对每个LN层定义一个残差参数α, 得到使用Encoder模块对BERT模型进行表示的 数学表达式为: meo=MultiHead(Xn‑1, Xn‑1, Xn‑1) leo=Xn‑1+αn1meo feo=FeedForward(leo) Xn=leo+αn2feo 其中, αn1、 αn2分别表示meo和feo对应的残差参数。 3.根据权利要求2所述的基于乘子交替方向法的BERT模型训练方法, 其特征在于, 所述 步骤S2中, 按照下式确定出目标函数: 其中, Φ表示求解的最终目标函数, L表示损失函数, ΩE、 ΩD分别为针对E、 D的正则化函 数, E、 D分别表示Transformer模块中的Encoder和 Decoder模块, WEi、 WDi、 Xi‑1分别表示Ei、 Di 的权重和第i ‑1次对应的输入数据, FF表示FeedForward, FF(leo)表示为输入leo的权 利 要 求 书 1/2 页 2 CN 114818725 A 2FeedForward的计算输出, ν表示 为超参数。 4.根据权利要求3所述的基于乘子交替方向法的BERT模型训练方法, 其特征在于, 所述 步骤S2中使用Encoder模块对BERT模型进行表示的数 学表达式设置所述限制条件, 即为: meo=Multihead(Xn‑1, Xn‑1, Xn‑1) leo=Xn‑1+αn1meo feo=FF(leo) Xn=leo+αn2feo。 5.根据权利要求2所述的基于乘子交替方向法的BERT模型训练方法, 其特征在于, 所述 步骤S2中, 变换 得到的所述增强拉格朗日函数 具体为: 其中, λ1, λ2, λ3, λ4分别为拉格朗日算子, ρ1, ρ2, ρ3, ρ4分别为超参数; 通过求解出变量meo, Xn‑1, αn1, leo, feo, αn2, Xn, 以完成对所述目标函数的求 解。 6.根据权利要求1~5 中任意一项所述的基于乘子交替方向法的BERT模型训练方法, 其 特征在于, 所述步骤S3中, 采用backward ‑forward的参数更新顺序对所述目标函数中求解 的变量参数进行更新, 即前向过程按照先更新权重后更新偏差的规则更新、 后向过程按照 先更新偏差后执 行更新权重的规则更新。 7.根据权利要求6所述的基于乘子交替方向法的BERT模型训练方法, 其特征在于, 对所 述目标函数中求解的变量参数, 具体按照Xn→αn2→feo→leo→αn1→meo→Xn‑1→Xn‑1→meo→αn1 →leo→feo→αn2→Xn的顺序进行更新, 其中Xn、 Xn‑1分别为第n、 n ‑1个Encoder模块的计 算输出 结果, feo、 meo、 leo分别表示经过FeedForward模块、 多头机制模块和正则化计算模块之后对 应的计算输出 结果, αn1、 αn2分别表示meo和feo对应的残差参数。 8.根据权利要求1~5 中任意一项所述的基于乘子交替方向法的BERT模型训练方法, 其 特征在于, 所述步骤S 3中, 当目标参数更新完成之后, 立即释放已经更新完成的参数所占据 的内存。 9.一种基于乘子交替方向法的BERT模型训练系统, 包括处理器以及存储器, 所述存储 器用于存储计算机程序, 所述处理器用于执行所述计算机程序, 其特征在于, 所述处理器用 于执行所述计算机程序以执 行如权利要求1~8中任意 一项所述方法。 10.一种存储有计算机程序的计算机可读存储介质, 其特征在于, 所述计算机程序 执行 时实现如权利要求1~8中任意 一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114818725 A 3

.PDF文档 专利 基于乘子交替方向法的BERT模型训练方法及系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于乘子交替方向法的BERT模型训练方法及系统 第 1 页 专利 基于乘子交替方向法的BERT模型训练方法及系统 第 2 页 专利 基于乘子交替方向法的BERT模型训练方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:48:42上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。