(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210272019.6 (22)申请日 2022.03.18 (71)申请人 鼎富智能科技有限公司 地址 230000 安徽省合肥市高新区习友路 3333号A1楼19层-B区 (72)发明人 李健铨 刘小康 胡加明  (74)专利代理 机构 北京弘权知识产权代理有限 公司 11363 专利代理师 李少丹 许伟群 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/211(2020.01) G06F 40/30(2020.01) G06F 17/16(2006.01)G06K 9/62(2022.01) (54)发明名称 一种自然语言处 理模型的训练方法和装置 (57)摘要 本申请提供了一种自然语言处理模型的训 练方法和装置, 该方法包括: 获取每一层为采用 自注意力机制的层结构的预训练语 言模型, 获取 每一层用于 学习NLP任务中的第一任务的第一可 学习向量矩阵和第二可学习向量矩阵, 然后根据 第一可学习向量矩 阵和第二可学习向量矩 阵生 成每一层的第一拼接键向量矩 阵和第一拼接值 向量矩阵, 最后利用第一任务的训练样本数据对 第一可学习向量矩 阵和第二可学习向量矩 阵进 行训练。 通过第一拼接键向量矩阵和第一拼接值 向量矩阵使得第一可学习向量矩 阵和第二可学 习向量矩阵参与到训练中, 由于固定预训练语言 模型, 大大减少训练参数; 使可学习向量矩阵先 学习NLP基础任务再学习NLP上层任务, 能够提升 小样本的学习能力。 权利要求书3页 说明书19页 附图5页 CN 114625840 A 2022.06.14 CN 114625840 A 1.一种自然语言处 理模型的训练方法, 其特 征在于, 包括: 获取预训练语言模型, 所述预训练语言模型的每一层为采用自注意力机制的层结构; 获取每一层的第一可学习向量矩阵和第 二可学习向量矩阵, 所述第 一可学习向量矩阵 和所述第二可 学习向量矩阵均用于学习N LP任务中的第一任务; 生成每一层的第一拼接键向量矩阵和第 一拼接值向量矩阵, 所述第 一拼接键向量矩阵 由当前层的第一可学习向量矩阵与当前层的键向量拼接得到, 所述第一拼接值向量矩阵由 当前层的第二可 学习向量矩阵与当前层的值向量 拼接得到; 向所述预训练语言模型输入所述第 一任务的训练样本数据, 根据每一层的第 一拼接键 向量矩阵、 第一拼接值向量矩阵和当前层的查询向量计算当前层的输出, 根据最后一层的 输出和所述第一任务的损失函数得到每一层最优的第一可学习向量矩阵和第二可学习向 量矩阵。 2.根据权利要求1所述的方法, 其特征在于, 所述每一层的第 一可学习向量矩阵由当前 层的第三可学习向量矩阵与当前层之前参与的所有NLP任务训练得到的可学习向量矩阵拼 接得到, 所述每一层的第二可学习向量矩阵由当前层的第四可学习向量矩阵与当前层之前 参与的所有NLP任务训练得到的可学习向量矩阵拼接得到, 其中, 所述第三可学习向量矩阵 和所述第四可 学习向量矩阵均为被设置为学习所述第一任务的向量矩阵。 3.根据权利要求1或2所述的方法, 其特征在于, 在得到每一层最优的第一可学习向量 矩阵和第二可 学习向量矩阵之后, 所述方法还 包括: 设置每一层的第五可学习向量矩阵和第六可学习向量矩阵, 所述第五可学习向量矩阵 和所述第六可学习向量矩阵均用于学习所述NLP任务中的第二任务, 所述第一任务与所述 第二任务 不同; 生成每一层的第一拼接可学习向量矩阵和第 二拼接可学习向量矩阵, 所述第 一拼接可 学习向量矩阵由当前层的第五可学习向量矩阵与当前层的第一可学习向量矩阵拼接得到, 所述第二拼接可学习向量矩阵由当前层的第六可学习向量矩阵与当前层的第二可学习向 量矩阵拼接得到; 生成每一层的第二拼接键向量矩阵和第 二拼接值向量矩阵, 所述第 二拼接键向量矩阵 由当前层的第一拼接可学习向量矩阵与当前层的键向量拼接得到, 所述第二拼接值向量矩 阵由当前层的第二 拼接可学习向量矩阵与当前层的值向量 拼接得到; 向所述预训练语言模型输入所述第 二任务的训练样本数据, 根据每一层的第 二拼接键 向量矩阵、 第二拼接值向量矩阵和当前层的查询向量计算当前层的输出, 根据最后一层的 输出和所述第二任务的损失函数得到每一层最优的所述第一拼接可学习向量矩阵和所述 第二拼接可学习向量矩阵, 并且限制所述第一可学习向量矩阵的参数变化和所述第二可学 习向量矩阵的参数变化。 4.根据权利要求1或2所述的方法, 其特征在于, 所述NLP任务包括NLP基础任务和NLP上 层任务, 所述NLP基础 任务包括词性分析任务、 语块分析任务和依存句法分析任务, 所述NLP 上层任务包括命名实体识别任务、 文本语义相关任务、 文本蕴含 任务和分类任务。 5.根据权利要 求1所述的方法, 其特征在于, 所述预训练语言模型第1层的输 出h1采用以 下公式实现:权 利 要 求 书 1/3 页 2 CN 114625840 A 2或, 其中, q1为向模型输入 的查询向量矩阵, k1为向模型输入的键向量矩阵, v1为向模型输 入的值向量矩阵, 表示拼接, prompt_K为与k1对应的可学习向量矩阵, prompt_V为与v1对应 的可学习向量矩阵, 为k1与prompt_K拼接后的向量矩阵, 为v1与prompt_V拼接后的向量 矩阵, f为当前层使用的函数, h1为当前层的输出; 所述预训练语言模型第n层的输出hn采用以下公式实现, 其中, n 为整数, n>1: qn, kn, vn=hn‑1Wq,hn‑1Wk,hn‑1Wv; 或, 其中, hn‑1为第n‑1层的输出, Wq为当前层查询向量的线性变换矩阵, Wk为当前层键向量 的线性变换矩阵, Wv为当前层值 向量的线性变换矩阵, qn为当前层的查询向量, kn为当前层 的键向量, vn为当前层的值向量, 表示拼接, prompt_K为与kn对应的可学习向量矩阵, prompt_V为与vn对应的可学习向量矩阵, 为kn与prompt_K拼接后的向量矩阵, 为vn与 prompt_V拼接后的向量矩阵, f为当前层使用的函数, hn为当前层的输出。 6.根据权利要求5所述的方法, 其特征在于, 所述prompt_K和prompt_V采用以下公式实 现: 或, 或, 其中, promptc1_K表示被设置为学习当前NLP任务的与当前层的键向量对应的可学习向 量矩阵, promptc2_K表示当前层之前参与的所有NLP任务训练得到的与当前层键向量对应的 可学习向量矩阵, promptc1_V表示被设置为 学习当前NLP任务的与当前层的值向量对应的可 学习向量矩阵, promptc2_V表示当前层之前参与的所有NLP任务训练得到的与当前层值向量 对应的可 学习向量矩阵。 7.根据权利要求1所述的方法, 其特征在于, 所述预训练语言模型在学习首个NLP任务 的情况下, 损失函数包括当前NLP任务的损失(loss)部 分与对当前NLP任务参数的 限制部分 的和; 或者, 所述预训练语言模型在学习非首个NLP任务的情况下, 损失函数包括当前NLP任务的损 失(loss)部分、 对当前NLP任务参数的 限制部分与对之前参与的所有NLP任务已经训练好的 参数的限制部分的和。 8.根据权利 要求2所述的方法, 其特征在于, 所述当前层 之前参与的所有NLP任务为NLP 基础任务, 所述第一任务 为NLP上层任务。 9.根据权利要求3所述的方法, 其特征在于, 在生成每一层的第 一拼接可学习向量矩阵 和第二拼接可学习向量矩阵之前, 所述方法还 包括: 对所述第一可 学习向量矩阵和所述第二可 学习向量矩阵进行层标准 化处理, 和/或, 对所述第五可 学习向量矩阵和所述第六 可学习向量矩阵进行层标准 化处理。权 利 要 求 书 2/3 页 3 CN 114625840 A 3

.PDF文档 专利 一种自然语言处理模型的训练方法和装置

文档预览
中文文档 28 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种自然语言处理模型的训练方法和装置 第 1 页 专利 一种自然语言处理模型的训练方法和装置 第 2 页 专利 一种自然语言处理模型的训练方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:47:15上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。