专利一种融合多层前馈表征的预训练方法及装置 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210433291.8 (22)申请日 2022.04.24 (71)申请人浪潮软件科技有限公司地址 250100 山东省济南市高新区浪潮路 1036号浪潮科技园 (72)发明人王宗增　杨培强　程林　 (74)专利代理机构济南信达专利事务所有限公司 37100 专利代理师姜丽洁 (51)Int.Cl. G06N 3/08(2006.01) G06N 3/04(2006.01) G06F 40/30(2020.01) (54)发明名称一种融合多层前馈表征的预训练方法及装置 (57)摘要本发明涉及深度学习技术领域，具体提供了一种融合多层前馈表征的预训练方法，具有如下步骤： S1、对文本数据进行采集； S2、设定多任务学习的任务分类类别； S3、依据选定的任务类型，分别应对预处理相应的文本； S4、网络结构的设定和代码编写； S5、实现层间拉平的文本向量的融合； S6、 Specific ‑task的MLP设计和编程实现； S7、数据策略和算法制定； S8、整合步骤S4至S7代码，进行End ‑to‑End的全网络前馈流程； S9、使用预处理后的文本数据对模型进行训练，达到全局最优； S10、序列化训练好的融合多层前馈表征的预训练语言模型； S11、 Encoder分别后接 Specific ‑task后处理模型。与现有技术相比，本发明通过融合手段有效提升了词向量的全局文本表征能力。权利要求书2页说明书5页附图3页 CN 114912606 A 2022.08.16 CN 114912606 A 1.一种融合多层前馈表征的预训练方法，其特征在于，具有如下步骤： S1、对文本数据进行采集； S2、设定多任务学习的特定任务类别，同时包括NSP下句预测的句子对任务和SQuAD阅读理解任务； S3、依据选定的任务类型，分别应对预处理相应的文本，包括监督型的打标任务和无标签数据的Self ‑train策略定制； S4、网络结构的设定和代码编写； S5、制定并编写代码，实现层间拉平的文本向量的融合； S6、 Specific ‑task的MLP设计和编程实现； S7、数据策略和算法制定，并编写代码； S8、整合步骤S4至S7代码，进行End ‑to‑End的全网络前馈流程； S9、使用预处理后的文本数据对融合多层前馈表征的编码器网络进行训练，达到全局最优； S10、序列化训练好的融合多层前馈表征的预训练语言模型； S11、 Encoder分别后接Specific ‑task后处理模型，使用测试数据分别对融合多层前馈表征的编码器网络进行性能评估。 2.根据权利要求1所述的一种融合多层前馈表征的预训练方法，其特征在于，在步骤S3 中，在Data Augmentation上，对后置词语分类特定任务的语料，基于Skip ‑Gram的Word Embedding进行Word Mixup，同时针对标签进行Label Smoothing；融合Self ‑training弱监督学习Pure Semi‑supervised Learning，对无监督数据进行有效利用。 3.根据权利要求2所述的一种融合多层前馈表征的预训练方法，其特征在于，在步骤S4 中， Encoder部分使用14头Mu lti‑headed Attention多头注意力机制、 Position Embedding 位置嵌入，主动放大Sequence Mask，对多层Encoder的全局向量表征，使用BERT base‑ chinese的12层F eed Forward结构。 4.根据权利要求3所述的一种融合多层前馈表征的预训练方法，其特征在于，在步骤S5 中，多层向量表征的融合上，采用两种融合策略，一种融合策略为借鉴SENet对各层表征进行LN操作，并进行一维全局maximum pooling，随后接入2层的FC，得到各层向量表征的重要程度，最终对多层向量表征进行加权融合。 5.根据权利要求4所述的一种融合多层前馈表征的预训练方法，其特征在于，所述的两种融合策略中第二种融合策略为将多层向量表征的层关系视为Channel深度关系，先通过少于Channel数的Point ‑wise Convolution进行通道减少并缓解混叠，随后进行单滤波器的Point‑wise Convolution将特征Flatten为1d向量，紧接着连接输出层构建FC网络，所述 FC网络的输出维度等同于输入1d向量的维度，从而通过网络结构的专门设定实现了多层向量表征的融合。 6.根据权利要求5所述的一种融合多层前馈表征的预训练方法，其特征在于，在步骤S5 中， Feed Forward前馈部分，借鉴CSPDarknet ‑53调整BERT base的ResNet ‑shortcut为CSP 结构，设定Bottleneck模块数为6，将CSP替换为1d卷积，并保留BN操作，同时采用GELU激活函数。权　利　要　求　书 1/2 页 2 CN 114912606 A 27.根据权利要求6所述的一种融合多层前馈表征的预训练方法，其特征在于，在步骤S7 中，构建Multi ‑task learning训练目标，通过实验Coding实现并验证比对GLUE 各类任务对应的损失函数，最终选择Soft F1 Loss替换原网络中的交叉熵损失作为最终的策略要素。 8.根据权利要求7所述的一种融合多层前馈表征的预训练方法，其特征在于，在步骤S8 中，通过引入指数加权移动平均数和Momentum的Adam，并在Specific ‑task层上设计网络，在BERT后接入8层的FC构成MLP，其中FC的网络层数作为超参数进行GridSearch/ RandomSearc h调参。 9.一种融合多层前馈表征的预训练装置，其特征在于，包括：至少一个存储器和至少一个处理器；所述至少一个存储器，用于存储机器可读程序；所述至少一个处理器，用于调用所述机器可读程序，执行权利要求1至8中任一所述的方法。权　利　要　求　书 2/2 页 3 CN 114912606 A 3

专利 一种融合多层前馈表征的预训练方法及装置

专利一种融合多层前馈表征的预训练方法及装置