国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210433291.8 (22)申请日 2022.04.24 (71)申请人 浪潮软件科技有限公司 地址 250100 山东省济南市高新区浪潮路 1036号浪潮科技园 (72)发明人 王宗增 杨培强 程林 (74)专利代理 机构 济南信达专利事务所有限公 司 37100 专利代理师 姜丽洁 (51)Int.Cl. G06N 3/08(2006.01) G06N 3/04(2006.01) G06F 40/30(2020.01) (54)发明名称 一种融合多层前馈表征的预训练方法及装 置 (57)摘要 本发明涉及深度学习技术领域, 具体提供了 一种融合多层前馈表征的预训练方法, 具有如下 步骤: S1、 对文本数据进行采集; S2、 设定多任务 学习的任务 分类类别; S3、 依据选定的任务类型, 分别应对预处理相应的文本; S4、 网络结构的设 定和代码编写; S5、 实现层间拉平的文本向量的 融合; S6、 Specific ‑task的MLP设计和编程实现; S7、 数据策略和算 法制定; S8、 整 合步骤S4至S7代 码, 进行End ‑to‑End的全网络前馈流程; S9、 使用 预处理后的文本数据对模型进行训练, 达到全局 最优; S10、 序列化训练好的融合多层前馈表征的 预训练语言模型; S11、 Encoder分别后接 Specific ‑task后处理模型。 与现有技术相比, 本 发明通过融合手段有效提升了词向量的全局文 本表征能力。 权利要求书2页 说明书5页 附图3页 CN 114912606 A 2022.08.16 CN 114912606 A 1.一种融合多层前馈表征的预训练方法, 其特 征在于, 具有如下步骤: S1、 对文本数据进行采集; S2、 设定多任务学习的特定任务类别, 同时包括NSP下句 预测的句子对任务和SQuAD阅 读理解任务; S3、 依据选定的任务类型, 分别应对预处理相应的文本, 包括监督型的打标任务和无标 签数据的Self ‑train策略定制; S4、 网络结构的设定和代码编写; S5、 制定并编写代码, 实现层间拉平的文本向量的融合; S6、 Specific ‑task的MLP设计和编程实现; S7、 数据策略和算法制定, 并编写代码; S8、 整合步骤S4至S7代码, 进行End ‑to‑End的全网络前馈流 程; S9、 使用预处理后的文本数据对融合多层前馈表征的编码器网络进行训练, 达到全局 最优; S10、 序列化训练好的融合多层前馈表征的预训练语言模型; S11、 Encoder分别后接Specific ‑task后处理模型, 使用测试数据分别对融合多层前馈 表征的编码器网络进行性能评估。 2.根据权利要求1所述的一种融合多层前馈表征的预训练方法, 其特征在于, 在步骤S3 中, 在Data Augmentation上, 对后置词语分类特定任务的语料, 基于Skip ‑Gram的Word Embedding进行Word Mixup, 同时针对标签进行Label Smoothing; 融合Self ‑training弱监督学习Pure Semi‑supervised Learning, 对无监督数据进行 有效利用。 3.根据权利要求2所述的一种融合多层前馈表征的预训练方法, 其特征在于, 在步骤S4 中, Encoder部分使用14头Mu lti‑headed Attention多头注意力机制 、 Position Embedding 位置嵌入, 主动放大Sequence Mask, 对多层Encoder的全局向量表征, 使用BERT base‑ chinese的12层F eed Forward结构。 4.根据权利要求3所述的一种融合多层前馈表征的预训练方法, 其特征在于, 在步骤S5 中, 多层向量表征的融合上, 采用两种融合策 略, 一种融合策 略为借鉴SENet对各层表征进 行LN操作, 并进行一维全局maximum pooling, 随后接入2层的FC, 得到各层向量表征的重要 程度, 最终对多层向量表征进行加权融合。 5.根据权利要求4所述的一种融合多层前馈表征的预训练方法, 其特征在于, 所述的两 种融合策 略中第二种融合策 略为将多层向量表征的层关系视为Channel深度关系, 先通过 少于Channel数的Point ‑wise Convolution进行通道减少并缓解混叠, 随后进行单滤波器 的Point‑wise Convolution将特征Flatten为1d向量, 紧接着连接输出层构建FC网络, 所述 FC网络的输出维度等同于输入1d向量的维度, 从而通过网络结构的专门设定实现了多层向 量表征的融合。 6.根据权利要求5所述的一种融合多层前馈表征的预训练方法, 其特征在于, 在步骤S5 中, Feed Forward前馈部分, 借鉴CSPDarknet ‑53调整BERT base的ResNet ‑shortcut为CSP 结构, 设定Bottleneck模块数为6, 将CSP替换为1d卷积, 并保留BN操作, 同时采用GELU激活 函数。权 利 要 求 书 1/2 页 2 CN 114912606 A 27.根据权利要求6所述的一种融合多层前馈表征的预训练方法, 其特征在于, 在步骤S7 中, 构建Multi ‑task learning训练目标, 通过 实验Coding实现并验证比对GLUE 各类任务对 应的损失函数, 最终选择Soft F1 Loss替换原网络中的交叉熵损失作为 最终的策略要素。 8.根据权利要求7所述的一种融合多层前馈表征的预训练方法, 其特征在于, 在步骤S8 中, 通过引入指数加权移动平均数和Momentum的Adam, 并在Specific ‑task层上设计网络, 在BERT后接入8层的FC构成MLP, 其中FC的网络层数作为超参数进行GridSearch/ RandomSearc h调参。 9.一种融合多层前馈表征的预训练装置, 其特征在于, 包括: 至少一个存储器和至少一 个处理器; 所述至少一个存 储器, 用于存 储机器可读程序; 所述至少一个处理器, 用于调用所述机器可读程序, 执行权利要求1至8中任一所述的 方法。权 利 要 求 书 2/2 页 3 CN 114912606 A 3
专利 一种融合多层前馈表征的预训练方法及装置
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:47:22
上传分享
举报
下载
原文档
(546.8 KB)
分享
友情链接
DB35-T 2134-2023 高辣辣椒栽培技术规程 福建省.pdf
YDT 3799-2020 电信网和互联网网络安全防护定级备案实施指南.pdf
T-SHDZ 001—2023 浅层地下水环境监测井建设技术标准.pdf
滨州市河道管理办法.pdf
GB-T 41316-2022 分散体系稳定性表征指导原则.pdf
GM-T 0080-2020 SM9密码算法使用规范.pdf
GB-T 42017-2022 信息安全技术 网络预约汽车服务数据安全要求.pdf
GB-T 34690.4-2017 印刷技术 胶印数字化过程控制 第4部分:输出文件制作.pdf
纯电动乘用车控制芯片功能安全要求及测试方法.pdf
GB-T 18788-2008 平板式扫描仪通用规范.pdf
GB-T 4226-2009 不锈钢冷加工钢棒.pdf
商用密码应用安全性评估管理办法(试行).pdf
GB-T 36651-2018 信息安全技术 基于可信环境的生物特征识别身份鉴别协议框架.pdf
NB-T 10579-2021 海上风电场运行安全规程.pdf
GB-T 39094-2020 中国气象卫星名词术语.pdf
中国移动 量子“Q波”技术白皮书 2022 .pdf
GB-T 25068.2-2020 信息技术 安全技术 网络安全 第2部分:网络安全设计和实现指南.pdf
GB-T 11264-2012 热轧轻轨.pdf
DL-T 438-2023 火力发电厂金属技术监督规程.pdf
GM-T 0069-2019 开放的身份鉴别框架.pdf
1
/
3
11
评价文档
赞助2.5元 点击下载(546.8 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。