(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210420707.2 (22)申请日 2022.04.21 (71)申请人 浪潮云信息技 术股份公司 地址 250100 山东省济南市高新区浪潮路 1036号浪潮科技园S01号楼 (72)发明人 赵振修 张烈帅 李明明  (74)专利代理 机构 济南信达专利事务所有限公 司 37100 专利代理师 阚恭勇 (51)Int.Cl. G06F 40/143(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于深度学习的序列标注方法 (57)摘要 本发明提供一种基于深度学习的序列标注 方法, 属于自然语言处理领域, 包括: 文本预处 理, 文本表征向量选择即改变直接对BERT提取 CLS维特征向量进行线性分类器处理的方式; 文 本特征向量选择, 增加LSTM捕获特征向量, 线性 分类器对每个词向量节点分类; 提高准确率的同 时完成序列标注分类任务。 权利要求书3页 说明书6页 附图3页 CN 114880992 A 2022.08.09 CN 114880992 A 1.一种基于深度学习的序列标注方法, 其特 征在于, 包括: 文本预处理, 文本表征向量选择即改变直接对BERT提取CLS维特征向量进行线性 分类器处理的方式; 文本特征向量选择, 增加LSTM捕获特征向量, 线性分类器对每个词向量 节点分类; 步骤如下: 1)、 数据预处理:将文本语句(seq_vec)和标签(label)作为输入项; 将文本语句转化的 向量(wi)和标签化的向量(label_vec)作为输出项; 2)、 BERT语义表征:将数据预处理的文本向量wi和标签向量label_vec作为输入项, 输 出关于文本的特 征向量即作为 LSTM输入的向量信息; 3)、 提取LSTM特征向量:将BERT的输出的向量信息作为输入项, 输出关于文本词的特征 向量信息; 4)、 FC及分类:将LSTM输出的特征向量作为输入, 完成对所有文本词的分类标注, 输出 每个文本词的分类结果; 5)、 使用模型进行序列标注:进行文本序列标注的工作, 输入文本语句, 通过上述各个 步骤, 输出每 个文本词的标注结果。 2.根据权利要求1所述的方法, 其特 征在于, 1)、 数据预处 理 具体如下: 1.1)、 自定义预处 理函数, 使用正则表达式, 将不想要的字符去除; 1.2)、 如果输入是一个句子, 句子 的头部需要添加标识符CLS, 尾部添加标识符SEP; 如 果输入的是一个以上的句子, 则需要 使用分隔符号SEP隔开以作区分; 1.3)、 语句末尾添加SEP; 1.4)、 把词转成i ndex(word to index),把原文都变成数值。 3.根据权利要求1所述的方法, 其特 征在于, 2)、 BERT语义表征 具体如下: 2.1)、 构建基于BERT的词嵌入网络向量表征信息; (2.11)构建基于每 个词的词语向量; (2.22)构建基于每 个语句的段向量; (2.23)构建基于每 个词的位置向量; (2.24)三个向量叠加, 就形成了BERT的输入; 同时, 添加Layer_normalizer层和 dropout层作为输入文本向量输出为embeded_v ec; 其中CLS是每个输入句子的第一个标记, 最终对应的输出可理解为句子整体含义, 用于下游的分类任务, SEP是用来分隔两个句子 的; 2.2)、 BERT网络提取文本的表征信息; (2.21)基于文本训练的BERT预训练模型, BERT预训练模型 特征为: m维向量, a头, b层; (2.22)对0表征to ken进行mask后, 使用BERT预训练模型提取文本向量表征信息; (2.23)经过BERT模型中的神经元Trm提取的文本信息作为的输出向量e_vec(维度: lxm)。权 利 要 求 书 1/3 页 2 CN 114880992 A 24.根据权利要求1所述的方法, 其特 征在于, 3)LSTM提取 特征向量: 具体如下: LSTM单元包括贡献门、 遗忘门、 输入门和输出门, 贡献门根据上一时刻的细胞状态ct ‑ 1、 隐藏状态ht ‑1以及当前时刻的输入信息来产生与输入向量xt具有相同维度的注意力向 量at, 将注 意力向量at与xt结合, 得到优化的输入向量xt ’, 作为遗忘门、 输入门和输出门的 输入; at=σa(Waxt+Uaht‑1+Mact‑1+ba) 遗忘门: ft=σg(Wfxt’+bf) 输入门: it=σg(Wixt’+bi) 输出门: ot=σg(Woxt’+bo) 细胞状态: 隐藏状态: 其中ht为当前时刻t的隐藏状态, ct为当前时刻t的细胞状态, Wa、 Ua、 Ma、 Wf、 Wi、 Wo、 Wc 分别为权重矩阵, ba、 bf、 bi、 bo、 bc分别为偏差项; σ 分别为激活函数; 表示逐元素点乘运 算。 5.根据权利要求1所述的方法, 其特 征在于, 4)FC及分类: 具体如下: 4.1)、 通过 FC层对LSTM 输出的特 征向量进行降维操作; 4.2)、 输出分类结果: 通过softmax层对FC降维的特征向量进行概率分类, 输出概率预 测向量P={p1,p2,...,pC }, pi,i=1,2...,C表示文本属于具体分类的概率, C为分类的总 数量; 将概 率值最大的pi对应的分类确定为该文本的类别。 6.根据权利要求1所述的方法, 其特 征在于, 5)使用模型进行文本序列标注: 具体如下: 5.1)、 文本预处 理; 5.2)、 使用词嵌入表征文本信息; 5.3)、 使用提取层网络提取文本信息; 5.4)、 使用LSTM模型构建特 征向量; 5.5)、 输出 所有文本词的序列标注结果。权 利 要 求 书 2/3 页 3 CN 114880992 A 3

.PDF文档 专利 一种基于深度学习的序列标注方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度学习的序列标注方法 第 1 页 专利 一种基于深度学习的序列标注方法 第 2 页 专利 一种基于深度学习的序列标注方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:37上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。