专利一种基于深度学习的序列标注方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210420707.2 (22)申请日 2022.04.21 (71)申请人浪潮云信息技术股份公司地址 250100 山东省济南市高新区浪潮路 1036号浪潮科技园S01号楼 (72)发明人赵振修　张烈帅　李明明　 (74)专利代理机构济南信达专利事务所有限公司 37100 专利代理师阚恭勇 (51)Int.Cl. G06F 40/143(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于深度学习的序列标注方法 (57)摘要本发明提供一种基于深度学习的序列标注方法，属于自然语言处理领域，包括：文本预处理，文本表征向量选择即改变直接对BERT提取 CLS维特征向量进行线性分类器处理的方式；文本特征向量选择，增加LSTM捕获特征向量，线性分类器对每个词向量节点分类；提高准确率的同时完成序列标注分类任务。权利要求书3页说明书6页附图3页 CN 114880992 A 2022.08.09 CN 114880992 A 1.一种基于深度学习的序列标注方法，其特征在于，包括：文本预处理，文本表征向量选择即改变直接对BERT提取CLS维特征向量进行线性分类器处理的方式；文本特征向量选择，增加LSTM捕获特征向量，线性分类器对每个词向量节点分类；步骤如下： 1)、数据预处理:将文本语句(seq_vec)和标签(label)作为输入项；将文本语句转化的向量(wi)和标签化的向量(label_vec)作为输出项； 2)、 BERT语义表征:将数据预处理的文本向量wi和标签向量label_vec作为输入项，输出关于文本的特征向量即作为 LSTM输入的向量信息； 3)、提取LSTM特征向量:将BERT的输出的向量信息作为输入项，输出关于文本词的特征向量信息； 4)、 FC及分类:将LSTM输出的特征向量作为输入，完成对所有文本词的分类标注，输出每个文本词的分类结果； 5)、使用模型进行序列标注:进行文本序列标注的工作，输入文本语句，通过上述各个步骤，输出每个文本词的标注结果。 2.根据权利要求1所述的方法，其特征在于， 1)、数据预处理具体如下： 1.1)、自定义预处理函数，使用正则表达式，将不想要的字符去除； 1.2)、如果输入是一个句子，句子的头部需要添加标识符CLS，尾部添加标识符SEP；如果输入的是一个以上的句子，则需要使用分隔符号SEP隔开以作区分； 1.3)、语句末尾添加SEP； 1.4)、把词转成i ndex(word to index),把原文都变成数值。 3.根据权利要求1所述的方法，其特征在于， 2)、 BERT语义表征具体如下： 2.1)、构建基于BERT的词嵌入网络向量表征信息； (2.11)构建基于每个词的词语向量； (2.22)构建基于每个语句的段向量； (2.23)构建基于每个词的位置向量； (2.24)三个向量叠加，就形成了BERT的输入；同时，添加Layer_normalizer层和 dropout层作为输入文本向量输出为embeded_v ec；其中CLS是每个输入句子的第一个标记，最终对应的输出可理解为句子整体含义，用于下游的分类任务， SEP是用来分隔两个句子的； 2.2)、 BERT网络提取文本的表征信息； (2.21)基于文本训练的BERT预训练模型， BERT预训练模型特征为： m维向量， a头， b层； (2.22)对0表征to ken进行mask后，使用BERT预训练模型提取文本向量表征信息； (2.23)经过BERT模型中的神经元Trm提取的文本信息作为的输出向量e_vec(维度： lxm)。权　利　要　求　书 1/3 页 2 CN 114880992 A 24.根据权利要求1所述的方法，其特征在于， 3)LSTM提取特征向量：具体如下： LSTM单元包括贡献门、遗忘门、输入门和输出门，贡献门根据上一时刻的细胞状态ct ‑ 1、隐藏状态ht ‑1以及当前时刻的输入信息来产生与输入向量xt具有相同维度的注意力向量at，将注意力向量at与xt结合，得到优化的输入向量xt ’，作为遗忘门、输入门和输出门的输入； at＝σa(Waxt+Uaht‑1+Mact‑1+ba) 遗忘门： ft＝σg(Wfxt’+bf) 输入门： it＝σg(Wixt’+bi) 输出门： ot＝σg(Woxt’+bo) 细胞状态：隐藏状态：其中ht为当前时刻t的隐藏状态， ct为当前时刻t的细胞状态， Wa、 Ua、 Ma、 Wf、 Wi、 Wo、 Wc 分别为权重矩阵， ba、 bf、 bi、 bo、 bc分别为偏差项； σ 分别为激活函数；表示逐元素点乘运算。 5.根据权利要求1所述的方法，其特征在于， 4)FC及分类：具体如下： 4.1)、通过 FC层对LSTM 输出的特征向量进行降维操作； 4.2)、输出分类结果：通过softmax层对FC降维的特征向量进行概率分类，输出概率预测向量P＝{p1,p2,...,pC }， pi,i＝1,2...,C表示文本属于具体分类的概率， C为分类的总数量；将概率值最大的pi对应的分类确定为该文本的类别。 6.根据权利要求1所述的方法，其特征在于， 5)使用模型进行文本序列标注：具体如下： 5.1)、文本预处理； 5.2)、使用词嵌入表征文本信息； 5.3)、使用提取层网络提取文本信息； 5.4)、使用LSTM模型构建特征向量； 5.5)、输出所有文本词的序列标注结果。权　利　要　求　书 2/3 页 3 CN 114880992 A 3

专利 一种基于深度学习的序列标注方法

专利一种基于深度学习的序列标注方法