(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210420707.2
(22)申请日 2022.04.21
(71)申请人 浪潮云信息技 术股份公司
地址 250100 山东省济南市高新区浪潮路
1036号浪潮科技园S01号楼
(72)发明人 赵振修 张烈帅 李明明
(74)专利代理 机构 济南信达专利事务所有限公
司 37100
专利代理师 阚恭勇
(51)Int.Cl.
G06F 40/143(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于深度学习的序列标注方法
(57)摘要
本发明提供一种基于深度学习的序列标注
方法, 属于自然语言处理领域, 包括: 文本预处
理, 文本表征向量选择即改变直接对BERT提取
CLS维特征向量进行线性分类器处理的方式; 文
本特征向量选择, 增加LSTM捕获特征向量, 线性
分类器对每个词向量节点分类; 提高准确率的同
时完成序列标注分类任务。
权利要求书3页 说明书6页 附图3页
CN 114880992 A
2022.08.09
CN 114880992 A
1.一种基于深度学习的序列标注方法, 其特 征在于,
包括: 文本预处理, 文本表征向量选择即改变直接对BERT提取CLS维特征向量进行线性
分类器处理的方式; 文本特征向量选择, 增加LSTM捕获特征向量, 线性分类器对每个词向量
节点分类;
步骤如下:
1)、 数据预处理:将文本语句(seq_vec)和标签(label)作为输入项; 将文本语句转化的
向量(wi)和标签化的向量(label_vec)作为输出项;
2)、 BERT语义表征:将数据预处理的文本向量wi和标签向量label_vec作为输入项, 输
出关于文本的特 征向量即作为 LSTM输入的向量信息;
3)、 提取LSTM特征向量:将BERT的输出的向量信息作为输入项, 输出关于文本词的特征
向量信息;
4)、 FC及分类:将LSTM输出的特征向量作为输入, 完成对所有文本词的分类标注, 输出
每个文本词的分类结果;
5)、 使用模型进行序列标注:进行文本序列标注的工作, 输入文本语句, 通过上述各个
步骤, 输出每 个文本词的标注结果。
2.根据权利要求1所述的方法, 其特 征在于,
1)、 数据预处 理
具体如下:
1.1)、 自定义预处 理函数, 使用正则表达式, 将不想要的字符去除;
1.2)、 如果输入是一个句子, 句子 的头部需要添加标识符CLS, 尾部添加标识符SEP; 如
果输入的是一个以上的句子, 则需要 使用分隔符号SEP隔开以作区分;
1.3)、 语句末尾添加SEP;
1.4)、 把词转成i ndex(word to index),把原文都变成数值。
3.根据权利要求1所述的方法, 其特 征在于,
2)、 BERT语义表征
具体如下:
2.1)、 构建基于BERT的词嵌入网络向量表征信息;
(2.11)构建基于每 个词的词语向量;
(2.22)构建基于每 个语句的段向量;
(2.23)构建基于每 个词的位置向量;
(2.24)三个向量叠加, 就形成了BERT的输入; 同时, 添加Layer_normalizer层和
dropout层作为输入文本向量输出为embeded_v ec; 其中CLS是每个输入句子的第一个标记,
最终对应的输出可理解为句子整体含义, 用于下游的分类任务, SEP是用来分隔两个句子
的;
2.2)、 BERT网络提取文本的表征信息;
(2.21)基于文本训练的BERT预训练模型, BERT预训练模型 特征为: m维向量, a头, b层;
(2.22)对0表征to ken进行mask后, 使用BERT预训练模型提取文本向量表征信息;
(2.23)经过BERT模型中的神经元Trm提取的文本信息作为的输出向量e_vec(维度:
lxm)。权 利 要 求 书 1/3 页
2
CN 114880992 A
24.根据权利要求1所述的方法, 其特 征在于,
3)LSTM提取 特征向量:
具体如下:
LSTM单元包括贡献门、 遗忘门、 输入门和输出门, 贡献门根据上一时刻的细胞状态ct ‑
1、 隐藏状态ht ‑1以及当前时刻的输入信息来产生与输入向量xt具有相同维度的注意力向
量at, 将注 意力向量at与xt结合, 得到优化的输入向量xt ’, 作为遗忘门、 输入门和输出门的
输入;
at=σa(Waxt+Uaht‑1+Mact‑1+ba)
遗忘门:
ft=σg(Wfxt’+bf)
输入门:
it=σg(Wixt’+bi)
输出门:
ot=σg(Woxt’+bo)
细胞状态:
隐藏状态:
其中ht为当前时刻t的隐藏状态, ct为当前时刻t的细胞状态, Wa、 Ua、 Ma、 Wf、 Wi、 Wo、 Wc
分别为权重矩阵, ba、 bf、 bi、 bo、 bc分别为偏差项; σ 分别为激活函数;
表示逐元素点乘运
算。
5.根据权利要求1所述的方法, 其特 征在于,
4)FC及分类:
具体如下:
4.1)、 通过 FC层对LSTM 输出的特 征向量进行降维操作;
4.2)、 输出分类结果: 通过softmax层对FC降维的特征向量进行概率分类, 输出概率预
测向量P={p1,p2,...,pC }, pi,i=1,2...,C表示文本属于具体分类的概率, C为分类的总
数量; 将概 率值最大的pi对应的分类确定为该文本的类别。
6.根据权利要求1所述的方法, 其特 征在于,
5)使用模型进行文本序列标注:
具体如下:
5.1)、 文本预处 理;
5.2)、 使用词嵌入表征文本信息;
5.3)、 使用提取层网络提取文本信息;
5.4)、 使用LSTM模型构建特 征向量;
5.5)、 输出 所有文本词的序列标注结果。权 利 要 求 书 2/3 页
3
CN 114880992 A
3
专利 一种基于深度学习的序列标注方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:45:37上传分享