(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210361634.4
(22)申请日 2022.04.07
(71)申请人 杭州电子科技大 学
地址 310018 浙江省杭州市下沙高教园区2
号大街
(72)发明人 戴国骏 蒋世豪 叶晨 张桦
吴以凡 支浩仕
(74)专利代理 机构 杭州君度专利代理事务所
(特殊普通 合伙) 33240
专利代理师 朱月芬
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/335(2019.01)
G06F 16/35(2019.01)
G06F 40/30(2020.01)G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于预训练语言模型的实体识别方法
(57)摘要
本发明公开了一种基于预训练语言模型的
实体识别方法。 本发明涉及深度学习, 自然语言
处理任务中的预训练语言模型和数据集成领域
中的实体识别子任务。 本发明添加了对于实体识
别任务本身独特需求的关注, 具体是提出一个关
注相似片段和数字信息片段的联合实体识别模
型, 通过一个感知相似片段的编码器和一个感知
数字片段的编码器, 可以有效处理预训练语言模
型在小训练集上注意力分散的问题, 从而使模型
能够更好的处理实体识别任务。 本发 明能够在小
训练集上较 现有最新方法有显著的提升, 目前大
部分方法都 需要大量的训练数据, 这就意味着需
要大量人工参与标注数据, 本发 明可以有效节省
人工标注的成本 。
权利要求书4页 说明书7页 附图3页
CN 114647715 A
2022.06.21
CN 114647715 A
1.一种基于预训练语言模型的实体识别方法, 其特 征在于包括如下步骤:
步骤1: 数据预处理, 根据基于文本相似度的处理方法预先生成所有的实体候选对, 针
对每个实体候选对(记录u, 记录v), 先将记录u和记录v的实体文本描述分别生 成序列Ⅰ和生
成序列Ⅱ, 然后使用特殊标识符连接生成序列 Ⅰ和生成序列 Ⅱ, 从而得到一个综合生成序列
Ⅲ;
步骤2: 使用预训练语言模型将预处理之后的生成序列 Ⅰ、 生成序列 Ⅱ和综合生成序列
Ⅲ分别进行分词、 提取单词嵌入向量特征, 并根据不同的文本长度进 行对齐, 最后分别得到
生成序列 Ⅰ、 生成序列 Ⅱ和综合生成序列 Ⅲ对应的词向量Eu、 词向量Ev和组合后的整个词向
量Et;
步骤3: 提取后的词向量Eu、 词向量Ev和词向量Et输入相似片段编码器, 捕获每个实体候
选对(记录u, 记录v)两条记录之间的相似片段;
步骤4: 同时也利用数字信息片段编码器来编码预处理的输入, 并根据 预训练语言模型
对数字本身的自注意力权 重来筛选数字信息片段, 给 出经过数字编码器的向量;
步骤5: 拼接相似片段编码器和数字片段编码器输出 向量
和
将该
联合特征向量通过一个线性层和一个 softmax层输出分类概率; 根据标签数据, 计算损失函
数, 然后进 行反向传播, 不断微调和优化模型的参数, 再次从步骤2得到新的模型输入, 反复
迭代, 当损失函数收敛时停止训练; 得到最终的语言模型和编码器参数。
2.根据权利要求1所述的一种基于预训练语言模型的实体识别方法, 其特征在于步骤3
具体实现如下:
输入: 记录u和记录v经过预训练语言模型提取的词向量Eu和Ev, 以及实体候选对(记录
u, 记录v)组合后的整个词向量Et;
3‑1.提取背景语义, 将整个实体候选对(记录u, 记录v)的词向量Et作为背景语义, 这里
选择Et[CLS]来表征整个背景语义, “[CLS]”的词向量汇总了词向量Et的所有to ken词向量;
3‑2.背景语义融合, 分别在两个记录的词向量Eu和词向量Ev上执行一个背景语义的融
合算子, 因为Et[CLS]包含了记录对的整体背景语义, 采用该融合算子将有助于记录u和记
录v之间的注意力交 互;
3‑3.两个记录之间的交互注意力, 提出一个记录v到记录u的注意力计算机制和一个记
录u到记录v的注意力计算机制; 结合整体背景语义表达, 得到在整体背景语义下的包含相
似片段感知的嵌入向量;
3‑4.特征压缩与提取, 采用卷积神经网络CNN进行特征压缩, 输入经过交互注意力机制
后的词向量
和
的拼接向量
将其进行卷积获得相似片段的信息; 定义一个 卷积
矩阵
其中da是CNN的输出向量维度, l是卷积核大小, d是词向量维度; 利用不同
大小的卷积核 进行卷积运算, 进一步执行最大池化的操作以获取输出 特征
步骤4: 同时也利用数字信息片段编码器来编码预处理的输入, 并根据 预训练语言模型
对数字本身的自注意力权 重来筛选数字信息片段, 给 出经过数字编码器的向量。
3.根据权利要求2所述的一种基于预训练语言模型的实体识别方法, 其特征在于步骤4
具体实现如下:
输入: 数字信 息片段编码器的输入与上一个编码器稍微不同, 只需要实体候选对(记录权 利 要 求 书 1/4 页
2
CN 114647715 A
2u, 记录v)组合后的整个词向量Et;
4‑1.全部实体候选对编辑距离计算, 首先计算每个实体候选对包含数字的字符子串的
编辑距离(su,sv), 其中su和sv分别是来自记录u和记录v的包含数字的字符子串, 便于从记
录u和v中选择 出相似的数字型号组合;
4‑2.子串过滤, 对包含子串关系的字符子串组合进行剔除, 当一个字符子串su是另一个
字符子串sv的子串, 或一个字 符子串sv是另一个字符子串su的子串时, 应当将编辑距离改为
0, 这是因为两个字符子串可能以不同的格式描述相同的信息;
4‑3.量化字符子串相似度, 在计算完编辑距离的基础上 添加一个编辑距离比例;
4‑4.重要字符子串选择, 引入预训练语言模型的自注意力 权重来过滤自注意力权重低
于设定阈值的字符子串;
4‑5.综合编辑距离分数计算, 在获得所有重要 的字符子串后, 生成数字感知的词向量
和
以及它们各自的编辑距离分数
4‑6.基于卷积神经网络CNN的特征提取, 同样使用CNN来提取
的联合特征; 首先
执行不同卷积核的卷积运 算, 然后同样地 通过最大池化操作来获得输出 特征
4.根据权利要求1所述的一种基于预训练语言模型的实体识别方法, 其特征在于步骤1
具体实现如下:
将需要识别的实体的文本描述记录组成记录对, 采用分块方法生成候选对, 将文本数
据拼接的公式如下:
serialize(u,v): :=[CLS] serizalize(u)[SEP]serialize(v)[SEP] (1)
其中,
serialize(x)::=[COL]at tr1[VAL]val1…[COL]attrk[VAL]valk (2)
表示在一个文本数据中, 有多种属性值来描述一个实体, 使用 “COL”来突出属性名, 并
在“VAL”后突出属性的值; serialize(x)表示单纯生 成一个记录的生 成序列, ::=符号代表
该序列化方法定义为右式, attr1和val1分别表示记录的属性名和属性值输入, 记录一般以
二元组(attrk,valk)形式输入, k表示第k个二 元组, serialize(u,v)则是把两个记录的生成
序列用特殊标识符 “[CLS]”和“[SEP]”拼接;
每一个记录u和记录v的原始输入通过序列 化方法seri alize得到各自记录的独立输入
[CLS]serializ e(u)[SEP]和[CLS]serializ e(v)[SEP], 由公式(1)得到, 同时还需要给出记
录u和v的联合输入, 由公式(2)得到; 其中, “[SEP]”、“[COL]”、“[VAL]”是保留输入结构的特
殊标记。
5.根据权利要求4所述的一种基于预训练语言模型的实体识别方法, 其特征在于步骤2
具体实现如下: 使用预训练语言模型BERT将预处理之后的数据进行分词、 提取单词嵌入向
量特征, 根据不同的文本长度进行对齐, 且在实际应用编码中, 每个attri和vali都需要被
token化, 最后得到记录u和v本身的向量Eu和Ev, 记录对(u,v)组合后的整个词向量Et。
6.根据权利要求2所述的一种基于预训练语言模型的实体识别方法, 其特征在于步骤
3‑2背景语义融合具体实现如下:
别在两个记录的词向量Eu和Ev上执行一个背景语义的融合 算子, 也就是
E′u=Eu+E′t[CLS] (3)权 利 要 求 书 2/4 页
3
CN 114647715 A
3
专利 一种基于预训练语言模型的实体识别方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:46:04上传分享