(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210230832.7
(22)申请日 2022.03.10
(65)同一申请的已公布的文献号
申请公布号 CN 114298053 A
(43)申请公布日 2022.04.08
(73)专利权人 中国科学院自动化研究所
地址 100190 北京市海淀区中关村东路95
号
(72)发明人 陶建华 沈超 张大伟 杨国花
车飞虎
(74)专利代理 机构 北京华夏泰和知识产权代理
有限公司 1 1662
专利代理师 邓菊香
(51)Int.Cl.
G06F 40/295(2020.01)G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 113591483 A,2021.1 1.02
CN 113407660 A,2021.09.17
CN 113705218 A,2021.1 1.26
US 202140 6476 A1,2021.12.3 0
CN 112765952 A,2021.0 5.07
审查员 赵晓敏
(54)发明名称
一种基于特征和注意力机制融合的事件联
合抽取系统
(57)摘要
本发明提供一种基于特征和注意力机制融
合的事件 联合抽取系统, 包括: 输入层、 特征提取
层、 触发词和论元识别层和事件后处理层; 将预
训练层输出的信息结合词性和位置信息输入到
BiGRU和CNN中, 得到句子的上下文语义特征矩阵
和局部特征矩阵, 再利用注意力机制融合这两种
特征, 最后将三种表示联合起来进行事件抽取;
词嵌入层使用预训练模型BioBERT, 并对其进行
微调, 以提高模型的效果; 事件 联合抽取, 避免了
级联错误的产生, 提升模型的效果。
权利要求书2页 说明书11页 附图2页
CN 114298053 B
2022.05.24
CN 114298053 B
1.一种基于特征和注意力 机制融合的事件联合抽取系统, 其特征在于, 所述系统包括:
输入层、 特 征提取层、 触发词和论元识别层和事 件后处理层;
所述输入层: 将文本进行语料预处理, 得到单词向量嵌入式表示、 词性向量嵌入式表示
和实体向量嵌入式表示, 再将所述单词向量嵌入式表示、 词性向量嵌入式表示和实体向量
嵌入式表示进行拼接, 得到嵌入层表示;
所述特征提取层包括: 局部特 征提取层、 全局特 征提取层和注意力机制层;
所述局部特征提取层: 将所述嵌入层表示输入卷积神经网络, 经卷积运算, 得到卷积特
征表示, 再对所述卷积特 征表示进行最大池化, 得到局部特 征矩阵;
所述全局特征提取层: 将所述嵌入层表示输入深度学习 网络, 得到上下文语义特征矩
阵;
所述注意力 机制层: 根据 所述卷积特征表示和上下文语义特征矩阵, 应用注意力 机制,
得到特征融合注意力机制的信息向量, 再将所述局部特征矩阵、 深度学习网络的最后一维
隐层输出和特 征融合注意力机制的信息向量进行拼接, 得到特 征表示向量;
所述触发词和论元识别层: 根据所述特征表示向量和其对应的标签序列, 得到触发词
类别标签得分和触发词的识别结果, 并返回所述触发词的条件概 率信息向量;
根据所述特 征表示向量和所述条件概 率信息向量, 得到论元识别的结果;
所述事件后处理层: 根据所述触发词的识别结果和所述论元识别的结果, 生成完整的
符合定义的事 件。
2.根据权利要求1所述的一种基于特征和注意力机制融合的事件联合抽取系统, 其特
征在于, 所述将所述嵌入层表示输入深度学习网络, 得到上下文语义特征矩阵的具体方法
包括: 将所述嵌入层表示输入双向门控循环单元网络, 得到正向门控循环单元 的输出和反
向门控循环单元的输出, 再将所述正向门控循环单元的输出和反向门控循环单元的输出拼
接, 得到上 下文语义特 征矩阵。
3.根据权利要求1所述的一种基于特征和注意力机制融合的事件联合抽取系统, 其特
征在于, 所述根据所述卷积特征表示和上下文语义特征矩阵, 应用注意力机制, 得到特征融
合注意力机制的信息向量的具体方法包括:
计算所述卷积特征表示和上下文语义特征矩阵之间的注意力 权重, 然后将所述注意力
权重和上下文语义特 征矩阵进行加权, 得到特 征融合注意力机制的信息向量。
4.根据权利要求1所述的一种基于特征和注意力机制融合的事件联合抽取系统, 其特
征在于, 所述根据所述特征表示向量和 其对应的标签序列, 得到触发词类别标签得分和触
发词的识别结果, 并返回所述触发词的条件概 率信息向量的具体方法包括:
根据所述特征表示向量和其对应的标签序列, 应用触发词识别的条件随机场得到触发
词类别标签得分和触发词的识别结果, 并返回所述触发词的条件概 率信息向量。
5.根据权利要求1所述的一种基于特征和注意力机制融合的事件联合抽取系统, 其特
征在于, 所述根据所述特征表示向量和所述条件概率信息 向量, 得到论元识别的结果的具
体方法包括:
将所述特征表示向量和所述条件概率信息向量融合, 根据触发词和候选词的位置, 分
别抽取出触发词和候选词的向量表示;
再将所述触发词和候选词的向量表示拼接起来, 并将拼接后的结果送入论元识别的条权 利 要 求 书 1/2 页
2
CN 114298053 B
2件随机场, 得到论元识别的结果。
6.根据权利要求1所述的一种基于特征和注意力机制融合的事件联合抽取系统, 其特
征在于, 所述根据所述触发词的识别结果和所述论元识别的结果, 生成完整的符合定义的
事件的具体方法包括:
根据所述触发词的识别结果和所述论元识别的结果, 利用基于SVM的后处理方法生成
完整的符合定义的事 件。
7.根据权利要求1所述的一种基于特征和注意力机制融合的事件联合抽取系统, 其特
征在于, 所述将文本进 行语料预 处理, 得到单词向量嵌入式表示、 词性向量 嵌入式表示的具
体方法包括:
将每个单词转换为d维的单词向量,最后由BioBERT模型编码生成单词向量表示矩阵,
即单词向量嵌入式表示; 所述Bi oBERT模型为用于自然语言上的预训练模型;
应用Stanford Parser工具来得到单词的词性向量, 即词性向量嵌入式表示。
8.根据权利要求1所述的一种基于特征和注意力机制融合的事件联合抽取系统, 其特
征在于, 将文本进行语料 预处理, 得到实体向量嵌入式表示的具体方法包括:
引入序列标注模型BIO对输入的语料进行标注, 最后通过查找实体标签表将实体类型
标签转换为对应的实值向量, 得到实体向量嵌入式表示。
9.一种电子设备, 其特征在于, 包括存储器和处理器, 所述存储器上存储有计算机程
序, 该计算机程序被所述处理器执行时, 执行如权利要求1至8任意一项所述的一种基于特
征和注意力机制融合的事 件联合抽取系统中的方法。
10.一种存储介质, 其特征在于, 该存储介质存储的计算机程序, 能够被一个或多个处
理器执行, 能够用来实现如权利要求 1至8中任一项 所述的一种基于特征和注 意力机制融合
的事件联合抽取系统中的方法。权 利 要 求 书 2/2 页
3
CN 114298053 B
3
专利 一种基于特征和注意力机制融合的事件联合抽取系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:45:43上传分享