(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210230832.7 (22)申请日 2022.03.10 (65)同一申请的已公布的文献号 申请公布号 CN 114298053 A (43)申请公布日 2022.04.08 (73)专利权人 中国科学院自动化研究所 地址 100190 北京市海淀区中关村东路95 号 (72)发明人 陶建华 沈超 张大伟 杨国花  车飞虎  (74)专利代理 机构 北京华夏泰和知识产权代理 有限公司 1 1662 专利代理师 邓菊香 (51)Int.Cl. G06F 40/295(2020.01)G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 113591483 A,2021.1 1.02 CN 113407660 A,2021.09.17 CN 113705218 A,2021.1 1.26 US 202140 6476 A1,2021.12.3 0 CN 112765952 A,2021.0 5.07 审查员 赵晓敏 (54)发明名称 一种基于特征和注意力机制融合的事件联 合抽取系统 (57)摘要 本发明提供一种基于特征和注意力机制融 合的事件 联合抽取系统, 包括: 输入层、 特征提取 层、 触发词和论元识别层和事件后处理层; 将预 训练层输出的信息结合词性和位置信息输入到 BiGRU和CNN中, 得到句子的上下文语义特征矩阵 和局部特征矩阵, 再利用注意力机制融合这两种 特征, 最后将三种表示联合起来进行事件抽取; 词嵌入层使用预训练模型BioBERT, 并对其进行 微调, 以提高模型的效果; 事件 联合抽取, 避免了 级联错误的产生, 提升模型的效果。 权利要求书2页 说明书11页 附图2页 CN 114298053 B 2022.05.24 CN 114298053 B 1.一种基于特征和注意力 机制融合的事件联合抽取系统, 其特征在于, 所述系统包括: 输入层、 特 征提取层、 触发词和论元识别层和事 件后处理层; 所述输入层: 将文本进行语料预处理, 得到单词向量嵌入式表示、 词性向量嵌入式表示 和实体向量嵌入式表示, 再将所述单词向量嵌入式表示、 词性向量嵌入式表示和实体向量 嵌入式表示进行拼接, 得到嵌入层表示; 所述特征提取层包括: 局部特 征提取层、 全局特 征提取层和注意力机制层; 所述局部特征提取层: 将所述嵌入层表示输入卷积神经网络, 经卷积运算, 得到卷积特 征表示, 再对所述卷积特 征表示进行最大池化, 得到局部特 征矩阵; 所述全局特征提取层: 将所述嵌入层表示输入深度学习 网络, 得到上下文语义特征矩 阵; 所述注意力 机制层: 根据 所述卷积特征表示和上下文语义特征矩阵, 应用注意力 机制, 得到特征融合注意力机制的信息向量, 再将所述局部特征矩阵、 深度学习网络的最后一维 隐层输出和特 征融合注意力机制的信息向量进行拼接, 得到特 征表示向量; 所述触发词和论元识别层: 根据所述特征表示向量和其对应的标签序列, 得到触发词 类别标签得分和触发词的识别结果, 并返回所述触发词的条件概 率信息向量; 根据所述特 征表示向量和所述条件概 率信息向量, 得到论元识别的结果; 所述事件后处理层: 根据所述触发词的识别结果和所述论元识别的结果, 生成完整的 符合定义的事 件。 2.根据权利要求1所述的一种基于特征和注意力机制融合的事件联合抽取系统, 其特 征在于, 所述将所述嵌入层表示输入深度学习网络, 得到上下文语义特征矩阵的具体方法 包括: 将所述嵌入层表示输入双向门控循环单元网络, 得到正向门控循环单元 的输出和反 向门控循环单元的输出, 再将所述正向门控循环单元的输出和反向门控循环单元的输出拼 接, 得到上 下文语义特 征矩阵。 3.根据权利要求1所述的一种基于特征和注意力机制融合的事件联合抽取系统, 其特 征在于, 所述根据所述卷积特征表示和上下文语义特征矩阵, 应用注意力机制, 得到特征融 合注意力机制的信息向量的具体方法包括: 计算所述卷积特征表示和上下文语义特征矩阵之间的注意力 权重, 然后将所述注意力 权重和上下文语义特 征矩阵进行加权, 得到特 征融合注意力机制的信息向量。 4.根据权利要求1所述的一种基于特征和注意力机制融合的事件联合抽取系统, 其特 征在于, 所述根据所述特征表示向量和 其对应的标签序列, 得到触发词类别标签得分和触 发词的识别结果, 并返回所述触发词的条件概 率信息向量的具体方法包括: 根据所述特征表示向量和其对应的标签序列, 应用触发词识别的条件随机场得到触发 词类别标签得分和触发词的识别结果, 并返回所述触发词的条件概 率信息向量。 5.根据权利要求1所述的一种基于特征和注意力机制融合的事件联合抽取系统, 其特 征在于, 所述根据所述特征表示向量和所述条件概率信息 向量, 得到论元识别的结果的具 体方法包括: 将所述特征表示向量和所述条件概率信息向量融合, 根据触发词和候选词的位置, 分 别抽取出触发词和候选词的向量表示; 再将所述触发词和候选词的向量表示拼接起来, 并将拼接后的结果送入论元识别的条权 利 要 求 书 1/2 页 2 CN 114298053 B 2件随机场, 得到论元识别的结果。 6.根据权利要求1所述的一种基于特征和注意力机制融合的事件联合抽取系统, 其特 征在于, 所述根据所述触发词的识别结果和所述论元识别的结果, 生成完整的符合定义的 事件的具体方法包括: 根据所述触发词的识别结果和所述论元识别的结果, 利用基于SVM的后处理方法生成 完整的符合定义的事 件。 7.根据权利要求1所述的一种基于特征和注意力机制融合的事件联合抽取系统, 其特 征在于, 所述将文本进 行语料预 处理, 得到单词向量嵌入式表示、 词性向量 嵌入式表示的具 体方法包括: 将每个单词转换为d维的单词向量,最后由BioBERT模型编码生成单词向量表示矩阵, 即单词向量嵌入式表示; 所述Bi oBERT模型为用于自然语言上的预训练模型; 应用Stanford  Parser工具来得到单词的词性向量, 即词性向量嵌入式表示。 8.根据权利要求1所述的一种基于特征和注意力机制融合的事件联合抽取系统, 其特 征在于, 将文本进行语料 预处理, 得到实体向量嵌入式表示的具体方法包括: 引入序列标注模型BIO对输入的语料进行标注, 最后通过查找实体标签表将实体类型 标签转换为对应的实值向量, 得到实体向量嵌入式表示。 9.一种电子设备, 其特征在于, 包括存储器和处理器, 所述存储器上存储有计算机程 序, 该计算机程序被所述处理器执行时, 执行如权利要求1至8任意一项所述的一种基于特 征和注意力机制融合的事 件联合抽取系统中的方法。 10.一种存储介质, 其特征在于, 该存储介质存储的计算机程序, 能够被一个或多个处 理器执行, 能够用来实现如权利要求 1至8中任一项 所述的一种基于特征和注 意力机制融合 的事件联合抽取系统中的方法。权 利 要 求 书 2/2 页 3 CN 114298053 B 3

.PDF文档 专利 一种基于特征和注意力机制融合的事件联合抽取系统

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于特征和注意力机制融合的事件联合抽取系统 第 1 页 专利 一种基于特征和注意力机制融合的事件联合抽取系统 第 2 页 专利 一种基于特征和注意力机制融合的事件联合抽取系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:43上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。