(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210354653.4
(22)申请日 2022.04.06
(71)申请人 西安电子科技大 学
地址 710071 陕西省西安市太白南路2号
申请人 陕西方寸积慧智能科技有限公司
(72)发明人 柯欣飞 姬红兵 张文博
(74)专利代理 机构 西安智大知识产权代理事务
所 61215
专利代理师 段俊涛
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
基于特征融合的中文 事件抽取方法
(57)摘要
本发明公开了一种基于特征融合的中文事
件抽取方法, 步骤为: 1)构建中文事件抽取网络
BERT‑FF; 2)构建训练数据集; 3)下载预训练参数
文件并利用对比学习方法进行优化; 4)利用迁移
学习的方法, 在字级别特征提取网络中加载优化
后的预训练参数文件; 5)利用训练数据集进行训
练, 得到训练好的中文事件抽取网络BERT ‑FF; 6)
从开放网络中爬取描述事件的文本, 作为测试数
据集输入到训练好的中文事件抽取网络BERT ‑FF
中进行事件抽取, 输出结构化的事件信息, 即事
件抽取的结果。 本发明通过特征融合方法增强了
模型的语义表 示能力, 提升了中文事件抽取的性
能, 可用于新闻舆情分析、 情报处理、 金融风险评
估等领域。
权利要求书3页 说明书7页 附图3页
CN 114780677 A
2022.07.22
CN 114780677 A
1.基于特 征融合的中文事 件抽取方法, 其特 征在于, 包括如下步骤:
步骤1, 构建中文事 件抽取网络BERT ‑FF
所述中文事件抽取网络BERT ‑FF包括字级别特征提取网络、 词级别特征提取网络、 特征
融合网络和后端分类网络;
所述字级别特征提取网络基于BERT预训练语言模型, 用于提取输入文本的字级别特
征; 所述词级别特征提取网络用于提取输入文本的词级别特征; 所述特征融合网络通过注
意力机制将提取 的字级别特征与词级别特征进行融合, 以增强模型 的语义表示能力, 获得
融合特征向量; 所述后端分类网络用于将融合特征向量分别输入事件检测后端网络和事件
论元抽取后端网络, 获得最终的事 件抽取结果;
步骤2, 构建训练数据集
所述训练数据集由从开放网络中爬取的描述事件的文本和与该文本一一对应的注解
文件组成;
步骤3, 对中文事 件抽取网络BERT ‑FF进行训练
步骤4, 从开放网络 中爬取描述事件的文本, 作为测试数据集输入到训练好的中文事件
抽取网络BERT ‑FF中进行事件抽取, 输出结构化的事件信息, 得到事件抽取的结果, 并计算
事件抽取的精确率和召回率。
2.根据权利要求1所述基于特征融合的中文事件抽取方法, 其特征在于, 所述字级别特
征提取网络, 结构关系依次为: 输入层 →词嵌入层 →位置编码 →N个级联的语义编码 器→输
出层;
其中, 输入层的输入为文本分字后得到的token序列, 训练时token序列的最大长度设
置为128, 若超过128则截断, 且每个批次内的token序列长度保持相等, 若不相等则按批次
内最长的to ken序列长度Pad ding, token序列长度为sequence length1;
词嵌入层的嵌入维度embed ded size=768, 即每 个token的词向量 为768维的列向量;
位置编码方法采用Si nusoidal位置编码, 如式(1)和式(2)所示:
其中, pos指的是当前token在序列中的位置, 取值范围是[0,sequence length1), i指的
是词向量的维度序号, 取值范围是[0,embedded size/2), 即令位置编码的维度与词向量维
度一致, d指的是词向量维度embedded size; 式(1)和式(2)分别是词向量维度序号i为偶数
和奇数时位置编码的计算公式, 从而产生不同的周期性变化; 随着i增大, 周期性变化的频
率越来越低, 最终在每个不同的位置上产生唯一的包含位置信息的纹理, 将其作为位置编
码加入词向量, 使模型 可以学习到位置之间的依赖关系和自然语言的时序特性;
N个级联的语义编码器是字级别特征提取网络的主体, 每个语义编码器由两部分组成:
包含残差网络的多头自注意力模块和包 含残差网络的前向传播模块。
3.根据权利要求2所述基于特征融合的中文事件抽取方法, 其特征在于, 所述包含残差权 利 要 求 书 1/3 页
2
CN 114780677 A
2网络的多头自注意力模块由一个多头注意力模块和一个残差模块拼接组成, 多头注意力模
块的input1和input2均为绑定位置编码的词向量, 每一个Attention Head的三个输入分别
为查询向量序列Q、 键向量序列K和值向量序列V, Att ention Head的个数为12; Q由input1经
过全连接层得到, K和V由input2经过全连接层得到, 每个全连接层映射矩阵的维度为768 ×
64, 每一个Attention Head都生成一组Q、 K和V, 每组Q、 K和V均输入一个缩放点积注意力模
块计算得到上下文特征向量, 最终将得到的多组上下文特征向量拼接, 再输入全连接层得
到多头注意力模块的输出, 全连接层映射矩阵的维度为768 ×768, 残差模块将其前置模块
的输入和输出相加, 并进行层归一 化;
所述包含残差网络的前向传播模块由两个全连接层、 GeLU激活函数和一个残差模块拼
接组成, GeLU激活函数位于两个全连接层之间, 第一个全连接层映射矩阵的维度为768 ×
2048, 第二个全 连接层映射矩阵的维度为2048 ×768, 残差模块将其前置模块的输入和输出
相加, 并进行层归一 化; GeLU激活函数表示 为:
其中, x表示前置模块的输出, erf(*)表示高斯 误差计算 函数。
4.根据权利要求2所述基于特征融合的中文事件抽取方法, 其特征在于, 所述词级别特
征提取网络, 结构关系依次为: 输入层 →词嵌入层 →位置编码 →全连接层 →输出层;
输入层的输入为文本分词后得到的token序列, 训 练时token序列的最大长度设置为
128, 若超过128则截断, 且每个批次内的token序列长度保持相等, 若不相等则按批次内最
长的token序列长度Pad ding, token序列长度为sequence length2;
词嵌入层的嵌入维度embed ded size=128, 即每 个token的词向量 为128维的列向量;
位置编码方法采用Si nusoidal位置编码。
全连接层映射矩阵的维度为128 ×768。
5.根据权利要求4所述基于特征融合的中文事件抽取方法, 其特征在于, 所述特征融合
网络, 其结构关系依次为: 输入层 →多头注意力模块 →输出层;
输入层的输入由两部分组成, 分别为字级别特征向量input1和词级别特征向量input2,
input1的维度为sequence length1×768, input2的维度为sequence length2×768;
多头注意力模块每一个Attention Head的三个输入分别为查询向量序列Q、 键向量序
列K和值向量序列V, Attention Head的个数为24, Q由input1经过全连接层得到, K和V由
input2经过全连接层得到, 每个全连接层映射矩阵的维度为768 ×32, 每一个Attention
Head都生 成一组Q、 K和V, 每组Q、 K和V均输入一个缩放点积注 意力模块计算得到上下文特征
向量, 最终将得到的多组上下文特征向量拼接, 再输入全连接层得到多头注意力模块的输
出, 全连接层映射矩阵的维度为768 ×768。
6.根据权利要求5所述基于特征融合的中文事件抽取方法, 其特征在于, 所述后端分类
网络分为两 部分, 分别是事 件检测后端网络和事 件论元抽取后端网络;
事件检测后端网络的结构关系依次为: 输入层 →全连接层 →多标签分类 器→输出层;
输入层的输入为融合特 征向量中的[CLS]标签的特 征向量, 维度为1 ×768;
全连接层映射矩阵的维度为768 ×n_events, n_events为事 件类型的总数;
多标签分类器 由n_events个Sigmoid函数组成, 最终输出为当前输入文本中包含事件
类型的概 率分布, 若概 率大于0.5则认为文本中包 含对应的事 件类型, 否则认为 不包含;权 利 要 求 书 2/3 页
3
CN 114780677 A
3
专利 基于特征融合的中文事件抽取方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:49:37上传分享