专利基于特征融合的中文事件抽取方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210354653.4 (22)申请日 2022.04.06 (71)申请人西安电子科技大学地址 710071 陕西省西安市太白南路2号申请人陕西方寸积慧智能科技有限公司 (72)发明人柯欣飞　姬红兵　张文博　 (74)专利代理机构西安智大知识产权代理事务所 61215 专利代理师段俊涛 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称基于特征融合的中文事件抽取方法 (57)摘要本发明公开了一种基于特征融合的中文事件抽取方法，步骤为： 1)构建中文事件抽取网络 BERT‑FF； 2)构建训练数据集； 3)下载预训练参数文件并利用对比学习方法进行优化； 4)利用迁移学习的方法，在字级别特征提取网络中加载优化后的预训练参数文件； 5)利用训练数据集进行训练，得到训练好的中文事件抽取网络BERT ‑FF； 6) 从开放网络中爬取描述事件的文本，作为测试数据集输入到训练好的中文事件抽取网络BERT ‑FF 中进行事件抽取，输出结构化的事件信息，即事件抽取的结果。本发明通过特征融合方法增强了模型的语义表示能力，提升了中文事件抽取的性能，可用于新闻舆情分析、情报处理、金融风险评估等领域。权利要求书3页说明书7页附图3页 CN 114780677 A 2022.07.22 CN 114780677 A 1.基于特征融合的中文事件抽取方法，其特征在于，包括如下步骤：步骤1，构建中文事件抽取网络BERT ‑FF 所述中文事件抽取网络BERT ‑FF包括字级别特征提取网络、词级别特征提取网络、特征融合网络和后端分类网络；所述字级别特征提取网络基于BERT预训练语言模型，用于提取输入文本的字级别特征；所述词级别特征提取网络用于提取输入文本的词级别特征；所述特征融合网络通过注意力机制将提取的字级别特征与词级别特征进行融合，以增强模型的语义表示能力，获得融合特征向量；所述后端分类网络用于将融合特征向量分别输入事件检测后端网络和事件论元抽取后端网络，获得最终的事件抽取结果；步骤2，构建训练数据集所述训练数据集由从开放网络中爬取的描述事件的文本和与该文本一一对应的注解文件组成；步骤3，对中文事件抽取网络BERT ‑FF进行训练步骤4，从开放网络中爬取描述事件的文本，作为测试数据集输入到训练好的中文事件抽取网络BERT ‑FF中进行事件抽取，输出结构化的事件信息，得到事件抽取的结果，并计算事件抽取的精确率和召回率。 2.根据权利要求1所述基于特征融合的中文事件抽取方法，其特征在于，所述字级别特征提取网络，结构关系依次为：输入层 →词嵌入层 →位置编码 →N个级联的语义编码器→输出层；其中，输入层的输入为文本分字后得到的token序列，训练时token序列的最大长度设置为128，若超过128则截断，且每个批次内的token序列长度保持相等，若不相等则按批次内最长的to ken序列长度Pad ding， token序列长度为sequence length1；词嵌入层的嵌入维度embed ded size＝768，即每个token的词向量为768维的列向量；位置编码方法采用Si nusoidal位置编码，如式(1)和式(2)所示：其中， pos指的是当前token在序列中的位置，取值范围是[0,sequence length1)， i指的是词向量的维度序号，取值范围是[0,embedded size/2)，即令位置编码的维度与词向量维度一致， d指的是词向量维度embedded size；式(1)和式(2)分别是词向量维度序号i为偶数和奇数时位置编码的计算公式，从而产生不同的周期性变化；随着i增大，周期性变化的频率越来越低，最终在每个不同的位置上产生唯一的包含位置信息的纹理，将其作为位置编码加入词向量，使模型可以学习到位置之间的依赖关系和自然语言的时序特性； N个级联的语义编码器是字级别特征提取网络的主体，每个语义编码器由两部分组成：包含残差网络的多头自注意力模块和包含残差网络的前向传播模块。 3.根据权利要求2所述基于特征融合的中文事件抽取方法，其特征在于，所述包含残差权　利　要　求　书 1/3 页 2 CN 114780677 A 2网络的多头自注意力模块由一个多头注意力模块和一个残差模块拼接组成，多头注意力模块的input1和input2均为绑定位置编码的词向量，每一个Attention Head的三个输入分别为查询向量序列Q、键向量序列K和值向量序列V， Att ention Head的个数为12； Q由input1经过全连接层得到， K和V由input2经过全连接层得到，每个全连接层映射矩阵的维度为768 × 64，每一个Attention Head都生成一组Q、 K和V，每组Q、 K和V均输入一个缩放点积注意力模块计算得到上下文特征向量，最终将得到的多组上下文特征向量拼接，再输入全连接层得到多头注意力模块的输出，全连接层映射矩阵的维度为768 ×768，残差模块将其前置模块的输入和输出相加，并进行层归一化；所述包含残差网络的前向传播模块由两个全连接层、 GeLU激活函数和一个残差模块拼接组成， GeLU激活函数位于两个全连接层之间，第一个全连接层映射矩阵的维度为768 × 2048，第二个全连接层映射矩阵的维度为2048 ×768，残差模块将其前置模块的输入和输出相加，并进行层归一化； GeLU激活函数表示为：其中， x表示前置模块的输出， erf(*)表示高斯误差计算函数。 4.根据权利要求2所述基于特征融合的中文事件抽取方法，其特征在于，所述词级别特征提取网络，结构关系依次为：输入层 →词嵌入层 →位置编码 →全连接层 →输出层；输入层的输入为文本分词后得到的token序列，训练时token序列的最大长度设置为 128，若超过128则截断，且每个批次内的token序列长度保持相等，若不相等则按批次内最长的token序列长度Pad ding， token序列长度为sequence length2；词嵌入层的嵌入维度embed ded size＝128，即每个token的词向量为128维的列向量；位置编码方法采用Si nusoidal位置编码。全连接层映射矩阵的维度为128 ×768。 5.根据权利要求4所述基于特征融合的中文事件抽取方法，其特征在于，所述特征融合网络，其结构关系依次为：输入层 →多头注意力模块 →输出层；输入层的输入由两部分组成，分别为字级别特征向量input1和词级别特征向量input2， input1的维度为sequence length1×768， input2的维度为sequence length2×768；多头注意力模块每一个Attention Head的三个输入分别为查询向量序列Q、键向量序列K和值向量序列V， Attention Head的个数为24， Q由input1经过全连接层得到， K和V由 input2经过全连接层得到，每个全连接层映射矩阵的维度为768 ×32，每一个Attention Head都生成一组Q、 K和V，每组Q、 K和V均输入一个缩放点积注意力模块计算得到上下文特征向量，最终将得到的多组上下文特征向量拼接，再输入全连接层得到多头注意力模块的输出，全连接层映射矩阵的维度为768 ×768。 6.根据权利要求5所述基于特征融合的中文事件抽取方法，其特征在于，所述后端分类网络分为两部分，分别是事件检测后端网络和事件论元抽取后端网络；事件检测后端网络的结构关系依次为：输入层 →全连接层 →多标签分类器→输出层；输入层的输入为融合特征向量中的[CLS]标签的特征向量，维度为1 ×768；全连接层映射矩阵的维度为768 ×n_events， n_events为事件类型的总数；多标签分类器由n_events个Sigmoid函数组成，最终输出为当前输入文本中包含事件类型的概率分布，若概率大于0.5则认为文本中包含对应的事件类型，否则认为不包含；权　利　要　求　书 2/3 页 3 CN 114780677 A 3

专利 基于特征融合的中文事件抽取方法

专利基于特征融合的中文事件抽取方法