(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210300209.4
(22)申请日 2022.03.25
(71)申请人 中科世通亨奇 (北京) 科技有限公司
地址 100083 北京市海淀区学院路甲5号2
幢平房北1 102
(72)发明人 熊朝阳 黄宇
(74)专利代理 机构 广州鼎贤知识产权代理有限
公司 44502
专利代理师 刘莉梅
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/295(2020.01)
G06F 40/284(2020.01)
G06F 40/211(2020.01)
G06F 40/186(2020.01)G06F 40/30(2020.01)
(54)发明名称
基于先验知识端到端的事件抽取模型的训
练、 事件抽取方法及装置
(57)摘要
本发明公开了基于先验知识端到端的事件
抽取模型的训练、 事件抽取方法及装置, 方法包
括: 针对训练文本, 基于预先配置的实体识别模
型和词汇识别算法分别进行实体识别和词汇识
别; 根据分析结果将实体识别结果和词汇识别结
果加入到对应 分词的标注信息中, 得到训练文本
对应的融合结果; 基于事件树的生成遍历顺序,
将训练数据转换为事件文本序列和事件角色类
型伴生序列的第一序列对; 根据事件结构模板
库, 建立事件模板树, 将所述融合结果和第一序
列 对 作 为 样 本 ,训 练 预 先 搭 建 的 基 于
transformer的encoder ‑decoder架构的事件网
络模型, 得到目标模型。 应用本发明实施例, 对不
同领域数据的迁移成本也更低。
权利要求书3页 说明书10页 附图5页
CN 114757181 A
2022.07.15
CN 114757181 A
1.一种基于先验知识端到端的事 件抽取模型的训练方法, 其特 征在于, 所述方法包括:
S1: 针对训练文本, 基于预先配置的实体识别模型和词汇识别算法分别进行实体识别
和词汇识别, 并对训练文本进行文本分词、 词性标注、 依存句法识别得到文本分词信息、 词
性标注信息、 依存句法信息, 其中, 所述词汇 识别包括: 触发词识别以及论元词汇 识别;
S2: 分别对实体识别、 触发词识别, 论元词 汇识别的结果与分词结果进行原文本位置重
叠分析, 根据分析结果将实体识别结果和词汇识别结果加入到对应分词的标注信息中, 得
到训练文本对应的融合结果;
S3: 基于事件树的生成遍历顺序, 将训练数据转换为事件文本序列和事件角色类型伴
生序列的第一序列对;
S4: 根据事件结构模板库, 建立事件模板树, 将所述融合结果和第一序列对作为样本,
将事件模板树作为受限解码器机制的事件模式词的候选范围, 训练预先搭建的基于
transformer的encoder ‑decoder架构的事 件网络模型, 得到目标模型。
2.根据权利要求1所述的一种基于先验知识端到端的事件抽取模型的训练方法, 其特
征在于, S3步骤 包括:
用事件类型链接到事件树的虚拟根节点, 训练数据事件中事件触发词链接到事件类型
作为标签, 将若干个事件参数类型与事件类型连接, 训练数据事件中论元词汇链接到作为
标签的相 应事件参数类型节点, 其中, 事件参数类型节点为事件树中除虚拟根节点以外的
节点;
将训练文本 中的每一个字符按照针对事件树的遍历顺序排列组成事件文本序列; 将训
练文本中的每一个字符对应的节点的标签按照针对事件树的遍历顺序排列 组成事件角色
类型伴生序列, 将事 件文本序列 与事件角色类型伴 生序列的组合作为第一序列对。
3.根据权利要求1所述的一种基于先验知识端到端的事件抽取模型的训练方法, 其特
征在于, 事 件模板树的生成过程包括: :
基于事件结构模板语句, 将所有事件类型字段作为虚拟根节点的子节点连接到虚拟根
节点, 事件类型对应的事件参数字段作为事件类型字段的子节点链接到事件类型字段对应
的事件树中的其 他节点;
在每一个以事件类型字段为父节点的子树中包含的、 未作为父节点的, 所有事件参数
类型字段作为子节点链接到该事件参数角色类型字段, 依 次递归, 直到该事件类型字段所
包含的所有事 件参数类型字段均被连接 到每一条树分支上。
4.根据权利要求1所述的一种基于先验知识端到端的事件抽取模型的训练方法, 其特
征在于, 在事 件网络模型的每一次迭代训练时, 所述方法还 包括:
判断当前迭代步骤为奇数步还是偶数步;
在奇数步时, 以当前迭代步骤之前所有奇数步的解码器隐状态的自注意力 机制与编码
器编码隐含层向量H的交叉注 意力机制输出, 以及上一奇数步的输出token yi‑1, 利用公式,
yi,
解码输出本步to ken yi和当前迭代步骤的解码器隐状态
其中,
yi为当前迭代步骤的输出;
为当前迭代步骤的解码器 隐状态; Decoder()为解码算
法;
为当前步骤之前所有奇数步的解码器隐状态的自注意力机制与编码器编码隐权 利 要 求 书 1/3 页
2
CN 114757181 A
2含层向量H的交叉注意力机制算法; i为当前迭代步骤的序号, 取值为正整数; yi‑1为上一奇
数步的输出;
为当前步骤之前所有奇数步的解码器隐状态, 且
且
为第一个奇数迭代步骤的解码器隐状态, 类似的,
为第i‑2个奇数迭代步骤的解码器
隐状态。
5.根据权利要求4所述的一种基于先验知识端到端的事件抽取模型的训练方法, 其特
征在于, 在当前迭代步骤为偶数步的情况 下, 所述方法包括:
利用交叉注意力机制算法处理与上一奇数步输入相同的所有之前奇数步的解码器隐
状态的自注意力机制、 编码器隐含层向量H得到的输出结果, 以及上一偶数步骤的输出
token ym‑1, 利用公式, ym,
解码输出本步token ym和本步解码
器隐状态
其中,
M为当前迭代步骤对应的次数;
为与上一奇数步输入相同的所有之前奇数步的解
码器隐状态
且
为第一个偶数迭代步骤的解码器隐状态, 类似的,
为
第m‑2个偶数迭代步骤的解码器隐状态。
6.根据权利要求1所述的一种基于先验知识端到端的事件抽取模型的训练方法, 其特
征在于, 在事 件网络模型的每一次迭代结束后, 所述方法还 包括:
利用公式,
计算当前次迭代步骤的整个输出序列的条件概率p
(y|x), 其中,
p(y|x)为整个输出序列的条件概率; y为当前次迭代的输出序列; x为词汇的标识; П为
求积运算符; p(yi|y<i,x)为每个迭代步骤的输出序列中词汇x 对应的概 率; y<i=y1...yi‑1;
判断所述当前次迭代步骤的整个输出序列的条件概 率是否大于设定阈值;
若是, 将当前次迭代步骤整个输出序列中的事件模式词作为下一 次迭代步骤的事件模
式词的来源。
7.根据权利要求6所述的一种基于先验知识端到端的事件抽取模型的训练方法, 其特
征在于, 在判断所述当前次迭代步骤的整个输出序列的条件概率是否大于 设定阈值步骤的
判断结果 为否时, 所述方法还 包括:
在当前迭代步骤的下一次迭代步骤中将事 件模板树作为事 件模式词的来源。
8.一种基于先验知识端到端的事 件抽取方法, 其特 征在于, 所述方法包括:
S6: 针对待处理文本, 基于预先配置的实体识别模型和词汇识别算法分别进行实体识
别和词汇识别, 并对待处理文本进行文本分词、 词性标注、 依存句法识别得到文本分词信
息、 词性标注信息、 依存句法信息, 其中, 所述词汇识别包括: 触发词识别以及论元词汇识
别;
S7: 分别对实体识别、 触发词识别, 论元词 汇识别的结果与分词结果进行原文本位置重
叠分析, 根据分析结果将实体识别结果和词汇识别结果加入到对应分词的标注信息中, 得
到待处理文本对应的融合结果;
S8: 基于事件模板树, 将所述待处理文本对应的融合结果进行转换并输入到如权利要
求1训练得到的目标模型中, 得到待处理文本对应的事件文本序列和事件角色类型 的第二权 利 要 求 书 2/3 页
3
CN 114757181 A
3
专利 基于先验知识端到端的事件抽取模型的训练、事件抽取方法及装置
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:48:52上传分享