专利基于先验知识端到端的事件抽取模型的训练、事件抽取方法及装置 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210300209.4 (22)申请日 2022.03.25 (71)申请人中科世通亨奇（北京）科技有限公司地址 100083 北京市海淀区学院路甲5号2 幢平房北1 102 (72)发明人熊朝阳　黄宇　 (74)专利代理机构广州鼎贤知识产权代理有限公司 44502 专利代理师刘莉梅 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/295(2020.01) G06F 40/284(2020.01) G06F 40/211(2020.01) G06F 40/186(2020.01)G06F 40/30(2020.01) (54)发明名称基于先验知识端到端的事件抽取模型的训练、事件抽取方法及装置 (57)摘要本发明公开了基于先验知识端到端的事件抽取模型的训练、事件抽取方法及装置，方法包括：针对训练文本，基于预先配置的实体识别模型和词汇识别算法分别进行实体识别和词汇识别；根据分析结果将实体识别结果和词汇识别结果加入到对应分词的标注信息中，得到训练文本对应的融合结果；基于事件树的生成遍历顺序，将训练数据转换为事件文本序列和事件角色类型伴生序列的第一序列对；根据事件结构模板库，建立事件模板树，将所述融合结果和第一序列对作为样本，训练预先搭建的基于 transformer的encoder ‑decoder架构的事件网络模型，得到目标模型。应用本发明实施例，对不同领域数据的迁移成本也更低。权利要求书3页说明书10页附图5页 CN 114757181 A 2022.07.15 CN 114757181 A 1.一种基于先验知识端到端的事件抽取模型的训练方法，其特征在于，所述方法包括： S1：针对训练文本，基于预先配置的实体识别模型和词汇识别算法分别进行实体识别和词汇识别，并对训练文本进行文本分词、词性标注、依存句法识别得到文本分词信息、词性标注信息、依存句法信息，其中，所述词汇识别包括：触发词识别以及论元词汇识别； S2：分别对实体识别、触发词识别，论元词汇识别的结果与分词结果进行原文本位置重叠分析，根据分析结果将实体识别结果和词汇识别结果加入到对应分词的标注信息中，得到训练文本对应的融合结果； S3：基于事件树的生成遍历顺序，将训练数据转换为事件文本序列和事件角色类型伴生序列的第一序列对； S4：根据事件结构模板库，建立事件模板树，将所述融合结果和第一序列对作为样本，将事件模板树作为受限解码器机制的事件模式词的候选范围，训练预先搭建的基于 transformer的encoder ‑decoder架构的事件网络模型，得到目标模型。 2.根据权利要求1所述的一种基于先验知识端到端的事件抽取模型的训练方法，其特征在于， S3步骤包括：用事件类型链接到事件树的虚拟根节点，训练数据事件中事件触发词链接到事件类型作为标签，将若干个事件参数类型与事件类型连接，训练数据事件中论元词汇链接到作为标签的相应事件参数类型节点，其中，事件参数类型节点为事件树中除虚拟根节点以外的节点；将训练文本中的每一个字符按照针对事件树的遍历顺序排列组成事件文本序列；将训练文本中的每一个字符对应的节点的标签按照针对事件树的遍历顺序排列组成事件角色类型伴生序列，将事件文本序列与事件角色类型伴生序列的组合作为第一序列对。 3.根据权利要求1所述的一种基于先验知识端到端的事件抽取模型的训练方法，其特征在于，事件模板树的生成过程包括：：基于事件结构模板语句，将所有事件类型字段作为虚拟根节点的子节点连接到虚拟根节点，事件类型对应的事件参数字段作为事件类型字段的子节点链接到事件类型字段对应的事件树中的其他节点；在每一个以事件类型字段为父节点的子树中包含的、未作为父节点的，所有事件参数类型字段作为子节点链接到该事件参数角色类型字段，依次递归，直到该事件类型字段所包含的所有事件参数类型字段均被连接到每一条树分支上。 4.根据权利要求1所述的一种基于先验知识端到端的事件抽取模型的训练方法，其特征在于，在事件网络模型的每一次迭代训练时，所述方法还包括：判断当前迭代步骤为奇数步还是偶数步；在奇数步时，以当前迭代步骤之前所有奇数步的解码器隐状态的自注意力机制与编码器编码隐含层向量H的交叉注意力机制输出，以及上一奇数步的输出token yi‑1，利用公式， yi, 解码输出本步to ken yi和当前迭代步骤的解码器隐状态其中， yi为当前迭代步骤的输出；为当前迭代步骤的解码器隐状态； Decoder()为解码算法；为当前步骤之前所有奇数步的解码器隐状态的自注意力机制与编码器编码隐权　利　要　求　书 1/3 页 2 CN 114757181 A 2含层向量H的交叉注意力机制算法； i为当前迭代步骤的序号，取值为正整数； yi‑1为上一奇数步的输出；为当前步骤之前所有奇数步的解码器隐状态，且且为第一个奇数迭代步骤的解码器隐状态，类似的，为第i‑2个奇数迭代步骤的解码器隐状态。 5.根据权利要求4所述的一种基于先验知识端到端的事件抽取模型的训练方法，其特征在于，在当前迭代步骤为偶数步的情况下，所述方法包括：利用交叉注意力机制算法处理与上一奇数步输入相同的所有之前奇数步的解码器隐状态的自注意力机制、编码器隐含层向量H得到的输出结果，以及上一偶数步骤的输出 token ym‑1，利用公式， ym, 解码输出本步token ym和本步解码器隐状态其中， M为当前迭代步骤对应的次数；为与上一奇数步输入相同的所有之前奇数步的解码器隐状态且为第一个偶数迭代步骤的解码器隐状态，类似的，为第m‑2个偶数迭代步骤的解码器隐状态。 6.根据权利要求1所述的一种基于先验知识端到端的事件抽取模型的训练方法，其特征在于，在事件网络模型的每一次迭代结束后，所述方法还包括：利用公式，计算当前次迭代步骤的整个输出序列的条件概率p (y|x)，其中， p(y|x)为整个输出序列的条件概率； y为当前次迭代的输出序列； x为词汇的标识； П为求积运算符； p(yi|y＜i,x)为每个迭代步骤的输出序列中词汇x 对应的概率； y＜i＝y1...yi‑1；判断所述当前次迭代步骤的整个输出序列的条件概率是否大于设定阈值；若是，将当前次迭代步骤整个输出序列中的事件模式词作为下一次迭代步骤的事件模式词的来源。 7.根据权利要求6所述的一种基于先验知识端到端的事件抽取模型的训练方法，其特征在于，在判断所述当前次迭代步骤的整个输出序列的条件概率是否大于设定阈值步骤的判断结果为否时，所述方法还包括：在当前迭代步骤的下一次迭代步骤中将事件模板树作为事件模式词的来源。 8.一种基于先验知识端到端的事件抽取方法，其特征在于，所述方法包括： S6：针对待处理文本，基于预先配置的实体识别模型和词汇识别算法分别进行实体识别和词汇识别，并对待处理文本进行文本分词、词性标注、依存句法识别得到文本分词信息、词性标注信息、依存句法信息，其中，所述词汇识别包括：触发词识别以及论元词汇识别； S7：分别对实体识别、触发词识别，论元词汇识别的结果与分词结果进行原文本位置重叠分析，根据分析结果将实体识别结果和词汇识别结果加入到对应分词的标注信息中，得到待处理文本对应的融合结果； S8：基于事件模板树，将所述待处理文本对应的融合结果进行转换并输入到如权利要求1训练得到的目标模型中，得到待处理文本对应的事件文本序列和事件角色类型的第二权　利　要　求　书 2/3 页 3 CN 114757181 A 3

专利 基于先验知识端到端的事件抽取模型的训练、事件抽取方法及装置

专利基于先验知识端到端的事件抽取模型的训练、事件抽取方法及装置