(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210404007.4 (22)申请日 2022.04.18 (71)申请人 桂林电子科技大 学 地址 541004 广西壮 族自治区桂林市七 星 区金鸡路1号 (72)发明人 黄永忠 张晨昊 秦韬  (74)专利代理 机构 桂林文必达专利代理事务所 (特殊普通 合伙) 45134 专利代理师 白洪 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 40/49(2020.01) G06K 9/62(2022.01)G06F 16/33(2019.01) (54)发明名称 基于多语言预训练模型的事件触发词检测 与分类方法 (57)摘要 本发明涉及自然语 言处理技术领域, 具体涉 及一种基于多语言预训练模型的事件触发词检 测与分类方法, 首先构建事件触发词与事件要素 的向量池, 再使用现有的工具对事件进行语义角 色标注, 最后再以相似度计算方法将它们映射到 给定的事件类型进行分类。 本发 明有效地减弱了 人工进行事件 标注的工作量, 并且 方便拓展到其 他事件类型; 使用多语言的预训练模型进行编 码, 让多种语 言可以在一个向量池 上进行相似性 挖掘与预测, 减少了一种语言训练一个模型的工 作量; 使用多语言的预训练模型, 准备阶段中使 用中英等外部新闻语料库丰富的数据量, 避免了 稀缺语言资源使用该方法却没有丰富新闻语料 库扩充向量池的问题。 权利要求书2页 说明书4页 附图2页 CN 114896394 A 2022.08.12 CN 114896394 A 1.一种基于多语言预训练模型的事件触发词检测与分类方法, 其特征在于, 包括如下 步骤: 使用词向量模型分别获得事件触发词的近义词和事件要素的近义词, 从而分别得到第 一集合和第二 集合; 定义所述第一 集合为第一锚点词, 定义所述第二 集合为第二锚点词; 对外部的新闻语料分别以所述第 一锚点词和所述第 二锚点词为中心进行挖掘, 分别获 得包含锚点词的第一句子集 合和第二句子集 合; 定义所述第一句子集 合为第一锚点句, 定义所述第二句子集 合为第二锚点句; 分别对所述第 一锚点句和所述第 二锚点句进行跨语言 向量编码, 从而分别得到第 一跨 语言句向量和第二 跨语言句向量; 将所述第一 跨语言句向量和所述第二 跨语言句向量存 入向量池; 使用语义角色标注工具对待预测句子进行语义标注; 对所述待预测句中进行语义标注得到的词汇使用多语言预训练模型进行编码得到跨 语言词向量; 将所述跨语言词向量与所述向量池中的所述第一跨语言句向量和所述第二跨语言句 向量进行相似度比对, 相似度最高的即为预测结果。 2.如权利要求1所述的基于多语言预训练模型的事件触发词检测与分类方法, 其特征 在于, 所述使用词向量模型分别获得事件触发词的近义词和事件要素 的近义词, 从而分别 得到第一 集合和第二 集合, 包括: 使用Word2Vec词向量模型寻找发现预定义的所述事件触发词的同义词和所述事件要 素的同义词; 人工进行筛 选得到所述第一 集合和所述第二 集合。 3.如权利要求2所述的基于多语言预训练模型的事件触发词检测与分类方法, 其特征 在于, 所述分别对所述第一锚点句和所述第二锚点句使用 多语言模型进行跨语言向量编 码, 从而分别得到第一 跨语言句向量和第二 跨语言句向量, 包括: 针对所述事件触发词编码时, 先将所述第一锚点句进行分词, 再将分词后的句子输入 多语言模型获得加权后的词向量的组合, 此时将所有的词向量求和再除以句子中单词的个 数获得所述第一 跨语言句向量; 针对所述事件要素编码的时候, 先将整个所述第二锚点句进行分词, 再将句子中的所 述事件要素用[MASK]进行遮掩, 之后输入多语言模型获得加权后词向量的组合, 再求和除 以个数获得 所述第二 跨语言句向量。 4.如权利要求3所述的基于多语言预训练模型的事件触发词检测与分类方法, 其特征 在于, 所述使用语义角色标注工具对待预测句子进行语义标注, 包括: 针对输入的所述待预测句子的不同语种, 进行不同的语义角色标注。 5.如权利要求4所述的基于多语言预训练模型的事件触发词检测与分类方法, 其特征 在于, 将所述跨语言词向量与所述向量池中的所述第一跨语言句向量和所述第二跨语言句 向量进行相似度比对, 相似度最高的即为预测结果, 包括: 获得所述待预测句中的事 件触发词的跨语言词向量和事 件要素的跨语言词向量; 计算所述待预测句的事 件触发词向量或事 件要素词向量的预测分值;权 利 要 求 书 1/2 页 2 CN 114896394 A 2得到的预测分值按相似度分值进行排序, 相似度最高的词即为该事件触发词或事件要 素。权 利 要 求 书 2/2 页 3 CN 114896394 A 3

.PDF文档 专利 基于多语言预训练模型的事件触发词检测与分类方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多语言预训练模型的事件触发词检测与分类方法 第 1 页 专利 基于多语言预训练模型的事件触发词检测与分类方法 第 2 页 专利 基于多语言预训练模型的事件触发词检测与分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:49:14上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。