国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210404007.4 (22)申请日 2022.04.18 (71)申请人 桂林电子科技大 学 地址 541004 广西壮 族自治区桂林市七 星 区金鸡路1号 (72)发明人 黄永忠 张晨昊 秦韬 (74)专利代理 机构 桂林文必达专利代理事务所 (特殊普通 合伙) 45134 专利代理师 白洪 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 40/49(2020.01) G06K 9/62(2022.01)G06F 16/33(2019.01) (54)发明名称 基于多语言预训练模型的事件触发词检测 与分类方法 (57)摘要 本发明涉及自然语 言处理技术领域, 具体涉 及一种基于多语言预训练模型的事件触发词检 测与分类方法, 首先构建事件触发词与事件要素 的向量池, 再使用现有的工具对事件进行语义角 色标注, 最后再以相似度计算方法将它们映射到 给定的事件类型进行分类。 本发 明有效地减弱了 人工进行事件 标注的工作量, 并且 方便拓展到其 他事件类型; 使用多语言的预训练模型进行编 码, 让多种语 言可以在一个向量池 上进行相似性 挖掘与预测, 减少了一种语言训练一个模型的工 作量; 使用多语言的预训练模型, 准备阶段中使 用中英等外部新闻语料库丰富的数据量, 避免了 稀缺语言资源使用该方法却没有丰富新闻语料 库扩充向量池的问题。 权利要求书2页 说明书4页 附图2页 CN 114896394 A 2022.08.12 CN 114896394 A 1.一种基于多语言预训练模型的事件触发词检测与分类方法, 其特征在于, 包括如下 步骤: 使用词向量模型分别获得事件触发词的近义词和事件要素的近义词, 从而分别得到第 一集合和第二 集合; 定义所述第一 集合为第一锚点词, 定义所述第二 集合为第二锚点词; 对外部的新闻语料分别以所述第 一锚点词和所述第 二锚点词为中心进行挖掘, 分别获 得包含锚点词的第一句子集 合和第二句子集 合; 定义所述第一句子集 合为第一锚点句, 定义所述第二句子集 合为第二锚点句; 分别对所述第 一锚点句和所述第 二锚点句进行跨语言 向量编码, 从而分别得到第 一跨 语言句向量和第二 跨语言句向量; 将所述第一 跨语言句向量和所述第二 跨语言句向量存 入向量池; 使用语义角色标注工具对待预测句子进行语义标注; 对所述待预测句中进行语义标注得到的词汇使用多语言预训练模型进行编码得到跨 语言词向量; 将所述跨语言词向量与所述向量池中的所述第一跨语言句向量和所述第二跨语言句 向量进行相似度比对, 相似度最高的即为预测结果。 2.如权利要求1所述的基于多语言预训练模型的事件触发词检测与分类方法, 其特征 在于, 所述使用词向量模型分别获得事件触发词的近义词和事件要素 的近义词, 从而分别 得到第一 集合和第二 集合, 包括: 使用Word2Vec词向量模型寻找发现预定义的所述事件触发词的同义词和所述事件要 素的同义词; 人工进行筛 选得到所述第一 集合和所述第二 集合。 3.如权利要求2所述的基于多语言预训练模型的事件触发词检测与分类方法, 其特征 在于, 所述分别对所述第一锚点句和所述第二锚点句使用 多语言模型进行跨语言向量编 码, 从而分别得到第一 跨语言句向量和第二 跨语言句向量, 包括: 针对所述事件触发词编码时, 先将所述第一锚点句进行分词, 再将分词后的句子输入 多语言模型获得加权后的词向量的组合, 此时将所有的词向量求和再除以句子中单词的个 数获得所述第一 跨语言句向量; 针对所述事件要素编码的时候, 先将整个所述第二锚点句进行分词, 再将句子中的所 述事件要素用[MASK]进行遮掩, 之后输入多语言模型获得加权后词向量的组合, 再求和除 以个数获得 所述第二 跨语言句向量。 4.如权利要求3所述的基于多语言预训练模型的事件触发词检测与分类方法, 其特征 在于, 所述使用语义角色标注工具对待预测句子进行语义标注, 包括: 针对输入的所述待预测句子的不同语种, 进行不同的语义角色标注。 5.如权利要求4所述的基于多语言预训练模型的事件触发词检测与分类方法, 其特征 在于, 将所述跨语言词向量与所述向量池中的所述第一跨语言句向量和所述第二跨语言句 向量进行相似度比对, 相似度最高的即为预测结果, 包括: 获得所述待预测句中的事 件触发词的跨语言词向量和事 件要素的跨语言词向量; 计算所述待预测句的事 件触发词向量或事 件要素词向量的预测分值;权 利 要 求 书 1/2 页 2 CN 114896394 A 2得到的预测分值按相似度分值进行排序, 相似度最高的词即为该事件触发词或事件要 素。权 利 要 求 书 2/2 页 3 CN 114896394 A 3
专利 基于多语言预训练模型的事件触发词检测与分类方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:49:14
上传分享
举报
下载
原文档
(596.2 KB)
分享
友情链接
斯元商业咨询 网络安全科技供应链报告:厂商成分分析及国产化替代指南 2022.pdf
GB-T 15166.6-2023 高压交流熔断器 第6部分:用于变压器回路的高压熔断器的熔断件选用导则.pdf
一种基于电源管理的芯片测试系统及方法.pdf
GB-T 38561-2020 信息安全技术 网络安全管理支撑系统技术要求.pdf
GB-T 39559.3-2020 城市轨道交通设施运营监测技术规范 第3部分:隧道.pdf
GB-T 26694-2011 家具绿色设计评价规范.pdf
GB-T 31460-2015 高压直流换流站无功补偿与配置技术导则.pdf
GB-T 22374-2018 地坪涂装材料.pdf
GB-T 38309-2019 火灾烟气流毒性组分测试 FTIR分析火灾烟气中气体组分的指南.pdf
GB-T 24405.2-2010 - ISO IEC 20000-2-2005 信息技术 服务管理 第2部分:实践规则.pdf
T-CASMES 176—2023 智慧城市管家运营服务规范.pdf
YD-T 3835.1-2021 量子密钥分发(QKD)系统测试方法 第1部分:基于诱骗态BB84协议的QKD系统.pdf
GB-T 3979-2008 物体色的测量方法.pdf
GB-T 30976.2-2014 工业控制系统信息安全 第2部分:验收规范.pdf
GBJ 93-86 工业自动化仪表施工验收.pdf
GB-T 15851.3-2018 信息技术 安全技术 带消息恢复的数字签名方案 第3部分:基于离散对数的机制.pdf
GB-T 24582-2023 多晶硅表面金属杂质含量测定 酸浸取-电感耦合等离子体质谱法.pdf
云原生安全白皮书中文版第二版.pdf
T-CSAE 72—2018 汽车涂层耐紫外线穿透性能测试及评价方法.pdf
等保2.0 _ 公安部《网络安全等级保护测评实施》PPT分享.pdf
1
/
3
9
评价文档
赞助2.5元 点击下载(596.2 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。