国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210473365.0 (22)申请日 2022.04.29 (71)申请人 桂林电子科技大 学 地址 541004 广西壮 族自治区桂林市七 星 区金鸡路1号 申请人 中国电子科技 集团公司第五十四研 究所 (72)发明人 强保华 周翔宇 王玉峰 王岳萌 韩博 陈鹏 (74)专利代理 机构 桂林文必达专利代理事务所 (特殊普通 合伙) 45134 专利代理师 白洪 (51)Int.Cl. G06F 40/126(2020.01) G06F 40/289(2020.01)G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) (54)发明名称 基于旋转式编码的事件联合抽取方法及存 储介质 (57)摘要 本发明公开了一种基于旋转式编码的事件 联合抽取方法, 所述方法使用了融合旋转式编码 的BERT模型解决文本过长无法全部放入预训练 模型提取特征的手段; 以及 使用了加入自注意力 机制的BiLSTM捕获相关的时序特征和上下文关 系, 从多角度获得文本中字 符间关联权重表示来 更准确地关注句子中的重要字 符或单词, 丰富文 本的语义信息的手段; 还有在模 型训练过程中通 过对抗训练加入扰动提升文本语义多样性, 提高 模型的鲁棒性和泛化能力的手段; 通过上述三个 方面提高了事 件抽取的准确率和召回率。 权利要求书1页 说明书3页 附图1页 CN 114861601 A 2022.08.05 CN 114861601 A 1.一种基于 旋转式编码的事 件联合抽取 方法, 其特 征在于, 包括以下步骤: (1)BERT预训练模型中的位置编码为绝对位置编码, 使用旋转式编码替换绝对位置编 码, 使其能够处 理超过512字节的文本; (2)对文本预处理后生成的字符集合, 使用融合旋转式编码的BERT预训练模型进行向 量化; 通过BERT 预训练模 型中内置词汇表建立分词器, 将待处理文本以字 符为单位, 根据固 定的文本最大长度对所述文本进行截断或者补0, 得到字符向量序列; 给定输入句子序列, 将句子进行字符向量映射, 得到 字符向量序列; (3)对于文本预处理后生成的词汇集合, 使用Word2Vec的skip ‑gram模型进行词嵌入, 生成词向量序列, 将字符向量序列和词向量序列两个序列叠加, 得到一个字词综合向量序 列; (4)将字符向量序列作为输入序列输入到加入自注意力 机制的双向长短期记忆神经网 络BiLSTM中, 提取文本上下文 特征信息, 生成字符隐状态向量; 将 字词综合向量序列作为输 入序列输入到加入自注意力机制的双向长 短期记忆神经网络BiLSTM中, 提取文本上下文 特 征信息, 学习词语和词语对应字符 之间的语义关系, 生成字词综合隐状态向量; (5)将所述字符隐状态向量和字词综合隐状态向量融合成一个全局特征隐状态向量; 向全局特征隐状态向量中加入一定量的负样本, 使得模型在预测的时候受到干扰, 将全局 特征隐状态向量输入到基于梯度上升的对抗神经网络层进 行扰动, 得到扰动后字词特征隐 状态向量; (6)把所述扰动后 字词特征隐状态向量输入至条件随机场CRF进行解码并预测标签, 正 则化计算给定句子序列标记为标签序列的得分, 并使用维特比算法计算出最高得分的事件 标签序列。 2.根据权利要求1所述的方法, 其特征在于, 所述文本预处理方法为: 对文本采取BIO的 标注方式, 把事件类型和事件元素当作一个联合标签进行标注, 通过从左往右和从右往左 两种序列标注方法进行标注, 取两种 标注结果的并集作为最终的标注结果; 将标注结果以 字符为单位, 分割为字符集合; 用jieba开源中文分词工具对待处理的文本进行分词, 生成 词汇集合。 3.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机 程序被处理器执行时实现权利要求1或2所述的基于旋转式编码的事件联合抽取方法的步 骤。权 利 要 求 书 1/1 页 2 CN 114861601 A 2基于旋转式编码的事件联合抽取方 法及存储介质 技术领域 [0001]本发明涉及计算机技术, 具体涉及一种基于旋转式编码的事件联合抽取方法及存 储介质。 背景技术 [0002]信息抽取是利用计算机从文本、 音频、 视频、 图像等数据中自动抽取结构化信息的 过程, 信息抽取 的任务包括实体识别与抽取、 实体消解、 关系抽取和事件抽取等, 事件抽取 任务研究从非结构化的自然语言文本中自动抽取用户感兴趣的事件信息并以结构化的形 式表示。 事件抽取包括识别事件类型和识别事件元素两部分, 通常在一个文本中会有多个 事件元素和多个事件类型, 一个事件元素有可能属于多个事件类型, 一个事件类型可能拥 有多个事件元素, 即多对多的形态, 并且这些元素可能会分布在多个句子中, 这些特性是导 致事件抽取困难的重要原因。 如何更充分有效地利用文本特征去提高事件抽取模型的鲁棒 性和泛化能力, 是事 件抽取领域研究的重点和难点。 发明内容 [0003]本发明提供了一种基于旋转式编码的事件联合抽取方法, 所述方法使用了融合旋 转式编码的BERT模型解决文本过长无法全部放入预训练模 型提取特征的手段; 以及使用了 加入自注 意力机制的BiLSTM捕获相关的时序特征和上下文关系, 从多角度获得文本中字 符 间关联权重表示来更准确 地关注句 子中的重要字符或单词, 丰富文本的语义信息的手段; 还有在模型训练过程中通过对抗训练加入扰动提升文本语义多样性, 提高模型的鲁棒性和 泛化能力的手段; 通过 上述三个方面 提高了事 件抽取的准确率和召回率。 [0004]本发明提供的事 件联合抽取 方法, 包括以下步骤: [0005](1)BERT预训练模型中的位置编码为绝对位置编码, 使用旋转式编码替换绝对位 置编码, 使其能够处 理超过512字节的文本 。 [0006](2)对文本预处理后生成的字符集合, 使用融合旋转式编码的BERT预训练模型进 行向量化; 通过BERT 预训练模 型中内置词汇表建立分词器, 将待处理文本以字 符为单位, 根 据固定的文本最大长度对所述文本进 行截断或者补0, 得到字符向量序列; 给定输入句子序 列, 将句子进行字符向量映射, 得到 字符向量序列。 [0007](3)对于文本预处理后生成的词汇集合, 使用Word2Vec的skip ‑gram模型进行词嵌 入, 生成词向量序列, 将字符向量序列和词向量序列两个序列叠加, 得到一个字词综合向量 序列。 [0008](4)将字符向量序列作为输入序列输入到加入自注意力机制的双向长短期记忆神 经网络BiLSTM中, 提取文本上下文特征信息, 生 成字符隐状态向量; 将 字词综合向量序列作 为输入序列输入到加入自注意力机制的双向长 短期记忆神经网络BiLSTM中, 提取文本上下 文特征信息, 学习词语和词语对应字符 之间的语义关系, 生成字词综合隐状态向量。 [0009](5)将所述字符隐状态向量和字词综合隐状态向量融合成一个全局特征隐状态向说 明 书 1/3 页 3 CN 114861601 A 3
专利 基于旋转式编码的事件联合抽取方法及存储介质
文档预览
中文文档
6 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共6页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:49:29
上传分享
举报
下载
原文档
(352.0 KB)
分享
友情链接
GB-T 17799.2-2023 电磁兼容 通用标准 第2部分:工业环境中的抗扰度标准.pdf
国家健康医疗大数据标准、安全和服务管理办法.pdf
T-ACEF 030—2022 城镇排水系统 厂、站、网一体化 运行监测与智能化管理技术规程.pdf
GB-T 32831-2016 高能激光光束质量评价与测试方法.pdf
CISP 注册信息安全专业人员培训教材 2019.pdf
GB-T 34690.8-2017 印刷技术 胶印数字化过程控制 第8部分:胶印设备.pdf
GB-T 10233-2016 低压成套开关设备和电控设备基本试验方法.pdf
GB-T 18135-2008 电气工程CAD制图规则.pdf
QC-T 556-2023 汽车制动器温度测量方法及热电偶安装要求.pdf
GB-T 33850-2017信息技术服务质量评价指标体系.pdf
GA 1551.5-2019 石油石化系统治安反恐防范要求 第5部分:运输企业.pdf
中国移动 量子“Q波”技术白皮书 2022 .pdf
中金互联网 腾讯大模型及智能应用技术发布会纪要20230619.pdf
GB-T 36651-2018 信息安全技术 基于可信环境的生物特征识别身份鉴别协议框架.pdf
SL 47-2020 水工建筑物岩石地基开挖施工技术规范.pdf
DB65-T3834-2023 废旧地膜分类分级规范 新疆维吾尔自治区.pdf
GB-T 10000-2023 中国成年人人体尺寸.pdf
GB-T 16920-2015 玻璃 平均线热膨胀系数的测定.pdf
T-JSSLKX 002—2023 小型农田水利工程规划设计导则.pdf
DB5223-T 28-2021 新市民残疾人大学生教育资助基本公共服务规范 黔西南布依族苗族自治州.pdf
1
/
3
6
评价文档
赞助2.5元 点击下载(352.0 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。