国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210229733.7 (22)申请日 2022.03.07 (71)申请人 华泰证券股份有限公司 地址 210019 江苏省南京市 建邺区江东中 路228号 申请人 华东师范大学 (72)发明人 纪焘 邱震宇 朱冰 朱德伟 周一航 张森辉 孔维璟 纪文迪 吴苑斌 王晓玲 (74)专利代理 机构 南京纵横知识产权代理有限 公司 32224 专利代理师 董建林 (51)Int.Cl. G06F 40/194(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) (54)发明名称 基于对比学习和数据增强的零样本事件抽 取系统及方法 (57)摘要 本发明公开了自然语言处理技术领域的基 于对比学习和数据增强的零样本事件抽取系统 及方法, 包括: 获取数据集后, 划分为已知事件和 未知事件; 重写未知事件的事件描述文本; 将已 知事件、 未知事件和经过事件描述重写的未知事 件组成正负样本对; 将正负样 本对输入事件编码 器, 生成对应的特征向量; 基于特征向量计算对 比损失函数值后, 通过梯度回传更新事件编码器 中的模型参数; 基于更新后事件编码器输出的特 征向量输入进行分类与聚类。 本发 明通过对比同 类与异类样本的方式, 充分利用已知事件的标注 数据与未知事件的无标注样本, 实现对未知事件 类型的自动发现并归类 。 权利要求书2页 说明书8页 附图1页 CN 114707483 A 2022.07.05 CN 114707483 A 1.基于对比学习和数据增强的零样本事 件抽取方法, 其特 征是, 包括: 获取数据集后, 划分为已知事 件和未知事 件; 重写未知事 件的事件描述文本; 将已知事 件、 未知事 件和经过事件描述重写的未知事 件组成正负 样本对; 将正负样本对输入 事件编码器, 生成对应的特 征向量; 基于特征向量计算对比损失函数值后, 通过梯度回传更新事 件编码器中的模型参数; 基于更新后事 件编码器输出的特 征向量输入进行分类与聚类。 2.根据权利要求1所述的基于对比学习和数据增强的零样本事件抽取方法, 其特征是, 将数据集划分为已知 事件和未知 事件, 包括: 将数据集中所有事件类别按样 本数降序排列, 取降序排列中偶数位的类别为已知类别, 取奇数位类别为未知类别, 其中, 样本数小于指 定 数额的事 件类别被删除。 3.根据权利要求1所述的基于对比学习和数据增强的零样本事件抽取方法, 其特征是, 重写未知 事件的事件描述文本, 包括: 对未知事件描述进行词性标记, 对所有的非名词 与动 词执行随机的近义词替换, 保留事 件触发词不被修改。 4.根据权利要求1所述的基于对比学习和数据增强的零样本事件抽取方法, 其特征是, 将正负样本对输入 事件编码器, 生成对应的特 征向量, 包括: 通过单词编码映射 为低维度的单词编码向量E=[e0, e1, ..., eL]; 将单词编码向量E输入预训练的BERT编码器, 得到包含文本信息的上下文向量C=BERT (E)=[c0, c1, ..., cL], 使用BERT模型中的分类标记CLS对应的输出向量c0作为整个事件描 述文本的输出向量; 对输出向量c0经过一个全连接层和一个激活函数降维, 成为时间编码器的输 出隐向量h =σ(Whc0+bh), 其中wh和bh是全连接层参数, σ 是非线性激活函数sigmo id。 5.根据权利要求1所述的基于对比学习和数据增强的零样本事件抽取方法, 其特征是, 所述对比损失函数为: 其中, N为样本数, y为类别标记, d为x1和x2隐向量h1和h2的欧氏距 离, margin为表示不同 类样本之间被拉开距离的超参数。 6.根据权利要求1所述的基于对比学习和数据增强的零样本事件抽取方法, 其特征是, 基于更新后事件编码器输出 的特征向量输入进行分类与聚类, 包括: 将输出 的特征向量输 入分类器以判别已知 事件的类型, 以及将输出的特征向量输入聚类器完成对未知 事件的聚 类任务。 7.根据权利要求6所述的基于对比学习和数据增强的零样本事件抽取方法, 其特征是, 特征向量输入分类器后通过K近邻算法实现对已知事件的分类, 特征向量输入聚类器后通 过K均值算法对未知事 件完成聚类。 8.基于对比学习和数据增强的零样本事 件抽取系统, 其特 征是, 包括: 划分模块: 用于获取 数据集后, 划分为已知事 件和未知事 件; 重写模块: 用于 重写未知事 件的事件描述文本; 组对模块: 用于将已知事件、 未知事件和经过事件描述重写的未知事件组成正负样本权 利 要 求 书 1/2 页 2 CN 114707483 A 2对; 事件编码模块: 用于将正负 样本对输入 事件编码器, 生成对应的特 征向量; 模型更新模块: 用于基于特征向量计算对比损 失函数值后, 通过梯度回传更新事件编 码器中的模型参数; 分类与聚类模块: 用于基于更新后事 件编码器输出的特 征向量输入进行分类与聚类。 9.基于对比学习和数据增强的零样本事件抽取装置, 其特征是, 包括处理器及存储介 质; 所述存储介质用于存 储指令; 所述处理器用于根据所述指令进行操作以执行根据权利要求1~7任一项所述方法的 步骤。 10.计算机可读存储介质, 其上存储有计算机程序, 其特征是, 该程序被处理器执行时 实现权利要求1~7任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114707483 A 3
专利 基于对比学习和数据增强的零样本事件抽取系统及方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:49:18
上传分享
举报
下载
原文档
(734.9 KB)
分享
友情链接
T-CNPHARS 0001—2023 个体化用药遗传咨询指南.pdf
GB-T 7920.11-2006 道路施工与养护设备 沥青混合料搅拌设备 术语和商业规格.pdf
GA 1551.5-2019 石油石化系统治安反恐防范要求 第5部分:运输企业.pdf
GB-T 38634.1-2020 系统与软件工程 软件测试 第1部分:概念和定义.pdf
T-CEC 672—2022 变压器油中溶解气体在线监测装置现场校验器技术条件.pdf
OWASP go语言 安全编码实践指南 中文版.pdf
GB-Z 41358-2022 土壤健康综合表征的生物测试方法.pdf
MH-T 6012-2015 航空障碍灯.pdf
GB-T 41767-2022 聚合物基复合材料吸湿性能及平衡状态调节试验方法.pdf
GB-T 35291-2017 信息安全技术 智能密码钥匙应用接口规范.pdf
JR-T0138-2016 银团贷款业务技术指南.pdf
GB-T 8630-2013 纺织品 洗涤和干燥后尺寸变化的测定.pdf
DB11T 1998-2022 既有公共建筑节能绿色化改造技术规程.pdf
GB-T 38668-2020 智能制造 射频识别系统 通用技术要求.pdf
GB-T 33817-2017 铜及铜合金管材内表面碳含量的测定方法.pdf
清华大学 - SuperBench大模型综合能力评测报告 0412 v2.2.pdf
DB32-T 4264-2022 金属冶炼企业中频炉使用安全技术规范 江苏省.pdf
GB-T 24507-2020 浸渍纸层压实木复合地板.pdf
GB-T 33592-2017 分布式电源并网运行控制规范.pdf
T-GDWJ 013—2022 广东省健康医疗数据安全分类分级管理技术规范.pdf
1
/
3
12
评价文档
赞助2.5元 点击下载(734.9 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。