(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210229733.7 (22)申请日 2022.03.07 (71)申请人 华泰证券股份有限公司 地址 210019 江苏省南京市 建邺区江东中 路228号 申请人 华东师范大学 (72)发明人 纪焘 邱震宇 朱冰 朱德伟  周一航 张森辉 孔维璟 纪文迪  吴苑斌 王晓玲  (74)专利代理 机构 南京纵横知识产权代理有限 公司 32224 专利代理师 董建林 (51)Int.Cl. G06F 40/194(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) (54)发明名称 基于对比学习和数据增强的零样本事件抽 取系统及方法 (57)摘要 本发明公开了自然语言处理技术领域的基 于对比学习和数据增强的零样本事件抽取系统 及方法, 包括: 获取数据集后, 划分为已知事件和 未知事件; 重写未知事件的事件描述文本; 将已 知事件、 未知事件和经过事件描述重写的未知事 件组成正负样本对; 将正负样 本对输入事件编码 器, 生成对应的特征向量; 基于特征向量计算对 比损失函数值后, 通过梯度回传更新事件编码器 中的模型参数; 基于更新后事件编码器输出的特 征向量输入进行分类与聚类。 本发 明通过对比同 类与异类样本的方式, 充分利用已知事件的标注 数据与未知事件的无标注样本, 实现对未知事件 类型的自动发现并归类 。 权利要求书2页 说明书8页 附图1页 CN 114707483 A 2022.07.05 CN 114707483 A 1.基于对比学习和数据增强的零样本事 件抽取方法, 其特 征是, 包括: 获取数据集后, 划分为已知事 件和未知事 件; 重写未知事 件的事件描述文本; 将已知事 件、 未知事 件和经过事件描述重写的未知事 件组成正负 样本对; 将正负样本对输入 事件编码器, 生成对应的特 征向量; 基于特征向量计算对比损失函数值后, 通过梯度回传更新事 件编码器中的模型参数; 基于更新后事 件编码器输出的特 征向量输入进行分类与聚类。 2.根据权利要求1所述的基于对比学习和数据增强的零样本事件抽取方法, 其特征是, 将数据集划分为已知 事件和未知 事件, 包括: 将数据集中所有事件类别按样 本数降序排列, 取降序排列中偶数位的类别为已知类别, 取奇数位类别为未知类别, 其中, 样本数小于指 定 数额的事 件类别被删除。 3.根据权利要求1所述的基于对比学习和数据增强的零样本事件抽取方法, 其特征是, 重写未知 事件的事件描述文本, 包括: 对未知事件描述进行词性标记, 对所有的非名词 与动 词执行随机的近义词替换, 保留事 件触发词不被修改。 4.根据权利要求1所述的基于对比学习和数据增强的零样本事件抽取方法, 其特征是, 将正负样本对输入 事件编码器, 生成对应的特 征向量, 包括: 通过单词编码映射 为低维度的单词编码向量E=[e0, e1, ..., eL]; 将单词编码向量E输入预训练的BERT编码器, 得到包含文本信息的上下文向量C=BERT (E)=[c0, c1, ..., cL], 使用BERT模型中的分类标记CLS对应的输出向量c0作为整个事件描 述文本的输出向量; 对输出向量c0经过一个全连接层和一个激活函数降维, 成为时间编码器的输 出隐向量h =σ(Whc0+bh), 其中wh和bh是全连接层参数, σ 是非线性激活函数sigmo id。 5.根据权利要求1所述的基于对比学习和数据增强的零样本事件抽取方法, 其特征是, 所述对比损失函数为: 其中, N为样本数, y为类别标记, d为x1和x2隐向量h1和h2的欧氏距 离, margin为表示不同 类样本之间被拉开距离的超参数。 6.根据权利要求1所述的基于对比学习和数据增强的零样本事件抽取方法, 其特征是, 基于更新后事件编码器输出 的特征向量输入进行分类与聚类, 包括: 将输出 的特征向量输 入分类器以判别已知 事件的类型, 以及将输出的特征向量输入聚类器完成对未知 事件的聚 类任务。 7.根据权利要求6所述的基于对比学习和数据增强的零样本事件抽取方法, 其特征是, 特征向量输入分类器后通过K近邻算法实现对已知事件的分类, 特征向量输入聚类器后通 过K均值算法对未知事 件完成聚类。 8.基于对比学习和数据增强的零样本事 件抽取系统, 其特 征是, 包括: 划分模块: 用于获取 数据集后, 划分为已知事 件和未知事 件; 重写模块: 用于 重写未知事 件的事件描述文本; 组对模块: 用于将已知事件、 未知事件和经过事件描述重写的未知事件组成正负样本权 利 要 求 书 1/2 页 2 CN 114707483 A 2对; 事件编码模块: 用于将正负 样本对输入 事件编码器, 生成对应的特 征向量; 模型更新模块: 用于基于特征向量计算对比损 失函数值后, 通过梯度回传更新事件编 码器中的模型参数; 分类与聚类模块: 用于基于更新后事 件编码器输出的特 征向量输入进行分类与聚类。 9.基于对比学习和数据增强的零样本事件抽取装置, 其特征是, 包括处理器及存储介 质; 所述存储介质用于存 储指令; 所述处理器用于根据所述指令进行操作以执行根据权利要求1~7任一项所述方法的 步骤。 10.计算机可读存储介质, 其上存储有计算机程序, 其特征是, 该程序被处理器执行时 实现权利要求1~7任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114707483 A 3

.PDF文档 专利 基于对比学习和数据增强的零样本事件抽取系统及方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于对比学习和数据增强的零样本事件抽取系统及方法 第 1 页 专利 基于对比学习和数据增强的零样本事件抽取系统及方法 第 2 页 专利 基于对比学习和数据增强的零样本事件抽取系统及方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:49:18上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。