(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210477175.6 (22)申请日 2022.05.03 (71)申请人 南京大学 地址 210093 江苏省南京市 鼓楼区汉口路 22号 (72)发明人 麦丞程 骆楷文 黄宜华  (74)专利代理 机构 苏州威世朋知识产权代理事 务所(普通 合伙) 32235 专利代理师 沈晓敏 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/211(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) (54)发明名称 一种基于自对比学习的嵌套关系抽取方法 (57)摘要 本发明公开了一种基于自对比学习的嵌套 关系抽取方法, 首先基于预训练语 言模型对输入 句子进行编码。 然后, 利用实体级别的注意力机 制获取每个实体对应序列片段的语义表示。 接 着, 生成各层的嵌套关系候选三元组。 在此基础 上, 引入嵌套关系三元组的类型特征以及三元组 中左右的位置特征与类型特征, 并且使用 Transformer迭代地进行关系三元组表示与分类 后实现嵌套关系抽取。 最后, 结合基于嵌套关系 相似度的自对比学习, 进行联合训练。 本发明增 强模型对输入句子中嵌套关系的整体编码表示 能力, 从而提升模型对嵌套关系抽取的准确性。 权利要求书1页 说明书10页 附图4页 CN 114722156 A 2022.07.08 CN 114722156 A 1.一种基于自对比学习的嵌套关系抽取 方法, 包括以下步骤: (1)使用预训练语言模型对输入句子对应的单词序列进行编码, 得到每个单词的词向 量; 对每个实体对应的单词子序列使用注意力机制, 获取每个实体的表示向量作为实体语 义特征; (2)根据嵌套关系的约束条件, 在每层已有的嵌套关系三元组基础上, 生成下一层的候 选嵌套关系三元组; (3)将候选嵌套关系三元组的多种特征进行拼接, 使用模型Transformer进行特征融合 与分类, 筛 选保留分类正确的候选嵌套关系三元组; (4)使用基于嵌套关系相似度的自对比学习算法, 计算自对比学习任务损失lossscl与 嵌套关系抽取任务损失lossrel, 将所述对比学习任务损失lossscl与嵌套关系抽取任务损失 lossrel加权求和, 得到模 型最终的训练目标Loss, 进 行联合训练优化, 而测试阶段通过嵌套 关系抽取任务从输入句子中抽取 出所有的嵌套关系三元组。 2.根据权利要求1所述的一种基于自对比学习的嵌套关系抽取方法, 其特征在于, 所述 步骤(1)中, 输入句子对应的单词序列中单词的词向量通过预训练语 言模型BERT映射得到, 使用局部注意力机制获取每 个实体的表示向量。 3.根据权利要求1所述的一种基于自对比学习的嵌套关系抽取方法, 其特征在于, 所述 步骤(2)中, 嵌套关系的约束 条件来自于任务预定义的关系类型约束, 并且每层的候选嵌套 关系三元组集 合不包含前一层生成的候选嵌套关系三元组。 4.根据权利要求1所述的一种基于自对比学习的嵌套关系抽取方法, 其特征在于, 所述 步骤(3)中, 候选嵌套关系三元组包括关系类型特征、 元素类型特征、 元素顺序特征与元素 语义特征, 这些特征都是相同长度的向量表 示; Transformer模 型对候选嵌套关系三元 组的 特征序列进行融合后得到特 征向量, 并输出候选嵌套关系三元组是否正确。 5.根据权利要求1所述的一种基于自对比学习的嵌套关系抽取方法, 其特征在于, 所述 步骤(4)中, 自对比学习任务计算两个样本中嵌套关系相似度与语义向量相似度之间的均 方误差损失, 嵌套关系抽取任务计算 候选嵌套关系三元组的分类交叉熵损失。权 利 要 求 书 1/1 页 2 CN 114722156 A 2一种基于自对比学习的嵌套关系抽取方 法 技术领域 [0001]本发明属于人工智能和自然语言处理领域, 涉及 一种基于自对比学习的嵌套关系 抽取方法。 背景技术 [0002]随着互联网技术与应用的高速蓬勃发展, 各领域与行业的文本数据日益激增, 产 生了大量的文本数据资源, 蕴含巨大 的价值信息。 如何从海量的非结构化的文本数据中自 动、 准确、 快速地获取结构化的高价值信息以及这些信息之间的关联关系已经成为了社会 生产的迫切需求。 因此, 关系抽取理论与技 术应运而生, 成为学术界和工业界的研究热点。 [0003]关系抽取是信息抽取研究中的关键技术, 旨在从给定文本描述和其中的命名实体 中, 挖掘出命名实体包含的关系信息, 从而将非结构化的文本转化为结构化的实体 关系。 关 系抽取技术能够挖掘出句 子表达的实体间语义信息, 形成结构化三元组数据信息, 在构建 知识图谱, 知识库问答、 对话 生成与事实抽取等领域有着广泛应用。 [0004]关系抽取技术根据任务复杂性主要分为三种, 由简单到复杂依次分别为: 扁平关 系抽取(Flat  Relation), 重叠关系抽取(Overlapping  Relation)和嵌套关系抽取(Nested   Relation)。 [0005]1)扁平关系抽取: 该研究面向实体之间扁平结构的关系抽取, 并且只需要抽取出 句子中两个指定实体之间的关系。 [0006]2)重叠关系抽取: 该研究面向实体之间扁平结构的关系抽取, 并且在此基础上, 需 要抽取出句 子中多个实体之间所有的关系三元组, 即, 一个实体可能出现在多个不同的关 系三元组中。 [0007]3)嵌套关系抽取: 该研究不仅面向实体之间的关系抽取, 还面向关系三元组与实 体、 关系三元组之间构成的嵌套结构的关系抽取, 需要抽取出句 子中所有的嵌套关系三元 组, 即, 需要抽取实体与实体之间、 实体与关系之间以及关系与关系之间的关系三元组。 [0008]这三种关系抽 取任务中, 相同点是都研究需要抽 取出实体之间的关系; 不同点是 嵌套关系抽取还需要抽取关系三元组与实体、 关系三元组之间的嵌套关系。 [0009]现有关系抽取算法研究工作大多集中在扁平关系抽取与重叠关系抽取, 只关注实 体之间的关系。 但是, 在实际应用场景中, 以嵌套结构形式呈现的关系信息更加常见, 而现 有的面向扁平结构的关系抽取算法不能解决嵌套关系抽取 的问题。 因此, 嵌套关系抽取 的 研究开始受到广泛关注。 [0010]目前, 嵌套关系抽 取的相关研究还较少, 并且嵌套关系抽 取算法的准确性依赖于 大量的、 高质量的、 人工标注的训练数据, 面临对高层嵌套关系识别结果不准确的问题。 因 此, 研究嵌套关系抽取 具有广阔的应用场景与较高的研究价 值。 发明内容 [0011]发明目的: 本发明在现有研究的基础上, 提出一种基于自对比学习的嵌套关系抽说 明 书 1/10 页 3 CN 114722156 A 3

.PDF文档 专利 一种基于自对比学习的嵌套关系抽取方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于自对比学习的嵌套关系抽取方法 第 1 页 专利 一种基于自对比学习的嵌套关系抽取方法 第 2 页 专利 一种基于自对比学习的嵌套关系抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:49上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。