(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210288286.2 (22)申请日 2022.03.23 (71)申请人 华南理工大 学 地址 511458 广东省广州市南沙区环市大 道南路25号 华工大广州产研院 (72)发明人 范垂钦 王家兵  (74)专利代理 机构 广州市华学知识产权代理有 限公司 4 4245 专利代理师 王东东 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/211(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 一种面向句子级别的关系抽取方法、 设备及 存储介质 (57)摘要 本发明公开了一种面向句子级别的关系抽 取方法、 设备及存储介质, 包括获得一个句子, 在 每个实体的两端分别插入特殊标记, 输入预训练 语言模型得到该句子每个词的词向量; 使用随机 初始化的多个关系向量分别对每个词向量计算 相关度, 进一步计算二分类损失; 使用平均池化 计算句子向量、 实体向量, 使用最大池化计算关 系向量, 将这些特殊输入多分类器得到多分类损 失; 将句子中的实体一定概率掩藏得到另外一个 句子, 衡量两个句子输出分布的一致性损失; 对 上述步骤中的所有损失联合训练。 本发明能够有 效抽取文本中的关键信息, 捕捉文本中实体的联 系, 从而达 到良好的关系抽取性能。 权利要求书2页 说明书7页 附图2页 CN 114692637 A 2022.07.01 CN 114692637 A 1.一种面向句子级别的关系抽取 方法, 其特 征在于, 包括如下: 获得一个句子, 所述一个句子包括两个实体, 在每个实体的两端分别插入特殊标记, 输 入预训练语言模型 得到该句子每 个词的词向量; 使用随机初始化得到关系嵌入, 分别与每个词的词向量采用点积注意力 机制得到其相 关程度, 进一步得到句 子的注意力表示集合, 将该集合中的每个向量输入二分类器得到预 测结果, 计算 二分类损失; 基于注意力表示集合利用最大池化计算得到关系向量, 利用平均池化得到句子向量, 两个实体向量, 将上述四个向量进行拼接 输入多分类 器获得多分类损失; 将句子中的两个实体按照预先设定概率进行掩藏, 获得另外一个句子S ’; 对另外一个 句子重复上述步骤获得二元损失和多元损失, 进一步获得两个句子预测结果的一致性损 失; 对二元损失、 多元损失、 一致性损失进行联合训练, 当损失最小值时获得关系抽取模 型, 实现关系抽取。 2.根据权利要求1所述的关系抽取方法, 其特征在于, 所述获得一个句子, 所述一个句 子包括两个实体, 在每 个实体的两端分别插 入特殊标记, 具体为: 获得一个句子S, 在句子开头插入特殊标记 “[CLS]”,在第一个实体两端插入特殊标记 “#”, 在第二个实体两端插 入特殊标记 “$”。 3.根据权利要求1所述的关系抽取方法, 其特征在于, 使用随机初始化得到关系嵌入, 分别与每个词的词向量采用点积注意力机制得到其相关程度, 进一步得到句子的注意力表 示集合,具体为: 随机初始化获得关系嵌入, 每一个关系嵌入分别与每个词向量使用点积注意力 机制得 到相关程度; 公式中ei代表第i种关系的嵌入, hj代表第j个词的词向量, 使用得到的相关程度 对词向 量进行逐元素相乘, 并将乘积相加得到句子的注意力表示 集合V={v1,v2,…,vm}; 4.根据权利要求1所述的关系抽取方法, 其特征在于, 将注意力表示集合中的每个向量 输入二分类 器得到预测结果, 计算 二分类损失, 具体为: 将注意力表示集合中每个向量分别输入二分类器中, 得到该关系存在的概率, 随后根 据真实标签使用交叉熵损失函数 得到二元损失Lbin; 其中真实标签根据如下规则生成: 对于预定义关系集中的每个关系r, 若存在该关系则 标签为1, 否则标签为0 。 5.根据权利要求1所述的关系抽取方法, 其特征在于, 所述基于注意力表示集合利用最 大池化计算得到关系向量, 利用平均池化得到句子向量, 两个实体向量具体为: 句子向量按照如下公式获得: hcls=W0[tanh(h0)]+b0权 利 要 求 书 1/2 页 2 CN 114692637 A 2两个实体向量按照如下公式获得: 关系向量按照如下公式获得: hv=W2[tanh(MaxPo oling(V))]+b2 其中i,j分别是第一个实体的开始下标和结束下标, k,l分别是第二个实体的开始下标 和结束下 标。 6.根据权利要求1所述的关系抽取 方法, 其特 征在于, 所述设定概 率小于0.5。 7.根据权利要求1所述的关系抽取方法, 其特征在于, 获得两个句子预测结果的一致性 损失, 其中一 致性损失为: 和 分别代表句子S和S ’的多分类预测结果。 8.根据权利要求1所述的关系抽取方法, 其特征在于, 对二元损失、 多元损失、 一致性损 失联合训练得到最优 模型: L=0.5*(Lmul+L′mul+Lnin+L′bin)+Lkl; Lmul, Lbin, L′mul, L′bin分别代表句子S的多元损失、 句子S的二元损失、 句子S ’的多元损 失、 句子S ’的二元损失。 9.一种存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处理器执行 时实现权利要求1 ‑8任一项所述的关系抽取 方法。 10.一种设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运行的 计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1‑8任一项所述的关 系抽取方法。权 利 要 求 书 2/2 页 3 CN 114692637 A 3

.PDF文档 专利 一种面向句子级别的关系抽取方法、设备及存储介质

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向句子级别的关系抽取方法、设备及存储介质 第 1 页 专利 一种面向句子级别的关系抽取方法、设备及存储介质 第 2 页 专利 一种面向句子级别的关系抽取方法、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:47:44上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。