(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210288286.2
(22)申请日 2022.03.23
(71)申请人 华南理工大 学
地址 511458 广东省广州市南沙区环市大
道南路25号 华工大广州产研院
(72)发明人 范垂钦 王家兵
(74)专利代理 机构 广州市华学知识产权代理有
限公司 4 4245
专利代理师 王东东
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/211(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
(54)发明名称
一种面向句子级别的关系抽取方法、 设备及
存储介质
(57)摘要
本发明公开了一种面向句子级别的关系抽
取方法、 设备及存储介质, 包括获得一个句子, 在
每个实体的两端分别插入特殊标记, 输入预训练
语言模型得到该句子每个词的词向量; 使用随机
初始化的多个关系向量分别对每个词向量计算
相关度, 进一步计算二分类损失; 使用平均池化
计算句子向量、 实体向量, 使用最大池化计算关
系向量, 将这些特殊输入多分类器得到多分类损
失; 将句子中的实体一定概率掩藏得到另外一个
句子, 衡量两个句子输出分布的一致性损失; 对
上述步骤中的所有损失联合训练。 本发明能够有
效抽取文本中的关键信息, 捕捉文本中实体的联
系, 从而达 到良好的关系抽取性能。
权利要求书2页 说明书7页 附图2页
CN 114692637 A
2022.07.01
CN 114692637 A
1.一种面向句子级别的关系抽取 方法, 其特 征在于, 包括如下:
获得一个句子, 所述一个句子包括两个实体, 在每个实体的两端分别插入特殊标记, 输
入预训练语言模型 得到该句子每 个词的词向量;
使用随机初始化得到关系嵌入, 分别与每个词的词向量采用点积注意力 机制得到其相
关程度, 进一步得到句 子的注意力表示集合, 将该集合中的每个向量输入二分类器得到预
测结果, 计算 二分类损失;
基于注意力表示集合利用最大池化计算得到关系向量, 利用平均池化得到句子向量,
两个实体向量, 将上述四个向量进行拼接 输入多分类 器获得多分类损失;
将句子中的两个实体按照预先设定概率进行掩藏, 获得另外一个句子S ’; 对另外一个
句子重复上述步骤获得二元损失和多元损失, 进一步获得两个句子预测结果的一致性损
失;
对二元损失、 多元损失、 一致性损失进行联合训练, 当损失最小值时获得关系抽取模
型, 实现关系抽取。
2.根据权利要求1所述的关系抽取方法, 其特征在于, 所述获得一个句子, 所述一个句
子包括两个实体, 在每 个实体的两端分别插 入特殊标记, 具体为:
获得一个句子S, 在句子开头插入特殊标记 “[CLS]”,在第一个实体两端插入特殊标记
“#”, 在第二个实体两端插 入特殊标记 “$”。
3.根据权利要求1所述的关系抽取方法, 其特征在于, 使用随机初始化得到关系嵌入,
分别与每个词的词向量采用点积注意力机制得到其相关程度, 进一步得到句子的注意力表
示集合,具体为:
随机初始化获得关系嵌入, 每一个关系嵌入分别与每个词向量使用点积注意力 机制得
到相关程度;
公式中ei代表第i种关系的嵌入, hj代表第j个词的词向量, 使用得到的相关程度 对词向
量进行逐元素相乘, 并将乘积相加得到句子的注意力表示 集合V={v1,v2,…,vm};
4.根据权利要求1所述的关系抽取方法, 其特征在于, 将注意力表示集合中的每个向量
输入二分类 器得到预测结果, 计算 二分类损失, 具体为:
将注意力表示集合中每个向量分别输入二分类器中, 得到该关系存在的概率, 随后根
据真实标签使用交叉熵损失函数 得到二元损失Lbin;
其中真实标签根据如下规则生成: 对于预定义关系集中的每个关系r, 若存在该关系则
标签为1, 否则标签为0 。
5.根据权利要求1所述的关系抽取方法, 其特征在于, 所述基于注意力表示集合利用最
大池化计算得到关系向量, 利用平均池化得到句子向量, 两个实体向量具体为:
句子向量按照如下公式获得:
hcls=W0[tanh(h0)]+b0权 利 要 求 书 1/2 页
2
CN 114692637 A
2两个实体向量按照如下公式获得:
关系向量按照如下公式获得:
hv=W2[tanh(MaxPo oling(V))]+b2
其中i,j分别是第一个实体的开始下标和结束下标, k,l分别是第二个实体的开始下标
和结束下 标。
6.根据权利要求1所述的关系抽取 方法, 其特 征在于, 所述设定概 率小于0.5。
7.根据权利要求1所述的关系抽取方法, 其特征在于, 获得两个句子预测结果的一致性
损失, 其中一 致性损失为:
和
分别代表句子S和S ’的多分类预测结果。
8.根据权利要求1所述的关系抽取方法, 其特征在于, 对二元损失、 多元损失、 一致性损
失联合训练得到最优 模型:
L=0.5*(Lmul+L′mul+Lnin+L′bin)+Lkl;
Lmul, Lbin, L′mul, L′bin分别代表句子S的多元损失、 句子S的二元损失、 句子S ’的多元损
失、 句子S ’的二元损失。
9.一种存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处理器执行
时实现权利要求1 ‑8任一项所述的关系抽取 方法。
10.一种设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运行的
计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1‑8任一项所述的关
系抽取方法。权 利 要 求 书 2/2 页
3
CN 114692637 A
3
专利 一种面向句子级别的关系抽取方法、设备及存储介质
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:47:44上传分享