(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210400706.1
(22)申请日 2022.04.17
(71)申请人 西北工业大 学
地址 710072 陕西省西安市友谊西路127号
(72)发明人 王柱 康天雨 刘囡囡 郭斌
於志文
(74)专利代理 机构 西安凯多 思知识产权代理事
务所(普通 合伙) 61290
专利代理师 赵革革
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/242(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
(54)发明名称
一种融合常识知识的中文特定领域实体链
接方法
(57)摘要
本发明公开了一种融合常识知识的中文特
定领域实体链接方法, 该方法先进行常识知 识的
获取和预处理, 再基于指定领域进行百科语料知
识库的构建与补全, 然后基于BERT ‑BiGRU‑CRF模
型和双向匹配策略进行命名实体识别, 最终基于
知识表示学习实现实体链接过程。 本发明能够有
效的解决上述实体边界识别错误和实体识别补
全的问题, 极大的提高了命名实体识别任务和实
体链接任务的准确性。
权利要求书3页 说明书6页 附图3页
CN 114943230 A
2022.08.26
CN 114943230 A
1.一种融合常识知识的中文特定领域实体链接方法, 其特 征在于, 包括如下步骤:
步骤1: 构建指定领域常识知识语料库: 爬取包括心理学、 社会学在内的指定领域文献,
提取文献中的摘要部 分和总结部 分的文本, 并对提取的文本进 行句子切分、 去除标点、 去掉
停用词, 以处理后的每个文本字段text、 文本中的提及实体mention_data和提及 实体对应
在百科知识库中的编号kb_id作为训练样 本, 得到指定领域常识知识语料库; 所述的文本中
的提及实体menti on_data包括识别后待链接的实体menti on;
步骤2: 构建与补全百科知识库: 首先, 根据百度百科中社交网络用户行为相关的百科
知识, 将百科词条以三元组<h, r, t>的结构构建百科知识图谱, h为实体Entity, r为谓词
Predicate, t为对象Object; 然后, 对百 科知识图谱进行修 正与补全, 具体包括:
(1)对由大写英文字母构成的特殊专有实体名称进行小 写转换;
(2)将包括单引号、 逗号、 句号在内的特殊符号转换为英文字符, 并将转换后的名称加
入到该实体所对应的别名中;
(3)爬取包括心理学、 社会学在内的指定领域专有名词词条, 进行数据格式的转换, 转
换成三元组< h, r, t>的结构, 并添加到已构建好的百 科知识图谱中;
步骤3: 实体描述文本重建: 将百科知识库中的所有谓词和对象相连得到实体描述文
本, 如果实体描述文本的长度大于d, 对描述文本以d为单位进 行截断处理, d为预设的长度;
构建五个字典, 包括:
(1)以百科知识库中的实体名称作为主键, 构建得到实体索引字典entity_id;
(2)以百科知识库中的实体在百科知识库中的索引作为主键, 构建得到索引实体字典
id_entity;
(3)以百科知识库中的实体描述文本的索引作为主键, 构建得到实体描述文本字典id_
text;
(4)以百科知识库中的实体在百科知识库中的索引作为主键, 构建得到实体类别字典
id_type;
(5)以百科知识库中的实体 类别的索引作为主键, 构建得到类别字典type_i ndex;
步骤4: 构建中文命名实体识别BERT ‑BiGRUs‑CRF模型: 包括输入层、 深度双向预训练语
言模型BERT层、 双向门控循环神经网络BiGRUs层和条件随机场CRF层;
步骤4‑1: 所述深度双向预训练语言模型BERT层的结构由嵌入层、 编码器、 池化层三部
分构成; 输入来自常识知识语料库的文本, 通过BERT层后, 生成基于上 下文信息的词向量;
步骤4‑2: 所述双向门控循环神经网络BiGRUs层包括方向相反的2个门控环单元GRU网
络和1个全局池化层, 将BERT层输出的词向量分别输入到正向GRU网络和反向GRU网络中, 分
别获得实体mention对应的前后语义信息向量
和
将这两个向量做拼接得到
Hcon; 之后到池化层做最大池化操作, 得到文本中字词的全局语义信息Hmax后输入到条件随
机场CRF层 中等待输出序列标注结果; 其中, BiGRUs层在t时刻的隐层状态ht按下式计算得
到:
其中,
表示t时刻正向GRU网络的隐层状态,
表示t时刻反向GRU网络的隐层状态, wt权 利 要 求 书 1/3 页
2
CN 114943230 A
2表示t时刻正向G RU网络的隐层状态的权重, vt表示t时刻反向G RU网络的隐层状态的权重, bt
表示t时刻隐层状态所对应的偏置;
和
分别按以下公式计算得到:
其中, GRU表示对输入的词向量的非线性变换, 把词向量编码成对应的GRU隐层状态; xt
表示当前输入的词向量,
表示t‑1时刻正向G RU网络的隐层状态,
表示t‑1时刻反向
GRU网络的隐层状态;
步骤4‑3: 条件随机场CRF层利用文本中每个词的邻近标签关系进行最优序列预测, 其
计算过程如下:
首先, 按照以下公式计算得到预测序列Y对于 输入序列X的预测得分 s:
其中, X=(x1,x2,…,xn)表示输入CRF层的词向量序列, 即全局语义信息Hmax, xi表示输入
的第i个词向量, n表示输入的词向量总数, Y=(y1,y2, …,yn)表示预测序列, yi表示第i个
词的预测标注结果, s(X,Y)表示预测序列Y对于输入序列X的预测得分, Pi,yi表示第i个词被
标注为yi标签的分数; A 表示转移分数, Ayi,yi+1代表标签yi 转移为标签yi+1的分数;
再按照以下公式计算得到预测序列Y产生的概 率p(Y|X):
其中,
表示真实的标注序列, YX表示所有可能的标注序列集合,
表示真实标注
序列
对于输入序列X的预测得分;
对公式(5)的等式两边取对数 得到预测序列Y的似然函数l n(p(Y|X) ):
最后, 按照以下公式(7)计算得到最高预测分数的输出序列Y*:
步骤5: 命名实体识别模型训练: 将步骤1得到的指定领域常识知识语料库中的训练样
本随机均分9份数据集, 输入到步骤4构建的BERT ‑BiGRUs‑CRF模型, 采用9折交叉验证方式,
对模型进行训练, 得到训练好的BERT ‑BiGRUs‑CRF模型;
步骤6: 常识文本知识命名实体识别: 运用训练好的BERT ‑BiGRUs‑CRF模型对步骤1中常
识知识语料库中的文本进行处 理, 得到每条文本中的标注序列;
步骤7: 常识知识语料库mention与百科知识库实体双向匹配: 将实体描述文本输入至
深度双向预训练语言模型BERT层中获得实体 向量表示, 与步骤6中得到的文本标注序列再
次进行拼接后, 经过一层卷积神经网络和激活函数, 最 终输出命名实体识别结果, 输出结果
为一维的01向量, 0代 表未识别, 1代 表成功识别;权 利 要 求 书 2/3 页
3
CN 114943230 A
3
专利 一种融合常识知识的中文特定领域实体链接方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:47:22上传分享