(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210400706.1 (22)申请日 2022.04.17 (71)申请人 西北工业大 学 地址 710072 陕西省西安市友谊西路127号 (72)发明人 王柱 康天雨 刘囡囡 郭斌  於志文  (74)专利代理 机构 西安凯多 思知识产权代理事 务所(普通 合伙) 61290 专利代理师 赵革革 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/242(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称 一种融合常识知识的中文特定领域实体链 接方法 (57)摘要 本发明公开了一种融合常识知识的中文特 定领域实体链接方法, 该方法先进行常识知 识的 获取和预处理, 再基于指定领域进行百科语料知 识库的构建与补全, 然后基于BERT ‑BiGRU‑CRF模 型和双向匹配策略进行命名实体识别, 最终基于 知识表示学习实现实体链接过程。 本发明能够有 效的解决上述实体边界识别错误和实体识别补 全的问题, 极大的提高了命名实体识别任务和实 体链接任务的准确性。 权利要求书3页 说明书6页 附图3页 CN 114943230 A 2022.08.26 CN 114943230 A 1.一种融合常识知识的中文特定领域实体链接方法, 其特 征在于, 包括如下步骤: 步骤1: 构建指定领域常识知识语料库: 爬取包括心理学、 社会学在内的指定领域文献, 提取文献中的摘要部 分和总结部 分的文本, 并对提取的文本进 行句子切分、 去除标点、 去掉 停用词, 以处理后的每个文本字段text、 文本中的提及实体mention_data和提及 实体对应 在百科知识库中的编号kb_id作为训练样 本, 得到指定领域常识知识语料库; 所述的文本中 的提及实体menti on_data包括识别后待链接的实体menti on; 步骤2: 构建与补全百科知识库: 首先, 根据百度百科中社交网络用户行为相关的百科 知识, 将百科词条以三元组<h, r, t>的结构构建百科知识图谱, h为实体Entity, r为谓词 Predicate, t为对象Object; 然后, 对百 科知识图谱进行修 正与补全, 具体包括: (1)对由大写英文字母构成的特殊专有实体名称进行小 写转换; (2)将包括单引号、 逗号、 句号在内的特殊符号转换为英文字符, 并将转换后的名称加 入到该实体所对应的别名中; (3)爬取包括心理学、 社会学在内的指定领域专有名词词条, 进行数据格式的转换, 转 换成三元组< h, r, t>的结构, 并添加到已构建好的百 科知识图谱中; 步骤3: 实体描述文本重建: 将百科知识库中的所有谓词和对象相连得到实体描述文 本, 如果实体描述文本的长度大于d, 对描述文本以d为单位进 行截断处理, d为预设的长度; 构建五个字典, 包括: (1)以百科知识库中的实体名称作为主键, 构建得到实体索引字典entity_id; (2)以百科知识库中的实体在百科知识库中的索引作为主键, 构建得到索引实体字典 id_entity; (3)以百科知识库中的实体描述文本的索引作为主键, 构建得到实体描述文本字典id_ text; (4)以百科知识库中的实体在百科知识库中的索引作为主键, 构建得到实体类别字典 id_type; (5)以百科知识库中的实体 类别的索引作为主键, 构建得到类别字典type_i ndex; 步骤4: 构建中文命名实体识别BERT ‑BiGRUs‑CRF模型: 包括输入层、 深度双向预训练语 言模型BERT层、 双向门控循环神经网络BiGRUs层和条件随机场CRF层; 步骤4‑1: 所述深度双向预训练语言模型BERT层的结构由嵌入层、 编码器、 池化层三部 分构成; 输入来自常识知识语料库的文本, 通过BERT层后, 生成基于上 下文信息的词向量; 步骤4‑2: 所述双向门控循环神经网络BiGRUs层包括方向相反的2个门控环单元GRU网 络和1个全局池化层, 将BERT层输出的词向量分别输入到正向GRU网络和反向GRU网络中, 分 别获得实体mention对应的前后语义信息向量 和 将这两个向量做拼接得到 Hcon; 之后到池化层做最大池化操作, 得到文本中字词的全局语义信息Hmax后输入到条件随 机场CRF层 中等待输出序列标注结果; 其中, BiGRUs层在t时刻的隐层状态ht按下式计算得 到: 其中, 表示t时刻正向GRU网络的隐层状态, 表示t时刻反向GRU网络的隐层状态, wt权 利 要 求 书 1/3 页 2 CN 114943230 A 2表示t时刻正向G RU网络的隐层状态的权重, vt表示t时刻反向G RU网络的隐层状态的权重, bt 表示t时刻隐层状态所对应的偏置; 和 分别按以下公式计算得到: 其中, GRU表示对输入的词向量的非线性变换, 把词向量编码成对应的GRU隐层状态; xt 表示当前输入的词向量, 表示t‑1时刻正向G RU网络的隐层状态, 表示t‑1时刻反向 GRU网络的隐层状态; 步骤4‑3: 条件随机场CRF层利用文本中每个词的邻近标签关系进行最优序列预测, 其 计算过程如下: 首先, 按照以下公式计算得到预测序列Y对于 输入序列X的预测得分 s: 其中, X=(x1,x2,…,xn)表示输入CRF层的词向量序列, 即全局语义信息Hmax, xi表示输入 的第i个词向量, n表示输入的词向量总数, Y=(y1,y2, …,yn)表示预测序列, yi表示第i个 词的预测标注结果, s(X,Y)表示预测序列Y对于输入序列X的预测得分, Pi,yi表示第i个词被 标注为yi标签的分数; A 表示转移分数, Ayi,yi+1代表标签yi 转移为标签yi+1的分数; 再按照以下公式计算得到预测序列Y产生的概 率p(Y|X): 其中, 表示真实的标注序列, YX表示所有可能的标注序列集合, 表示真实标注 序列 对于输入序列X的预测得分; 对公式(5)的等式两边取对数 得到预测序列Y的似然函数l n(p(Y|X) ): 最后, 按照以下公式(7)计算得到最高预测分数的输出序列Y*: 步骤5: 命名实体识别模型训练: 将步骤1得到的指定领域常识知识语料库中的训练样 本随机均分9份数据集, 输入到步骤4构建的BERT ‑BiGRUs‑CRF模型, 采用9折交叉验证方式, 对模型进行训练, 得到训练好的BERT ‑BiGRUs‑CRF模型; 步骤6: 常识文本知识命名实体识别: 运用训练好的BERT ‑BiGRUs‑CRF模型对步骤1中常 识知识语料库中的文本进行处 理, 得到每条文本中的标注序列; 步骤7: 常识知识语料库mention与百科知识库实体双向匹配: 将实体描述文本输入至 深度双向预训练语言模型BERT层中获得实体 向量表示, 与步骤6中得到的文本标注序列再 次进行拼接后, 经过一层卷积神经网络和激活函数, 最 终输出命名实体识别结果, 输出结果 为一维的01向量, 0代 表未识别, 1代 表成功识别;权 利 要 求 书 2/3 页 3 CN 114943230 A 3

.PDF文档 专利 一种融合常识知识的中文特定领域实体链接方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种融合常识知识的中文特定领域实体链接方法 第 1 页 专利 一种融合常识知识的中文特定领域实体链接方法 第 2 页 专利 一种融合常识知识的中文特定领域实体链接方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:47:22上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。