专利一种融合常识知识的中文特定领域实体链接方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210400706.1 (22)申请日 2022.04.17 (71)申请人西北工业大学地址 710072 陕西省西安市友谊西路127号 (72)发明人王柱　康天雨　刘囡囡　郭斌　於志文　 (74)专利代理机构西安凯多思知识产权代理事务所(普通合伙) 61290 专利代理师赵革革 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/242(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称一种融合常识知识的中文特定领域实体链接方法 (57)摘要本发明公开了一种融合常识知识的中文特定领域实体链接方法，该方法先进行常识知识的获取和预处理，再基于指定领域进行百科语料知识库的构建与补全，然后基于BERT ‑BiGRU‑CRF模型和双向匹配策略进行命名实体识别，最终基于知识表示学习实现实体链接过程。本发明能够有效的解决上述实体边界识别错误和实体识别补全的问题，极大的提高了命名实体识别任务和实体链接任务的准确性。权利要求书3页说明书6页附图3页 CN 114943230 A 2022.08.26 CN 114943230 A 1.一种融合常识知识的中文特定领域实体链接方法，其特征在于，包括如下步骤：步骤1：构建指定领域常识知识语料库：爬取包括心理学、社会学在内的指定领域文献，提取文献中的摘要部分和总结部分的文本，并对提取的文本进行句子切分、去除标点、去掉停用词，以处理后的每个文本字段text、文本中的提及实体mention_data和提及实体对应在百科知识库中的编号kb_id作为训练样本，得到指定领域常识知识语料库；所述的文本中的提及实体menti on_data包括识别后待链接的实体menti on；步骤2：构建与补全百科知识库：首先，根据百度百科中社交网络用户行为相关的百科知识，将百科词条以三元组<h， r， t>的结构构建百科知识图谱， h为实体Entity， r为谓词 Predicate， t为对象Object；然后，对百科知识图谱进行修正与补全，具体包括： (1)对由大写英文字母构成的特殊专有实体名称进行小写转换； (2)将包括单引号、逗号、句号在内的特殊符号转换为英文字符，并将转换后的名称加入到该实体所对应的别名中； (3)爬取包括心理学、社会学在内的指定领域专有名词词条，进行数据格式的转换，转换成三元组< h， r， t>的结构，并添加到已构建好的百科知识图谱中；步骤3：实体描述文本重建：将百科知识库中的所有谓词和对象相连得到实体描述文本，如果实体描述文本的长度大于d，对描述文本以d为单位进行截断处理， d为预设的长度；构建五个字典，包括： (1)以百科知识库中的实体名称作为主键，构建得到实体索引字典entity_id； (2)以百科知识库中的实体在百科知识库中的索引作为主键，构建得到索引实体字典 id_entity； (3)以百科知识库中的实体描述文本的索引作为主键，构建得到实体描述文本字典id_ text； (4)以百科知识库中的实体在百科知识库中的索引作为主键，构建得到实体类别字典 id_type； (5)以百科知识库中的实体类别的索引作为主键，构建得到类别字典type_i ndex；步骤4：构建中文命名实体识别BERT ‑BiGRUs‑CRF模型：包括输入层、深度双向预训练语言模型BERT层、双向门控循环神经网络BiGRUs层和条件随机场CRF层；步骤4‑1：所述深度双向预训练语言模型BERT层的结构由嵌入层、编码器、池化层三部分构成；输入来自常识知识语料库的文本，通过BERT层后，生成基于上下文信息的词向量；步骤4‑2：所述双向门控循环神经网络BiGRUs层包括方向相反的2个门控环单元GRU网络和1个全局池化层，将BERT层输出的词向量分别输入到正向GRU网络和反向GRU网络中，分别获得实体mention对应的前后语义信息向量和将这两个向量做拼接得到 Hcon；之后到池化层做最大池化操作，得到文本中字词的全局语义信息Hmax后输入到条件随机场CRF层中等待输出序列标注结果；其中， BiGRUs层在t时刻的隐层状态ht按下式计算得到：其中，表示t时刻正向GRU网络的隐层状态，表示t时刻反向GRU网络的隐层状态， wt权　利　要　求　书 1/3 页 2 CN 114943230 A 2表示t时刻正向G RU网络的隐层状态的权重， vt表示t时刻反向G RU网络的隐层状态的权重， bt 表示t时刻隐层状态所对应的偏置；和分别按以下公式计算得到：其中， GRU表示对输入的词向量的非线性变换，把词向量编码成对应的GRU隐层状态； xt 表示当前输入的词向量，表示t‑1时刻正向G RU网络的隐层状态，表示t‑1时刻反向 GRU网络的隐层状态；步骤4‑3：条件随机场CRF层利用文本中每个词的邻近标签关系进行最优序列预测，其计算过程如下：首先，按照以下公式计算得到预测序列Y对于输入序列X的预测得分 s：其中， X＝(x1,x2,…,xn)表示输入CRF层的词向量序列，即全局语义信息Hmax， xi表示输入的第i个词向量， n表示输入的词向量总数， Y＝(y1,y2, …,yn)表示预测序列， yi表示第i个词的预测标注结果， s(X,Y)表示预测序列Y对于输入序列X的预测得分， Pi,yi表示第i个词被标注为yi标签的分数； A 表示转移分数， Ayi,yi+1代表标签yi 转移为标签yi+1的分数；再按照以下公式计算得到预测序列Y产生的概率p(Y|X)：其中，表示真实的标注序列， YX表示所有可能的标注序列集合，表示真实标注序列对于输入序列X的预测得分；对公式(5)的等式两边取对数得到预测序列Y的似然函数l n(p(Y|X) )：最后，按照以下公式(7)计算得到最高预测分数的输出序列Y*：步骤5：命名实体识别模型训练：将步骤1得到的指定领域常识知识语料库中的训练样本随机均分9份数据集，输入到步骤4构建的BERT ‑BiGRUs‑CRF模型，采用9折交叉验证方式，对模型进行训练，得到训练好的BERT ‑BiGRUs‑CRF模型；步骤6：常识文本知识命名实体识别：运用训练好的BERT ‑BiGRUs‑CRF模型对步骤1中常识知识语料库中的文本进行处理，得到每条文本中的标注序列；步骤7：常识知识语料库mention与百科知识库实体双向匹配：将实体描述文本输入至深度双向预训练语言模型BERT层中获得实体向量表示，与步骤6中得到的文本标注序列再次进行拼接后，经过一层卷积神经网络和激活函数，最终输出命名实体识别结果，输出结果为一维的01向量， 0代表未识别， 1代表成功识别；权　利　要　求　书 2/3 页 3 CN 114943230 A 3

专利 一种融合常识知识的中文特定领域实体链接方法

专利一种融合常识知识的中文特定领域实体链接方法