(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210299216.7 (22)申请日 2022.03.25 (71)申请人 河海大学 地址 210024 江苏省南京市 鼓楼区西康路1 号 (72)发明人 冯钧 张涛 陆佳民  (74)专利代理 机构 南京苏高专利商标事务所 (普通合伙) 32204 专利代理师 柏尚春 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/242(2020.01) G06F 40/211(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种面向水利文本的嵌套实体识别方法 (57)摘要 本发明公开了一种面向水利文本的嵌套实 体识别方法, 首先, 基于现有水利行业标准和第 三方词库形成基础词典, 并使用一种新词发现算 法挖掘新词汇来扩充基础词典; 其次, 在词嵌入 过程中, 使用领域词典, 将词汇的信息融入到字 符表示, 增强语义表示; 然后, 在编码过程中, 使 用双向长短时记忆网络进行特征提取; 最后, 在 解码过程中, 提出一种由外向内的解码方法, 模 型在预测到实体时, 会自动寻找内部实体, 直至 内部不存在任何实体。 本发明结合水利领域知 识, 在识别水利文本的嵌套实体时, 取得了良好 的效果。 权利要求书2页 说明书5页 附图1页 CN 114881030 A 2022.08.09 CN 114881030 A 1.一种面向水利文本的嵌套实体识别方法, 其特 征在于, 包括以下步骤: (1)基于现有水利行业标准和第三方词库形成基础词典, 并使用一种新词发现算法挖 掘新词汇来扩充基础词典; (2)在词嵌入过程中, 使用领域词典, 将词汇的信息融入到 字符表示, 增强语义表示; (3)在编码过程中, 使用双向长短时记 忆网络进行 特征提取; (4)在解码过程中, 提出一种由外向内的解码方法, 在预测到实体时, 会自动寻找内部 实体, 直至内部不存在任何实体。 2.根据权利要求1所述的一种面向水利文本的嵌套实体识别方法, 其特征在于, 所述步 骤(1)包括以下步骤: (11)利用信息熵和凝固度来挖掘新词汇, 定位词典中的词汇出现在原始语料中的位 置, 计算信息熵来评判该词汇相 邻字的丰富程度, 信息熵小于20, 则将该词汇与邻接字拼接 形成新的词汇; (12)当形成新的词汇, 会计算该词汇的凝固度决定是否将词汇加入进词典, 当凝固度 大于1.25将词汇加入词典并对词典进行去重 。 3.根据权利要求1所述的一种面向水利文本的嵌套实体识别方法, 其特征在于, 所述步 骤(2)包括以下步骤: (21)将词汇信息 融入字符表示, 为每个字符保留根据词典获得到的所有可能的切分结 果, 对句子中的每 个字符构建{B,M,E,S}词集; (22)将每个词集里面的词合并, 压缩成一个固定维度的向量, 并使用现有工具进行词 嵌入。 4.根据权利要求1所述的一种面向水利文本的嵌套实体识别方法, 其特征在于, 所述步 骤(4)包括以下步骤: (41)选用CRF进行基础解码, 为每个实体类型准备一个CRF, 以由外向内迭代的方式找 到每个可能存在的实体; (42)使用多个CRF, 计算整个句子的CRF分数, 全局最优的标签序列, 获取所有的外部实 体, 将实体添加到实体 集合; 如果编码层输出的序列为H=h1,h2,h3,…,hn, hi代表第i个字符 的特征向量, 表示在特征向量序列为H, 实体类型为k情况下的实体标签 序列, 计算 的CRF分数计算公式如下: 其中, 代表中从标签 到标签 的转移分数, 如果 到标签 没有相关 性, 反之, 和 代表权重矩阵和偏执向量; (43)以实体起始位置形成新的跨度, 重新使用CRF计算分数, 从而得到内部实体的标签 序列, 将内部实体添加到实体集 合; (44)重复步骤(43)直到不出现任何新的实体。权 利 要 求 书 1/2 页 2 CN 114881030 A 25.根据权利要求3所述的一种面向水利文本的嵌套实体识别方法, 其特征在于, 所述步 骤(21)包括以下步骤: (211)计算词集{B}, {B}代表所有以该字符作为起始字符的单词的集合, 并且集合中的 所有单词属于词典; (212)计算词集{M}, {M}代表所有以该字符作为中间字符的单词的集合, 并且集合中的 所有单词属于词典; (213)计算词集{E}, {E}代表所有以该字符作为结尾字符的单词的集合, 并且集合中的 所有单词属于词典; (214)计算词集{S}, {S}代 表字符本身; (215)当某个词集 不存在任何满足要求的单词时标记为 “Null”; (216)将每 个字符对应形成的四个词集 拼接。 6.根据权利要求3所述的一种面向水利文本的嵌套实体识别方法, 其特征在于, 所述步 骤(22)包括以下步骤: (221)以单词在语料中出现频率作为权 重, 形成固定维度的向量; (222)使用预训练过的ELMO进行词嵌入。权 利 要 求 书 2/2 页 3 CN 114881030 A 3

.PDF文档 专利 一种面向水利文本的嵌套实体识别方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向水利文本的嵌套实体识别方法 第 1 页 专利 一种面向水利文本的嵌套实体识别方法 第 2 页 专利 一种面向水利文本的嵌套实体识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:47:46上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。