(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210299216.7
(22)申请日 2022.03.25
(71)申请人 河海大学
地址 210024 江苏省南京市 鼓楼区西康路1
号
(72)发明人 冯钧 张涛 陆佳民
(74)专利代理 机构 南京苏高专利商标事务所
(普通合伙) 32204
专利代理师 柏尚春
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/242(2020.01)
G06F 40/211(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种面向水利文本的嵌套实体识别方法
(57)摘要
本发明公开了一种面向水利文本的嵌套实
体识别方法, 首先, 基于现有水利行业标准和第
三方词库形成基础词典, 并使用一种新词发现算
法挖掘新词汇来扩充基础词典; 其次, 在词嵌入
过程中, 使用领域词典, 将词汇的信息融入到字
符表示, 增强语义表示; 然后, 在编码过程中, 使
用双向长短时记忆网络进行特征提取; 最后, 在
解码过程中, 提出一种由外向内的解码方法, 模
型在预测到实体时, 会自动寻找内部实体, 直至
内部不存在任何实体。 本发明结合水利领域知
识, 在识别水利文本的嵌套实体时, 取得了良好
的效果。
权利要求书2页 说明书5页 附图1页
CN 114881030 A
2022.08.09
CN 114881030 A
1.一种面向水利文本的嵌套实体识别方法, 其特 征在于, 包括以下步骤:
(1)基于现有水利行业标准和第三方词库形成基础词典, 并使用一种新词发现算法挖
掘新词汇来扩充基础词典;
(2)在词嵌入过程中, 使用领域词典, 将词汇的信息融入到 字符表示, 增强语义表示;
(3)在编码过程中, 使用双向长短时记 忆网络进行 特征提取;
(4)在解码过程中, 提出一种由外向内的解码方法, 在预测到实体时, 会自动寻找内部
实体, 直至内部不存在任何实体。
2.根据权利要求1所述的一种面向水利文本的嵌套实体识别方法, 其特征在于, 所述步
骤(1)包括以下步骤:
(11)利用信息熵和凝固度来挖掘新词汇, 定位词典中的词汇出现在原始语料中的位
置, 计算信息熵来评判该词汇相 邻字的丰富程度, 信息熵小于20, 则将该词汇与邻接字拼接
形成新的词汇;
(12)当形成新的词汇, 会计算该词汇的凝固度决定是否将词汇加入进词典, 当凝固度
大于1.25将词汇加入词典并对词典进行去重 。
3.根据权利要求1所述的一种面向水利文本的嵌套实体识别方法, 其特征在于, 所述步
骤(2)包括以下步骤:
(21)将词汇信息 融入字符表示, 为每个字符保留根据词典获得到的所有可能的切分结
果, 对句子中的每 个字符构建{B,M,E,S}词集;
(22)将每个词集里面的词合并, 压缩成一个固定维度的向量, 并使用现有工具进行词
嵌入。
4.根据权利要求1所述的一种面向水利文本的嵌套实体识别方法, 其特征在于, 所述步
骤(4)包括以下步骤:
(41)选用CRF进行基础解码, 为每个实体类型准备一个CRF, 以由外向内迭代的方式找
到每个可能存在的实体;
(42)使用多个CRF, 计算整个句子的CRF分数, 全局最优的标签序列, 获取所有的外部实
体, 将实体添加到实体 集合; 如果编码层输出的序列为H=h1,h2,h3,…,hn, hi代表第i个字符
的特征向量,
表示在特征向量序列为H, 实体类型为k情况下的实体标签
序列, 计算
的CRF分数计算公式如下:
其中,
代表中从标签
到标签
的转移分数, 如果
到标签
没有相关
性,
反之,
和
代表权重矩阵和偏执向量;
(43)以实体起始位置形成新的跨度, 重新使用CRF计算分数, 从而得到内部实体的标签
序列, 将内部实体添加到实体集 合;
(44)重复步骤(43)直到不出现任何新的实体。权 利 要 求 书 1/2 页
2
CN 114881030 A
25.根据权利要求3所述的一种面向水利文本的嵌套实体识别方法, 其特征在于, 所述步
骤(21)包括以下步骤:
(211)计算词集{B}, {B}代表所有以该字符作为起始字符的单词的集合, 并且集合中的
所有单词属于词典;
(212)计算词集{M}, {M}代表所有以该字符作为中间字符的单词的集合, 并且集合中的
所有单词属于词典;
(213)计算词集{E}, {E}代表所有以该字符作为结尾字符的单词的集合, 并且集合中的
所有单词属于词典;
(214)计算词集{S}, {S}代 表字符本身;
(215)当某个词集 不存在任何满足要求的单词时标记为 “Null”;
(216)将每 个字符对应形成的四个词集 拼接。
6.根据权利要求3所述的一种面向水利文本的嵌套实体识别方法, 其特征在于, 所述步
骤(22)包括以下步骤:
(221)以单词在语料中出现频率作为权 重, 形成固定维度的向量;
(222)使用预训练过的ELMO进行词嵌入。权 利 要 求 书 2/2 页
3
CN 114881030 A
3
专利 一种面向水利文本的嵌套实体识别方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:47:46上传分享