(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210376462.8 (22)申请日 2022.04.11 (66)本国优先权数据 202111381390.8 2021.1 1.21 CN (71)申请人 北京中科凡语科技有限公司 地址 100190 北京市海淀区知春路6 3号51 号楼10层10 06 (72)发明人 翟飞飞  (74)专利代理 机构 北京庚致知识产权代理事务 所(特殊普通 合伙) 11807 专利代理师 韩德凯 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) (54)发明名称 候选实体筛选方法、 装置、 可读存储介质以 及电子设备 (57)摘要 本公开提供一种候选实体筛选方法, 基于训 练集构建触发词库、 实体内部构词规律库以及标 准语义词性规则库; 对于候选实体, 从词性标注 角度出发, 对候选实体进行触发词与内部构词特 性双重检查, 确定相似度最高的候选实体。 本公 开还提供一种候选实体筛选装置、 可读存储介质 及电子设备。 权利要求书2页 说明书7页 附图3页 CN 114970512 A 2022.08.30 CN 114970512 A 1.一种候选实体筛 选方法, 其特 征在于, 包括如下步骤: S1: 基于训练集构建触发词库、 实体内部构词规 律库以及标准语义词性 规则库; S2: 使用所述触发词库中的触发词对医疗文本进行实体抽取获得候选实体集; S3: 将模型所标注出的实体与所述候选实体集中的实体进行比较, 判断是否完全一致: 完全一致则进入步骤S4, 否则进入步骤S6; S4: 基于所述标准语义词性规则库对步骤S3中完全一致的实体进行词性标注, 利用编 辑距离计算该实体的词性标注组合与所述实体内部构词规律库中各词性组合的语义相似 度集合; S5: 基于预先设定的语义相似度阈值, 判断所述语义相似度集合中是否存在大于该语 义相似度阈值的值: 如果存在则该实体正确, 结束该实体筛 选; S6: 将所述候选实体集中的实体与触发词组成关键语义段, 对关键语义段分别进行词 性标注; S7: 利用编辑距离计算各关键语义段与 标准语义词性规则库中的已有的标准语义段之 间的语义相似度, 取相似度最高的N个关键语义段包 含的实体作为待处 理实体; 以及 S8: 对所述待处理实体进行词性标注, 利用编辑距离计算待处理实体的词性标注组合 与标准实体规则库间的语义相似度, 确定相似度最高的候选实体。 2.根据权利要求1所述的候选实体筛选方法, 其特征在于: 所述触发词库构建通过对训 练集中包 含实体的语句进行分词, 按照分词后实体的上 下文信息构建所述触发词库。 3.根据权利要求1所述的候选实体筛选方法, 其特征在于: 所述实体内部构词规律库通 过对于实体进行词性标注, 根据词性标注结果 为实体构建所述实体内部构词规 律库。 4.根据权利要求1所述的候选实体筛选方法, 其特征在于: 所述标准语义词性规则库将 触发词及实体的组合定义为标准语义段, 对关键语义段进行词法分析, 根据词法分析结果 构建所述标准语义词性 规则库。 5.根据权利要求1所述的候选实体筛选方法, 其特征在于: 所述步骤S2中, 对于给定的 医疗文本的语句, 在语句中找出所有触发词前驱L和 触发词后续R所在的位置, 将相邻L和R 之间的内容抽取 出来作为 候选实体。 6.根据权利要求1所述的候选实体筛选方法, 其特征在于: 所述步骤S3中, 所述模型所 标注出的实体为使用通过训练集和开发集训练的模型进行 标注所得到的实体集 合。 7.根据权利要求1所述的候选实体筛选方法, 其特征在于: 所述词性标注通过单词自身 含义与上下文信息对单词进行词性标记, 由机器学习算法完成, 所述机器学习 方法算法包 括隐马尔可 夫模型或条件随机场。 8.一种候选实体筛 选装置, 其特 征在于, 包括: 词库构建模块, 所述词库构建模块基于训练集构建触发词库、 实体内部构词规律库以 及标准语义词性 规则库; 候选实体集获取模块, 所述候选实体集获取模块使用触发词对医疗文本进行实体抽取 获得候选实体集; 实体判断模块, 所述实体判断模块将模型所标注出的实体与 所述候选实体集中的实体 进行比较, 根据判断结果进行模块操作; 词体语义相似度集合计算模块, 所述词体语义相似度集合计算模块在所述实体判断模权 利 要 求 书 1/2 页 2 CN 114970512 A 2块确定模型所标注出的实体与所述候选实体集中的实体完全一致时, 基于所述标准语义词 性规则库对完全一致的实体进 行词性标注, 利用编辑距离计算该实体的词性标注组合与实 体内部构词规 律库中各词性组合的语义相似度集 合; 语义相似度阈值判断模块, 所述语义相似度阈值判断模块判断所述词体语义相似度集 合计算模块计算的语义相似度集合中是否存在大于该语义相似度阈值的值: 如果存在则该 实体正确, 结束该实体筛 选; 关键语义段构 成模块, 所述关键语义段构 成模块在所述实体判断模块确定模型所标注 出的实体与候选实体集中的实体不完全一致时, 将候选实体集中的实体与触发词组成关键 语义段, 对关键语义段分别进行词性标注; 待处理实体确定模块, 所述待处理实体确定模块利用编辑距离计算各关键语义段与标 准语义词性规则库中的 已有的标准语义段之间的语义相似度, 取相似度最高的N个关键语 义段包含的实体作为待处 理实体; 以及 相似度最高候选实体确定模块, 所述相似度最高候选实体确定模块对待处理实体确定 模块生成的待处理实体进 行词性标注, 利用编辑距离计算待处理实体的词性标注组合与标 准实体规则库间的语义相似度, 确定相似度最高的候选实体。 9.一种可读存储介质, 其特征在于, 所述可读存储介质存储计算机程序, 所述计算机程 序用于被处 理器执行权利要求1 ‑7之一所述的候选实体筛 选方法。 10.一种电子设备, 其特征在于, 包括处理器以及可读存储介质, 所述可读存储介质存 储执行指令, 所述处理器执行所述可读存储介质中的执行指令, 使所述处理器执行权利要 求1‑7之一所述的候选实体筛 选方法。权 利 要 求 书 2/2 页 3 CN 114970512 A 3

.PDF文档 专利 候选实体筛选方法、装置、可读存储介质以及电子设备

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 候选实体筛选方法、装置、可读存储介质以及电子设备 第 1 页 专利 候选实体筛选方法、装置、可读存储介质以及电子设备 第 2 页 专利 候选实体筛选方法、装置、可读存储介质以及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:48:11上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。