国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210376462.8 (22)申请日 2022.04.11 (66)本国优先权数据 202111381390.8 2021.1 1.21 CN (71)申请人 北京中科凡语科技有限公司 地址 100190 北京市海淀区知春路6 3号51 号楼10层10 06 (72)发明人 翟飞飞 (74)专利代理 机构 北京庚致知识产权代理事务 所(特殊普通 合伙) 11807 专利代理师 韩德凯 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) (54)发明名称 候选实体筛选方法、 装置、 可读存储介质以 及电子设备 (57)摘要 本公开提供一种候选实体筛选方法, 基于训 练集构建触发词库、 实体内部构词规律库以及标 准语义词性规则库; 对于候选实体, 从词性标注 角度出发, 对候选实体进行触发词与内部构词特 性双重检查, 确定相似度最高的候选实体。 本公 开还提供一种候选实体筛选装置、 可读存储介质 及电子设备。 权利要求书2页 说明书7页 附图3页 CN 114970512 A 2022.08.30 CN 114970512 A 1.一种候选实体筛 选方法, 其特 征在于, 包括如下步骤: S1: 基于训练集构建触发词库、 实体内部构词规 律库以及标准语义词性 规则库; S2: 使用所述触发词库中的触发词对医疗文本进行实体抽取获得候选实体集; S3: 将模型所标注出的实体与所述候选实体集中的实体进行比较, 判断是否完全一致: 完全一致则进入步骤S4, 否则进入步骤S6; S4: 基于所述标准语义词性规则库对步骤S3中完全一致的实体进行词性标注, 利用编 辑距离计算该实体的词性标注组合与所述实体内部构词规律库中各词性组合的语义相似 度集合; S5: 基于预先设定的语义相似度阈值, 判断所述语义相似度集合中是否存在大于该语 义相似度阈值的值: 如果存在则该实体正确, 结束该实体筛 选; S6: 将所述候选实体集中的实体与触发词组成关键语义段, 对关键语义段分别进行词 性标注; S7: 利用编辑距离计算各关键语义段与 标准语义词性规则库中的已有的标准语义段之 间的语义相似度, 取相似度最高的N个关键语义段包 含的实体作为待处 理实体; 以及 S8: 对所述待处理实体进行词性标注, 利用编辑距离计算待处理实体的词性标注组合 与标准实体规则库间的语义相似度, 确定相似度最高的候选实体。 2.根据权利要求1所述的候选实体筛选方法, 其特征在于: 所述触发词库构建通过对训 练集中包 含实体的语句进行分词, 按照分词后实体的上 下文信息构建所述触发词库。 3.根据权利要求1所述的候选实体筛选方法, 其特征在于: 所述实体内部构词规律库通 过对于实体进行词性标注, 根据词性标注结果 为实体构建所述实体内部构词规 律库。 4.根据权利要求1所述的候选实体筛选方法, 其特征在于: 所述标准语义词性规则库将 触发词及实体的组合定义为标准语义段, 对关键语义段进行词法分析, 根据词法分析结果 构建所述标准语义词性 规则库。 5.根据权利要求1所述的候选实体筛选方法, 其特征在于: 所述步骤S2中, 对于给定的 医疗文本的语句, 在语句中找出所有触发词前驱L和 触发词后续R所在的位置, 将相邻L和R 之间的内容抽取 出来作为 候选实体。 6.根据权利要求1所述的候选实体筛选方法, 其特征在于: 所述步骤S3中, 所述模型所 标注出的实体为使用通过训练集和开发集训练的模型进行 标注所得到的实体集 合。 7.根据权利要求1所述的候选实体筛选方法, 其特征在于: 所述词性标注通过单词自身 含义与上下文信息对单词进行词性标记, 由机器学习算法完成, 所述机器学习 方法算法包 括隐马尔可 夫模型或条件随机场。 8.一种候选实体筛 选装置, 其特 征在于, 包括: 词库构建模块, 所述词库构建模块基于训练集构建触发词库、 实体内部构词规律库以 及标准语义词性 规则库; 候选实体集获取模块, 所述候选实体集获取模块使用触发词对医疗文本进行实体抽取 获得候选实体集; 实体判断模块, 所述实体判断模块将模型所标注出的实体与 所述候选实体集中的实体 进行比较, 根据判断结果进行模块操作; 词体语义相似度集合计算模块, 所述词体语义相似度集合计算模块在所述实体判断模权 利 要 求 书 1/2 页 2 CN 114970512 A 2块确定模型所标注出的实体与所述候选实体集中的实体完全一致时, 基于所述标准语义词 性规则库对完全一致的实体进 行词性标注, 利用编辑距离计算该实体的词性标注组合与实 体内部构词规 律库中各词性组合的语义相似度集 合; 语义相似度阈值判断模块, 所述语义相似度阈值判断模块判断所述词体语义相似度集 合计算模块计算的语义相似度集合中是否存在大于该语义相似度阈值的值: 如果存在则该 实体正确, 结束该实体筛 选; 关键语义段构 成模块, 所述关键语义段构 成模块在所述实体判断模块确定模型所标注 出的实体与候选实体集中的实体不完全一致时, 将候选实体集中的实体与触发词组成关键 语义段, 对关键语义段分别进行词性标注; 待处理实体确定模块, 所述待处理实体确定模块利用编辑距离计算各关键语义段与标 准语义词性规则库中的 已有的标准语义段之间的语义相似度, 取相似度最高的N个关键语 义段包含的实体作为待处 理实体; 以及 相似度最高候选实体确定模块, 所述相似度最高候选实体确定模块对待处理实体确定 模块生成的待处理实体进 行词性标注, 利用编辑距离计算待处理实体的词性标注组合与标 准实体规则库间的语义相似度, 确定相似度最高的候选实体。 9.一种可读存储介质, 其特征在于, 所述可读存储介质存储计算机程序, 所述计算机程 序用于被处 理器执行权利要求1 ‑7之一所述的候选实体筛 选方法。 10.一种电子设备, 其特征在于, 包括处理器以及可读存储介质, 所述可读存储介质存 储执行指令, 所述处理器执行所述可读存储介质中的执行指令, 使所述处理器执行权利要 求1‑7之一所述的候选实体筛 选方法。权 利 要 求 书 2/2 页 3 CN 114970512 A 3
专利 候选实体筛选方法、装置、可读存储介质以及电子设备
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:48:11
上传分享
举报
下载
原文档
(519.4 KB)
分享
友情链接
UNE EN ISO IEC 19790 2020.pdf
GM-T 0027-2014 智能密码钥匙技术规范.pdf
LY-T 3241-2020 纤维板生产线节能技术规范.pdf
GB-T 41831-2022 项目管理专业人员能力评价要求.pdf
GB-T 33840-2017 水套加热炉通用技术要求.pdf
NB-T 20547—2019 核电工程爆破监测技术规程.pdf
ISO 17987-2-2016.pdf
T-CEC 5080—2022 户用光伏发电系统安装调试与验收规范.pdf
硅创社2024001-AIGC2023~2024跨年报告V1.0 2024.pdf
T-CI 019—2021 常温催化氧化法治理挥发性有机物技术规范.pdf
GB-T 28543-2021 电力电容器噪声测量方法.pdf
GB-T 36343-2018 信息技术 数据交易服务平台 交易数据描述.pdf
GB-T 40652-2021 信息安全技术 恶意软件事件预防和处理指南.pdf
GB-T 33560-2017 信息安全技术 密码应用标识规范.pdf
GB-T 32686-2016 光敏材料用多官能团丙烯酸酯单体中有机溶剂的测定 顶空进样毛细管气相色谱法.pdf
T-CI 126—2023 高寒草地碳储量及碳汇核算技术导则.pdf
GB-T 33774-2017 电子工业用气体 丙烯.pdf
NY-T 3461-2019 草原建设经济生态效益评价技术规程.pdf
DB52-T1239.5-2019 政府数据 核心元数据 第5部分:宏观经济数据 贵州省.pdf
TB-T 1669-2018 机车车辆车钩及缓冲装置计量器具 13型车钩量具.pdf
1
/
3
13
评价文档
赞助2.5元 点击下载(519.4 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。