(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210500531.1
(22)申请日 2022.05.10
(65)同一申请的已公布的文献号
申请公布号 CN 114596931 A
(43)申请公布日 2022.06.07
(73)专利权人 上海柯林布瑞信息技 术有限公司
地址 200233 上海市徐汇区宜山路70 0号B2
栋1504室
(72)发明人 秦晓宏 华宗楠
(74)专利代理 机构 北京超凡宏宇专利代理事务
所(特殊普通 合伙) 11463
专利代理师 何明伦
(51)Int.Cl.
G16H 10/60(2018.01)
G16H 50/70(2018.01)
G06F 16/35(2019.01)
G06F 40/242(2020.01)
G06F 40/295(2020.01)
G06F 40/30(2020.01)(56)对比文件
CN 113688256 A,2021.1 1.23
CN 111368528 A,2020.07.0 3
CN 110189831 A,2019.08.3 0
CN 110427491 A,2019.1 1.08
CN 110032648 A,2019.07.19
CN 112818676 A,2021.0 5.18
WO 20190716 61 A1,2019.04.18
US 2020342056 A1,2020.10.2 9
CN 114036934 A,202 2.02.11
张坤丽.“基于知识融合的产科电子病历多
标记分类 研究”. 《中国博士学位 论文全文数据库
医药卫生科技辑》 .2020,
WEI DENG 等. “Medical Entity
Extracti on and Kn owledge Graph
Constructi on”. 《2019 16th I nternati onal
Computer Co nference o n Wavelet Active
Media Tec hnology and I nformati on
Processing》 .2020,
审查员 李平
(54)发明名称
基于病历的医学实体和关系联合提取方法
和装置
(57)摘要
本发明提供一种基于病历的医学实体和关
系联合提取方法和装置, 其中方法包括: 对病历
文本进行语义分割, 得到多个待识别文本; 对多
个待识别文本中的分词分别进行序列组合, 得到
多个待识别文本的待识别词序列; 待识别词序列
由对应待识别文本中的一个分词或多个连续分
词组合而成; 利用实体关系联合抽取模型, 对任
一待识别文本的待识别词序列进行医学实体识
别, 得到多个医学实体以及 多个医学实体的实体
类型, 并在确定待识别文本的两个医学实体中的
头实体和尾实体后, 基于头实体和尾实体的实体
表示、 最近尾实体距离和尾实体间隔, 确定两个
医学实体 之间是否存在待确认实体 关系。 本发明提高了医学关系抽取的准确性、 嵌套实体识别的
全面性和模型效率。
权利要求书2页 说明书14页 附图3页
CN 114596931 B
2022.08.02
CN 114596931 B
1.一种基于病历的医学实体和关系联合 提取方法, 其特 征在于, 包括:
对病历文本进行语义分割, 得到多个待识别文本;
对所述多个待识别文本 中的分词分别进行序列组合, 得到所述多个待识别文本的待识
别词序列; 所述待识别词序列由对应待识别文本中的一个分词或多个连续分词组合而成;
利用实体关系联合抽取模型, 对任一待识别文本的待识别词序列进行医学实体识别,
得到多个医学实体以及所述多个医学实体的实体类型, 并在确定任一待识别文本的两个医
学实体中的头实体和尾实体后, 基于所述头实体和尾实体的实体表示、 所述两个医学实体
的上下文表示、 最近尾实体距离和尾实体间隔, 确定所述两个医学实体之间是否存在待确
认实体关系; 所述上下文表示是基于所述两个医学实体所在的待识别文本中所有分词的语
义表示确定的;
其中, 所述待确认实体关系为预设医学关系中的一种, 所述待确认实体关系中包含的
实体类型与所述两个医学实体的实体类型相同, 所述最近尾实体距离为所述头实体与最近
尾实体间的距离, 所述尾实体间隔为所述尾实体与所述最近尾实体间的距离, 所述最近尾
实体为所述任一待识别文本中与所述尾实体的实体类型相同且距离所述头实体最近的医
学实体; 实体关系联合抽取模型是基于样本文本以及样本文本中医学实体的标签和医学关
系的标签训练得到的;
对任一待识别词序列进行医学实体识别, 具体包括:
对所述任一待识别词序列中包含的所有分词的语义表示进行融合, 得到所述任一待识
别词序列的序列 表示; 基于所述任一待识别词 序列的序列表示和所述任一待识别词 序列所
在待识别文本的全文语义表示, 确定所述任一待识别词序列是否为医学实体, 以及当所述
任一待识别词序列为医学实体时的实体 类型。
2.根据权利要求1所述的基于病历的医学实体和关系联合提取方法, 其特征在于, 所述
上下文表示是基于如下步骤确定的:
基于所述两个医学实体所在的待识别文本中所有分词与所述头实体和所述尾实体之
间的关联性, 确定所述两个医学实体所在的待识别文本中每一分词的融合权 重;
基于所述两个 医学实体所在的待识别文本中每一分词的融合权重, 对所述每一分词的
语义表示进行融合, 得到所述上 下文表示。
3.根据权利要求1所述的基于病历的医学实体和关系联合提取方法, 其特征在于, 任一
待识别文本中所有分词的语义表示是对所述任一待识别文本进行字切分, 并进行去除重复
字、 修改错别字、 增补缺失字的至少一种操作后, 对每 个字进行语义 提取得到的。
4.根据权利要求1所述的基于病历的医学实体和关系联合提取方法, 其特征在于, 所述
确定任一待识别文本的两个医学实体中的头实体和尾实体, 具体包括:
确定所述两个医学实体各自对应的同类实体的数量; 其中, 任一医学实体对应的同类
实体为所述任一待识别文本中实体 类型与所述任一医学实体的实体 类型相同的医学实体;
基于所述两个医学实体各自对应的同类实体的数量, 确定 头实体和尾实体。
5.根据权利要求1所述的基于病历的医学实体和关系联合提取方法, 其特征在于, 所述
对任一待识别文本的待识别词序列进行医学实体识别, 具体包括:
基于任一待识别词序列的首字或尾字, 利用预设医学词典, 确定所述任一待识别词序
列是否语义完整;权 利 要 求 书 1/2 页
2
CN 114596931 B
2当所述任一待识别词序列语义完整时, 对所述任一待识别词序列进行医学实体识别。
6.根据权利要求5所述的基于病历的医学实体和关系联合提取方法, 其特征在于, 所述
当所述任一待识别词序列语义完整时, 对所述任一待识别词序列进行医学实体识别, 具体
包括:
当所述任一待识别词序列语义完整且所述任一待识别词序列的长度不超过预设阈值
时, 对所述任一待识别词序列进行医学实体识别。
7.根据权利要求1至6任一项所述的基于病历的医学实体和关系联合提取方法, 其特征
在于, 所述对病历文本进行语义分割, 得到多个待识别文本, 具体包括:
基于所述病历文本中的病历关键词和段落分隔符进行语义分割, 得到多个待识别文
本; 所述待识别文本中包 含一个或多个对应相同病历关键词的段落。
8.一种基于病历的医学实体和关系联合 提取装置, 其特 征在于, 包括:
文本分割单 元, 用于对病历文本进行语义分割, 得到多个待识别文本;
序列划分单元, 用于对所述多个待识别文本中的分词分别进行序列组合, 得到所述多
个待识别文本的待识别词序列; 所述待识别词 序列由对应待识别文本中的一个分词或多个
连续分词组合而成;
实体关系联合抽取单元, 用于利用实体关系联合抽取模型, 对任一待识别文本的待识
别词序列进行医学实体识别, 得到多个医学实体以及所述多个医学实体的实体类型, 并在
确定任一待识别文本的两个医学实体中的头实体和尾实体后, 基于所述头实体和尾实体的
实体表示、 所述两个医学实体的上下文表示、 最近尾实体距离和尾实体间隔, 确定所述两个
医学实体之 间是否存在待确认实体关系; 所述上下文表示是基于所述两个医学实体所在的
待识别文本中所有分词的语义表示确定的;
其中, 所述待确认实体关系为预设医学关系中的一种, 所述待确认实体关系中包含的
实体类型与所述两个医学实体的实体类型相同, 所述最近尾实体距离为所述头实体与最近
尾实体间的距离, 所述尾实体间隔为所述尾实体与所述最近尾实体间的距离, 所述最近尾
实体为所述任一待识别文本中与所述尾实体的实体类型相同且距离所述头实体最近的实
体; 实体关系联合抽取模型是基于样本文本以及样本文本中医学实体的标签和医学关系的
标签训练得到的;
对任一待识别词序列进行医学实体识别, 具体包括:
对所述任一待识别词序列中包含的所有分词的语义表示进行融合, 得到所述任一待识
别词序列的序列 表示; 基于所述任一待识别词 序列的序列表示和所述任一待识别词 序列所
在待识别文本的全文语义表示, 确定所述任一待识别词序列是否为医学实体, 以及当所述
任一待识别词序列为医学实体时的实体 类型。权 利 要 求 书 2/2 页
3
CN 114596931 B
3
专利 基于病历的医学实体和关系联合提取方法和装置
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:49:40上传分享