(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210256548.7
(22)申请日 2022.03.16
(65)同一申请的已公布的文献号
申请公布号 CN 114334159 A
(43)申请公布日 2022.04.12
(73)专利权人 四川大学华西医院
地址 610041 四川省成 都市武侯区国学巷
37号
专利权人 成都信息工程大学
(72)发明人 郝学超 王亚强 杨潇 朱涛
舒红平
(74)专利代理 机构 北京元本知识产权代理事务
所(普通合伙) 11308
专利代理师 曹广生
(51)Int.Cl.
G16H 50/30(2018.01)
G16H 50/70(2018.01)
G06F 40/30(2020.01)
G06F 40/284(2020.01)
G06F 16/35(2019.01)(56)对比文件
CN 109754852 A,2019.0 5.14
CN 113688600 A,2021.1 1.23
CN 112732916 A,2021.04.3 0
CN 113517046 A,2021.10.19
CN 113919344 A,2022.01.11
CN 113761936 A,2021.12.07
CN 113255908 A,2021.08.13
CN 109299976 A,2019.02.01
US 2009247083 A1,20 09.10.01
US 2021109958 A1,2021.04.15
Laila Rasmy等.Med-BERT: pretrai ned
contextual ized embed dings on largescale
structured electro nic health records for
disease predicti on. 《npj Digital
Medicine》 .2021,
Alfred_lv.利用BERT 模型解析电子病历.
《https://segmentfault.com/a/
1190000037711872》 .2020,
审查员 殷飞
(54)发明名称
一种术后风险预测自然语言数据增强模型
及方法
(57)摘要
本发明公开了一种术后风险预测自然语言
数据增强模 型及方法, 将自然语言数据通过在医
学领域数据集 训练下得到的预 训练模型
MedBERT, 通过这样的方式将其转换为向量。 将表
格数据中的离散型变量也通过实体嵌入的方式
也转换为向量, 而对于这两者不同类型的数据,
选择了多头自注意力的方式来将其融合。 注意力
机制算法将特征之间的关联性提取得到, 筛选出
重要特征进行预测, 从而能够将自然语 言数据里
的关键信息与表 格数据的关键信息关联起来, 达
到了多类型信息融合的目的, 本发 明首次地将自
然语言数据纳入到了对术后风险预测的任务中来。
权利要求书1页 说明书6页 附图1页
CN 114334159 B
2022.06.17
CN 114334159 B
1.一种术后风险预测自然语言数据增强装置, 其特 征在于, 所述装置包括:
离散化层, 被 配置为: 将围术期下的表格数据的连续型 特征转化为分类型 特征;
列嵌入层, 被配置为: 将围术期下的表格数据的离散型特征转换为离散型特征向量, 以
及将所述分类型特征转换为分类型特征向量, 获得向量嵌入
, 其中
指代离散型特征向
量和分类型 特征向量,
的范围属于1到m + n, m为连续型 特征数量, n为离散型特征数量;
文本嵌入层, 被配置为: 基于术前诊断文本上下文来确定词嵌入; 并将所述 词嵌入通
过一个平均池化的方式, 得到一个完整的句子嵌入;
特征交互层, 被配置为: 通过拼接将所述向量嵌入以及所述句子嵌入组合成一组向量;
将该组向量映射成三个向量矩阵, 并将所述三个向量矩阵输入到注意力层中来获取两两特
征之间注意力权 重, 得到一个 语义向量;
多层感知机, 被 配置为: 根据所述语义向量 来得到术后风险的预测结果。
2.根据权利要求1所述的装置, 其特征在于, 所述三个向量矩阵分别是由查询向量、 键
向量和值向量组成。
3.根据权利要求1所述的装置, 其特征在于, 所述离散化层, 被配置为: 根据数值特征的
最大值和最小值将连续型 特征转化为分类型 特征。
4.根据权利要求1所述的装置, 其特征在于, 所述文本嵌入层, 被配置为: 基于术前诊断
文本, 并利用预训练模型获取基于上下文语义的词嵌入, 所述预训练模型 的语料库根据实
际的临床记录数据来调整更新。
5.一种术后风险预测自然语言数据增强方法, 其特 征在于, 所述方法包括:
将围术期下的表格数据的连续型 特征转化为分类型 特征;
将围术期下的表格数据的离散型特征转换为离散型特征向量, 以及将所述分类型特征
转换为分类型特征向量, 获得向量嵌入
, 其中
指代离散型特征向量和分类型特征向
量,
的范围属于1到m + n, m为连续型 特征数量, n为离散型特征数量;
基于术前诊断文本上下文来确定词嵌入, 并将所述词嵌入通过一个平均池化的方式,
得到一个完整的句子嵌入;
通过拼接将所述向量嵌入以及所述句子嵌入组合成一组向量; 将该组向量映射成三个
向量矩阵, 并将所述三个 向量矩阵输入到注意力层中来获取两两特征之间注意力权重, 得
到一个语义向量;
根据所述语义向量 来得到术后风险的预测结果。
6.据权利要求5所述的方法, 其特征在于, 所述三个向量矩阵分别是由查询向量、 键向
量和值向量组成。
7.根据权利要求5所述的方法, 其特征在于, 所述将围术期下的表格数据的连续型特征
转化为分类型 特征, 具体包括:
根据数值特 征的最大值和最小值将连续型 特征转化为分类型 特征。
8.根据权利要求5所述的方法, 其特 征在于, 所述获取基于上 下文的词嵌入, 具体包括:
基于术前诊断文本, 并利用预训练模型获取基于上下文语义的词嵌入, 所述预训练模
型的语料库根据实际的临床记录数据来调整更新。权 利 要 求 书 1/1 页
2
CN 114334159 B
2一种术后风险预测自然语言数据增强模型及方 法
技术领域
[0001]本发明涉及信息处理技术领域, 具体的说, 涉及一种术后风险预测自然语言数据
增强模型及方法。
背景技术
[0002]术后风险预估通常被视为一个二分类的任务。 统计机器学习模型被广泛地应用来
解决这个问题, 例如逻辑回归 (Logistic Regression, ession, LR) 和极致梯度提升
(eXtreme Gradient Boosting, XGBoost) 。 基于向量的LR方法将离散型和连续型变量都进
行标准化处理后输入到模型, 基于树模型的XGBo ost模型直接利用结构化的数据进行训练。
[0003]在最近的研究工作 中, 因为深度学习其自身的复杂的特征表达能力和预测性能,
有许多研究人员开始利用深度学习来解决预测病 人术后风险的问题。 在这些研究当中, 围
术期的表格数据是主要的数据来源, 它包含了患者的基本信息、 实验室检查值以及许多其
他的离散型和数值型特征。 通常对于离散型变量的处理是进 行向量化处理将其变成独热向
量或者分布式向量, 对于连续型则是进行一个批标准化的处理方式。 最后将连续型和离散
型一起拼接输入到深度神经网络中进 行训练。 其中连续型变量作为单纯的数值型数值并未
包含医学上的语义, 例如 “收缩压156 ”不能体现出高血压的语义。 因此, 对于连续型的处理
通常会进行离 散化的操作将其变为离 散型变量。
[0004]但是, 文本数据, 例如术前诊断在目前的预测方法中没有得到充分的应用。 实际
上, 术前诊断信息对于患者的术后风险评估相当重要。 例如, 术前诊断中含有 “癌”和“高危”
字样的患者相比于其他患者有更大 的概率产生术后风险。 为了更好地利用文本数据, 通常
采用词嵌入的方式来将文本数据转换为向量, 而目前主流的研究方法则是采用预训练模型
来获取基于上下文语义的动态词嵌入, 例如BERT。 为了得到整体的句子嵌入, 通常采用池化
方式来处理词嵌入, 常用方法有平均池化、 最大池化和取CLS向量。 一般选取平均池化方式,
因为其既快速又有效的特点。 而有研究表明, 不同领域数据训练得到的BERT对于不同领域
的效果也不一样, 用医学语料集训练得到的MedBERT在医学 领域下的性能更优秀。
[0005]在不同类型的数据融合技术方面, 许多简单且朴素的方法是采用直接拼接的方
式。 而直接拼接的向量会存在信息冗余的问题, 当含有 无关信息的向量具有高纬度, 而含有
重要信息的向量具有低纬度时, 拼接他们会使得冗余的信息占据大部分, 导致真正关键的
重要信息被忽略。
发明内容
[0006]本发明的目的在于克服背景技术所提出的技术问题, 提出了一种术后风险预测自
然语言数据增强模型及方法。 本发 明主要基于在临床医疗领域内, 利用深度学习模型, 采用
了医疗诊断文本记录以及实验室术前检查数据来对病人的术后风险做出评估, 从而决定是
否要为病人安排重症 监护室床位以及其他医疗资源的分配, 从而有效地减轻医院的医疗负
担以及使得患者因术后并发症的死 亡概率下降。说 明 书 1/6 页
3
CN 114334159 B
3
专利 一种术后风险预测自然语言数据增强模型及方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:46:47上传分享