专利一种术后风险预测自然语言数据增强模型及方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210256548.7 (22)申请日 2022.03.16 (65)同一申请的已公布的文献号申请公布号 CN 114334159 A (43)申请公布日 2022.04.12 (73)专利权人四川大学华西医院地址 610041 四川省成都市武侯区国学巷 37号专利权人成都信息工程大学 (72)发明人郝学超　王亚强　杨潇　朱涛　舒红平　 (74)专利代理机构北京元本知识产权代理事务所(普通合伙) 11308 专利代理师曹广生 (51)Int.Cl. G16H 50/30(2018.01) G16H 50/70(2018.01) G06F 40/30(2020.01) G06F 40/284(2020.01) G06F 16/35(2019.01)(56)对比文件 CN 109754852 A,2019.0 5.14 CN 113688600 A,2021.1 1.23 CN 112732916 A,2021.04.3 0 CN 113517046 A,2021.10.19 CN 113919344 A,2022.01.11 CN 113761936 A,2021.12.07 CN 113255908 A,2021.08.13 CN 109299976 A,2019.02.01 US 2009247083 A1,20 09.10.01 US 2021109958 A1,2021.04.15 Laila Rasmy等.Med-BERT: pretrai ned contextual ized embed dings on largescale structured electro nic health records for disease predicti on. 《npj Digital Medicine》 .2021, Alfred_lv.利用BERT 模型解析电子病历. 《https://segmentfault.com/a/ 1190000037711872》 .2020, 审查员殷飞 (54)发明名称一种术后风险预测自然语言数据增强模型及方法 (57)摘要本发明公开了一种术后风险预测自然语言数据增强模型及方法，将自然语言数据通过在医学领域数据集训练下得到的预训练模型 MedBERT，通过这样的方式将其转换为向量。将表格数据中的离散型变量也通过实体嵌入的方式也转换为向量，而对于这两者不同类型的数据，选择了多头自注意力的方式来将其融合。注意力机制算法将特征之间的关联性提取得到，筛选出重要特征进行预测，从而能够将自然语言数据里的关键信息与表格数据的关键信息关联起来，达到了多类型信息融合的目的，本发明首次地将自然语言数据纳入到了对术后风险预测的任务中来。权利要求书1页说明书6页附图1页 CN 114334159 B 2022.06.17 CN 114334159 B 1.一种术后风险预测自然语言数据增强装置，其特征在于，所述装置包括：离散化层，被配置为：将围术期下的表格数据的连续型特征转化为分类型特征；列嵌入层，被配置为：将围术期下的表格数据的离散型特征转换为离散型特征向量，以及将所述分类型特征转换为分类型特征向量，获得向量嵌入，其中指代离散型特征向量和分类型特征向量，的范围属于1到m + n， m为连续型特征数量， n为离散型特征数量；文本嵌入层，被配置为：基于术前诊断文本上下文来确定词嵌入；并将所述词嵌入通过一个平均池化的方式，得到一个完整的句子嵌入；特征交互层，被配置为：通过拼接将所述向量嵌入以及所述句子嵌入组合成一组向量；将该组向量映射成三个向量矩阵，并将所述三个向量矩阵输入到注意力层中来获取两两特征之间注意力权重，得到一个语义向量；多层感知机，被配置为：根据所述语义向量来得到术后风险的预测结果。 2.根据权利要求1所述的装置，其特征在于，所述三个向量矩阵分别是由查询向量、键向量和值向量组成。 3.根据权利要求1所述的装置，其特征在于，所述离散化层，被配置为：根据数值特征的最大值和最小值将连续型特征转化为分类型特征。 4.根据权利要求1所述的装置，其特征在于，所述文本嵌入层，被配置为：基于术前诊断文本，并利用预训练模型获取基于上下文语义的词嵌入，所述预训练模型的语料库根据实际的临床记录数据来调整更新。 5.一种术后风险预测自然语言数据增强方法，其特征在于，所述方法包括：将围术期下的表格数据的连续型特征转化为分类型特征；将围术期下的表格数据的离散型特征转换为离散型特征向量，以及将所述分类型特征转换为分类型特征向量，获得向量嵌入，其中指代离散型特征向量和分类型特征向量，的范围属于1到m + n， m为连续型特征数量， n为离散型特征数量；基于术前诊断文本上下文来确定词嵌入，并将所述词嵌入通过一个平均池化的方式，得到一个完整的句子嵌入；通过拼接将所述向量嵌入以及所述句子嵌入组合成一组向量；将该组向量映射成三个向量矩阵，并将所述三个向量矩阵输入到注意力层中来获取两两特征之间注意力权重，得到一个语义向量；根据所述语义向量来得到术后风险的预测结果。 6.据权利要求5所述的方法，其特征在于，所述三个向量矩阵分别是由查询向量、键向量和值向量组成。 7.根据权利要求5所述的方法，其特征在于，所述将围术期下的表格数据的连续型特征转化为分类型特征，具体包括：根据数值特征的最大值和最小值将连续型特征转化为分类型特征。 8.根据权利要求5所述的方法，其特征在于，所述获取基于上下文的词嵌入，具体包括：基于术前诊断文本，并利用预训练模型获取基于上下文语义的词嵌入，所述预训练模型的语料库根据实际的临床记录数据来调整更新。权　利　要　求　书 1/1 页 2 CN 114334159 B 2一种术后风险预测自然语言数据增强模型及方法技术领域 [0001]本发明涉及信息处理技术领域，具体的说，涉及一种术后风险预测自然语言数据增强模型及方法。背景技术 [0002]术后风险预估通常被视为一个二分类的任务。统计机器学习模型被广泛地应用来解决这个问题，例如逻辑回归（Logistic Regression， ession， LR）和极致梯度提升（eXtreme Gradient Boosting， XGBoost）。基于向量的LR方法将离散型和连续型变量都进行标准化处理后输入到模型，基于树模型的XGBo ost模型直接利用结构化的数据进行训练。 [0003]在最近的研究工作中，因为深度学习其自身的复杂的特征表达能力和预测性能，有许多研究人员开始利用深度学习来解决预测病人术后风险的问题。在这些研究当中，围术期的表格数据是主要的数据来源，它包含了患者的基本信息、实验室检查值以及许多其他的离散型和数值型特征。通常对于离散型变量的处理是进行向量化处理将其变成独热向量或者分布式向量，对于连续型则是进行一个批标准化的处理方式。最后将连续型和离散型一起拼接输入到深度神经网络中进行训练。其中连续型变量作为单纯的数值型数值并未包含医学上的语义，例如 “收缩压156 ”不能体现出高血压的语义。因此，对于连续型的处理通常会进行离散化的操作将其变为离散型变量。 [0004]但是，文本数据，例如术前诊断在目前的预测方法中没有得到充分的应用。实际上，术前诊断信息对于患者的术后风险评估相当重要。例如，术前诊断中含有 “癌”和“高危” 字样的患者相比于其他患者有更大的概率产生术后风险。为了更好地利用文本数据，通常采用词嵌入的方式来将文本数据转换为向量，而目前主流的研究方法则是采用预训练模型来获取基于上下文语义的动态词嵌入，例如BERT。为了得到整体的句子嵌入，通常采用池化方式来处理词嵌入，常用方法有平均池化、最大池化和取CLS向量。一般选取平均池化方式，因为其既快速又有效的特点。而有研究表明，不同领域数据训练得到的BERT对于不同领域的效果也不一样，用医学语料集训练得到的MedBERT在医学领域下的性能更优秀。 [0005]在不同类型的数据融合技术方面，许多简单且朴素的方法是采用直接拼接的方式。而直接拼接的向量会存在信息冗余的问题，当含有无关信息的向量具有高纬度，而含有重要信息的向量具有低纬度时，拼接他们会使得冗余的信息占据大部分，导致真正关键的重要信息被忽略。发明内容 [0006]本发明的目的在于克服背景技术所提出的技术问题，提出了一种术后风险预测自然语言数据增强模型及方法。本发明主要基于在临床医疗领域内，利用深度学习模型，采用了医疗诊断文本记录以及实验室术前检查数据来对病人的术后风险做出评估，从而决定是否要为病人安排重症监护室床位以及其他医疗资源的分配，从而有效地减轻医院的医疗负担以及使得患者因术后并发症的死亡概率下降。说　明　书 1/6 页 3 CN 114334159 B 3

专利 一种术后风险预测自然语言数据增强模型及方法

专利一种术后风险预测自然语言数据增强模型及方法