专利基于多模态融合的医学影像报告生成方法及装置 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210836966.3 (22)申请日 2022.07.15 (71)申请人北京大学地址 100871 北京市海淀区颐和园路5号申请人北京大学第一医院 (72)发明人黄雨　李航　徐德轩　金芝　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 专利代理师乔慧 (51)Int.Cl. G16H 15/00(2018.01) G06V 10/80(2022.01) G16H 30/00(2018.01) (54)发明名称基于多模态融合的医学影像报告生成方法及装置 (57)摘要本发明提供一种基于多模态融合的医学影像报告生成方法及装置，所述方法包括：构建医学先验知识图谱，并获取所述医学先验知识图谱中每个节点的初始特征向量；将所述医学先验知识图谱和所述医学先验知识图谱中每个节点的初始特征向量输入到图编码器中，得到图嵌入向量；将医学影像输入到不包括线性层的图像编码器中，得到视觉特征序列；采取协同注意力机制，对所述图嵌入向量和所述视觉特征序列进行多模态融合，得到经过注意力重新赋权的图像序列；将所述经过注意力重新赋权的图像序列输入到记忆驱动Transformer模型中，生成医学影像报告。本发明可以提高医学影像报告生成的准确性和可靠性。权利要求书4页说明书15页附图4页 CN 115331769 A 2022.11.11 CN 115331769 A 1.一种基于多模态融合的医学影像报告生成方法，其特征在于，包括：构建医学先验知识图谱，并获取所述医学先验知识图谱中每个节点的初始特征向量；将所述医学先验知识图谱和所述医学先验知识图谱中每个节点的初始特征向量输入到图编码器中，得到图嵌入向量；将医学影像输入到不包括线性层的图像编码器中，得到视觉特征序列；采取协同注意力机制，对所述图嵌入向量和所述视觉特征序列进行多模态融合，得到经过注意力重新赋权的图像序列；将所述经过注意力重新赋权的图像序列输入到记忆驱动Transformer模型中，生成医学影像报告。 2.根据权利要求1所述的基于多模态融合的医学影像报告生成方法，其特征在于，所述构建医学先验知识图谱，包括：获取若干无标记的医学影像报告文本；采用命名实体识别算法，从所述若干无标记的医学影像报告文本中提取若干医学实体；采用聚类算法对所述若干医学实体进行降维；以降维后的医学实体为节点，以降维后的医学实体之间的关系为边，构建医学先验知识图谱。 3.根据权利要求1所述的基于多模态融合的医学影像报告生成方法，其特征在于，所述获取所述医学先验知识图谱中每个节点的初始特征向量，包括：针对所述医学先验知识图谱的每个节点，通过词嵌入模型对所述节点进行初始化，得到所述节点的初始特征向量。 4.根据权利要求1所述的基于多模态融合的医学影像报告生成方法，其特征在于，所述将所述医学先验知识图谱和所述医学先验知识图谱中每个节点的初始特征向量输入到图编码器中，得到图嵌入向量，包括：构建图编码器：其中，表示所述医学先验知识图谱的邻接矩阵，所述邻接矩阵附带指向自身节点的边，表示所述医学先验知识图谱的初始特征向量，所述医学先验知识图谱的初始特征向量是所述医学先验知识图谱中各个节点的初始特征向量经过拼接得到的，表示第k 层的图卷积特征向量，表示第k+1层的图卷积特征向量， D＝∑iDi，表示所述医学先验知识图谱的邻接矩阵的第i 行第j列的元素， W(k)表示可训练的权重矩阵， GC()表示卷积函数， σ()表示激活函数， Dropout()表示随机丢弃函数， BN()表示批归一化函数；权　利　要　求　书 1/4 页 2 CN 115331769 A 2将所述医学先验知识图谱和所述医学先验知识图谱中每个节点的初始特征向量输入到所述图编码器中，得到最后一层的图卷积特征向量，作为图嵌入向量。 5.根据权利要求1所述的基于多模态融合的医学影像报告生成方法，其特征在于，所述将医学影像输入到不包括线性层的图像编码器中，得到视觉特征序列，包括：将医学影像输入到不包括线性层的图像编码器中，得到四维的视觉特征矩阵；将所述四维的视觉特征矩阵变形为三维的视觉特征矩阵；将所述三维的视觉特征矩阵转换成视觉特征序列。 6.根据权利要求1所述的基于多模态融合的医学影像报告生成方法，其特征在于，所述采取协同注意力机制，对所述图嵌入向量和所述视觉特征序列进行多模态融合，得到经过注意力重新赋权的图像序列，包括：计算所述图嵌入向量和所述视觉特征序列之间的亲和矩阵；通过所述亲和矩阵，学习所述图嵌入向量和所述视觉特征序列之间的注意力映射；基于所述注意力映射计算注意力权值向量；基于所述视觉特征序列和所述注意力权值向量，计算经过注意力重新赋权的图像序列。 7.根据权利要求6所述的基于多模态融合的医学影像报告生成方法，其特征在于，所述计算所述图嵌入向量和所述视觉特征序列之间的亲和矩阵，包括：通过以下表达式计算所述图嵌入向量和所述视觉特征序列之间的亲和矩阵：其中， C表示亲和矩阵， GE表示图嵌入向量， IE表示视觉特征序列， Wb表示权重矩阵。 8.根据权利要求6所述的基于多模态融合的医学影像报告生成方法，其特征在于，所述通过所述亲和矩阵，学习所述图嵌入向量和所述视觉特征序列之间的注意力映射，包括：通过以下表达式学习所述图嵌入向量和所述视觉特征序列之间的注意力映射： Fi＝tanh(WiIE+(WgGE)C) 其中， Fi表示通过亲和矩阵学习所述图嵌入向量和所述视觉特征序列的输出结果， Wi和 Wg均表示可训练的权重矩阵， C表示亲和矩阵， GE表示图嵌入向量， IE表示视觉特征序列。 9.根据权利要求6所述的基于多模态融合的医学影像报告生成方法，其特征在于，所述基于所述注意力映射计算注意力权值向量，包括：通过以下表达式计算注意力权值向量：其中， ai表示注意力权值向量， wfi表示可训练的权重矩阵， Fi表示注意力映射结果。 10.根据权利要求6所述的基于多模态融合的医学影像报告生成方法，其特征在于，所述基于所述视觉特征序列和所述注意力权值向量，计算经过注意力重新赋权的图像序列，包括：通过以下表达式计算经过注意力重新赋权的图像序列：其中，表示经过注意力重新赋权的图像序列， x1,2,…,R表示视觉特征序列中的元素，权　利　要　求　书 2/4 页 3 CN 115331769 A 3

专利 基于多模态融合的医学影像报告生成方法及装置

专利基于多模态融合的医学影像报告生成方法及装置