专利基于跨模态transformer的多模态焦虑症检测方法和系统 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210282239.7 (22)申请日 2022.03.22 (71)申请人合肥工业大学地址 230009 安徽省合肥市包河区屯溪路 193号 (72)发明人孙晓　江月琪　张梓洋　汪萌　 (74)专利代理机构北京久诚知识产权代理事务所(特殊普通合伙) 11542 专利代理师王云海 (51)Int.Cl. G16H 50/20(2018.01) A61B 5/16(2006.01) G06F 40/30(2020.01) G06N 3/02(2006.01) G06V 40/16(2022.01)G06V 40/18(2022.01) G06V 40/20(2022.01) G10L 15/26(2006.01) G10L 25/63(2013.01) (54)发明名称基于跨模态tran sformer的多模态焦虑症检测方法和系统 (57)摘要本发明提供一种基于跨模态tran sformer的多模态焦虑症检测方法、系统、存储介质和电子设备，涉及焦虑症检测技术领域。本发明中，采集用户的就诊视频，就诊视频由医生就汉密顿焦虑量表对用户进行提问时录制；根据就诊视频，获取视觉特征；从就诊视频提取音频数据，根据音频数据，获取语音特征；将音频数据进行转录标注获取文本数据，根据文本数据，取文本特征；根据视觉特征、语音特征、文本特征，采用跨模态 transformer模型预测该用户的焦虑程度结果。数据采集结合了具有良好应用信度的汉密顿焦虑量表，全面采集了视频模态、音频模态、文本模态的数据，以及考虑了跨模态特征信息，补充了不同模态之间的潜在联系，用于对用户焦虑症状进行刻画评估，诊断结果更准确。权利要求书4页说明书11页附图1页 CN 114898860 A 2022.08.12 CN 114898860 A 1.一种基于跨模态 transformer的多模态焦虑症检测方法，其特征在于，包括：采集用户的就诊视频，所述就诊视频由医生就汉密顿焦虑量表对用户进行提问时录制；根据所述就诊视频，获取视觉特征；从所述就诊视频提取音频数据，根据所述音频数据，获取语音特征；将所述音频数据进行转录标注获取文本数据，根据所述文本数据，取文本特征；根据所述视觉特征、语音特征、文本特征，采用预先构建的跨模态transformer模型预测该用户的焦虑程度结果。 2.如权利要求1所述的多模态焦虑症检测方法，其特征在于，所述视觉特征包括人脸关键点二值图、复杂情绪序列、肢体活跃度序列以及注视角热力图中的一种或者几种任意组合；获取过程包括：采用Openface工具包对所述就诊视频进行抽帧，并对每一帧中的的用户进行人脸检测和人脸对齐，提取出2D人脸关键点和对齐后的人脸图片，将人脸关键点绘制在纯黑色背景上获取所述人脸关键点二值图；将对齐后的人脸图片输入emonet模型，对用户的效价和唤醒二维情绪进行预测，得到基础情绪，再通过预设的VA环形模型将基础情绪映射为复杂情绪向量，获取所述复杂情绪序列；采用飞桨框架的实时关键点检测模型提取用户的身体关键点，将身体关键点坐标转化为向量，分别计算鼻子、四肢向量的变化模长，组成所述肢体活跃度序列；采用Openface工具包提取用户的视线、头部姿态特征，将提取出的特征转换成眼睛凝视序列，并根据眼睛凝视序列得到热力图的边界和中心点，去除遍历中心点最远的部分点后，使用八邻域法将眼睛凝视序列转换成所述注视角热力图。 3.如权利要求1或者2所述的多模态焦虑症检测方法，其特征在于，所述根据所述音频数据，获取语音特征，包括：首先对所述音频数据进行了文本转录，标注了音频中每一句话的说话角色、起止时间、持续时间、文本内容；再根据标注的起止时间将录音中用户回答医生的语音数据切分出来；最终采用开源工具openSMI LE提取所述语音特征。 4.如权利要求3所述的多模态焦虑症检测方法，其特征在于，所述根据所述文本数据，取文本特征，包括：预先根据回答信息的有效性构建停止词典；根据所述停止词典清洗了数据，获取包含有效信息的文本内容；采用Chinese‑roBerta模型将文本内容转换为文本特征。 5.如权利要求4所述的多模态焦虑症检测方法，其特征在于，所述根据所述视觉特征、语音特征、文本特征，采用预先构建的跨模态transformer模型预测该用户的焦虑程度结果，包括： S51、将所述视觉特征、语音特征、文本特征，分别输入三个独立卷积层中，获取各模态信息对应的且维度相同的特征序列数据；权　利　要　求　书 1/4 页 2 CN 114898860 A 2其中，为特征序列数据； X为输入的原始特征数据； L， V， A分别代表文本模态、视觉模态、语音模态； dk为卷积层的卷积核大小； S52、根据所述特征序列数据，获取各模态信息对应的位置编码信息；其中， PE[i， e]代表位置[i， e]的位置编码信息， e＝2j或2j+1； S53、融合各模态信息对应的所述特征序列和位置编码信息，并送到所述跨模态 transformer模型中； ZA、ZL、ZV分别表示音频信息、文本信息、视频信息的融合信息；分别为各模态信息的位置编码信息；分别为各模态信息对应的特征序列数据；然后两两计算所述音频信息、文本信息、视频信息的融合信息之间的跨模态注意力，获取任意两个模态特征分别映射到剩余一个模态特征空间中的信息和 S54、映射到同一个模态特征空间的信息两两拼接起来，连接后的信息为： S55、将CA、 CL、 CV分别送入三个transformer以编码信息，编码结束输出三个序列信息 S56、分别提取所述的最后一个元素cA、 cV、 cL并连接到一起，得到最后将通过全连接层输出该用户的焦虑程度的预测结果。 6.如权利要求5所述的模态焦虑症检测方法，其特征在于，所述S53中，将所述音频特征、视觉特征分别映射到文本模态特征空间中的信息的过程包括：权　利　要　求　书 2/4 页 3 CN 114898860 A 3

专利 基于跨模态transformer的多模态焦虑症检测方法和系统

专利基于跨模态transformer的多模态焦虑症检测方法和系统