国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210282239.7 (22)申请日 2022.03.22 (71)申请人 合肥工业大 学 地址 230009 安徽省合肥市包河区屯溪路 193号 (72)发明人 孙晓 江月琪 张梓洋 汪萌 (74)专利代理 机构 北京久诚知识产权代理事务 所(特殊普通 合伙) 11542 专利代理师 王云海 (51)Int.Cl. G16H 50/20(2018.01) A61B 5/16(2006.01) G06F 40/30(2020.01) G06N 3/02(2006.01) G06V 40/16(2022.01)G06V 40/18(2022.01) G06V 40/20(2022.01) G10L 15/26(2006.01) G10L 25/63(2013.01) (54)发明名称 基于跨模态tran sformer的多模态焦虑症 检 测方法和系统 (57)摘要 本发明提供一种基于跨模态tran sformer的 多模态焦虑症检测方法、 系统、 存储介质和电子 设备, 涉及焦虑症检测技术领域。 本发明中, 采集 用户的就诊视频, 就诊视频由医生就汉密顿焦虑 量表对用户进行提问时录制; 根据就诊视频, 获 取视觉特征; 从就诊视频提取音频数据, 根据音 频数据, 获取语音特征; 将音频数据进行转录标 注获取文本 数据, 根据文本 数据, 取文本特征; 根 据视觉特征、 语音特征、 文本特征, 采用跨模态 transformer模型预测该用户的焦虑程度结果。 数据采集结合了具有良好应用信度的汉密顿焦 虑量表, 全面采集了视频模态、 音频模态、 文本模 态的数据, 以及考虑了跨模态特征信息, 补充了 不同模态之间的潜在联系, 用于对用户焦虑症状 进行刻画评估, 诊断结果更准确。 权利要求书4页 说明书11页 附图1页 CN 114898860 A 2022.08.12 CN 114898860 A 1.一种基于跨模态 transformer的多模态焦 虑症检测方法, 其特 征在于, 包括: 采集用户的就诊视频, 所述就诊视频由医生就汉密顿焦虑量表对用户 进行提问时录 制; 根据所述 就诊视频, 获取视 觉特征; 从所述就诊视频提取音频 数据, 根据所述音频 数据, 获取语音特 征; 将所述音频 数据进行转录标注获取文本数据, 根据所述文本数据, 取文本特 征; 根据所述视觉特征、 语音特征、 文本特征, 采用预先构建的跨模态transformer模型预 测该用户的焦 虑程度结果。 2.如权利要求1所述的多模态焦虑症检测方法, 其特征在于, 所述视觉特征包括人脸关 键点二值图、 复杂情绪序列、 肢体活跃度序列以及注视角热力图中的一种或者几种任意组 合; 获取过程包括: 采用Openface工具包对所述就诊视频进行抽帧, 并对每一帧中的的用户进行人脸检测 和人脸对齐, 提取出2D人脸关键点和对齐后的人脸图片, 将人脸关键点绘制在纯黑色背景 上获取所述人脸关键点 二值图; 将对齐后的人脸 图片输入emonet模型, 对用户的效价和唤醒二维情绪进行预测, 得到 基础情绪, 再通过预设的VA环形模型将基础情绪映射为复杂情绪向量, 获取所述复杂情绪 序列; 采用飞桨框架的实时关键点检测模型提取用户的身体关键点, 将身体关键点坐标转化 为向量, 分别计算鼻子、 四肢向量的变化模长, 组成所述肢体活跃度 序列; 采用Openface工具包提取用户的视线、 头部姿态特征, 将提取出的特征转换成眼睛凝 视序列, 并根据眼睛凝视序列得到热力图的边界和中心点, 去除遍历 中心点最远的部分点 后, 使用八邻域法将眼睛凝 视序列转换成所述注视角热力图。 3.如权利要求1或者2所述的多模态焦虑症检测方法, 其特征在于, 所述根据所述音频 数据, 获取语音特 征, 包括: 首先对所述音频数据进行了文本转录, 标注了音频中每一句话的说话角色、 起止时间、 持续时间、 文本内容; 再根据标注的起止时间将录音中用户回答医生的语音数据切分出来; 最终采用开源工具openSMI LE提取所述语音特 征。 4.如权利要求3所述的多模态焦虑症检测方法, 其特征在于, 所述根据所述文本数据, 取文本特 征, 包括: 预先根据回答信息的有效性构建停止词典; 根据所述停止词典清洗 了数据, 获取包 含有效信息的文本内容; 采用Chinese‑roBerta模型将文本内容 转换为文本特 征。 5.如权利要求4所述的多模态焦虑症检测方法, 其特征在于, 所述根据所述视觉特征、 语音特征、 文本特征, 采用预先构建的跨模态transformer模型预测该用户的焦虑程度结 果, 包括: S51、 将所述视觉特征、 语音特征、 文本特征, 分别输入三个独立卷积层中, 获取各模态 信息对应的且维度相同的特 征序列数据; 权 利 要 求 书 1/4 页 2 CN 114898860 A 2其中, 为特征序列数据; X为输入的原始特征数据; L, V, A分别代表文本模态、 视觉模 态、 语音模态; dk为卷积层的卷积核大小; S52、 根据所述特 征序列数据, 获取 各模态信息对应的位置编码信息; 其中, PE[i, e]代表位置[i, e]的位 置编码信息, e=2j或2j+1; S53、 融合各模态信息对应的所述特征序列和位置编码信息, 并送到所述跨模态 transformer模型中; ZA、ZL、ZV分 别 表 示 音 频 信 息 、文 本 信 息 、视 频 信 息 的 融 合 信 息 ; 分 别 为 各 模 态 信 息 的 位 置 编 码 信 息 ; 分别为各模态信息对应的特 征序列数据; 然后两两计算所述音频信 息、 文本信 息、 视频信息的融合信 息之间的跨模态注意力, 获 取 任 意 两 个 模 态 特 征 分 别 映 射 到 剩 余 一 个 模 态 特 征 空 间 中 的 信 息 和 S54、 映射到同一个模态特 征空间的信息 两两拼接起 来, 连接后的信息为: S55、 将CA、 CL、 CV分别送入三个transformer以编码信息, 编码结束输出三个序列信息 S56、 分别提取所述 的最后一个元素cA、 cV、 cL并连接到一起, 得到 最后将 通过全连接层输出 该用户的焦 虑程度的预测结果。 6.如权利要求5所述的模态焦 虑症检测方法, 其特 征在于, 所述S53中, 将所述音频特征、 视觉特征分别映射到文本模态特征空间中的信息的过程 包括:权 利 要 求 书 2/4 页 3 CN 114898860 A 3
专利 基于跨模态transformer的多模态焦虑症检测方法和系统
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:49:58
上传分享
举报
下载
原文档
(1012.9 KB)
分享
友情链接
GB-T 32924-2016 信息安全技术 网络安全预警指南.pdf
T-CESA 1220—2022 服务器管理北向接口技术要求.pdf
ISO 14064-1 2018 温室气体 第1部分 组织层面温室气体排放量和清除量量化和报告指南规范 中文.pdf
GB 29384-2012 乙酰甲胺磷原药.pdf
LLMs解决进攻性安全挑战的实证评估-2402.11814.pdf
GB-T 32234.8-2015 个人浮力设备 第8部分:附件 安全要求和试验方法.pdf
深信服 aTrust零信任技术白皮书V1.4 2022.pdf
DB13-T 5266-2020 基于岩体基本质量BQ分级法的公路隧道围岩级别快速判定技术要求 河北省.pdf
GB-T 25647-2010 电子政务术语.pdf
GB-T 33207-2016 无损检测 在役金属管内氧化皮堆积的磁性检测方法.pdf
GB-T 27513-2011 载人低压舱.pdf
GB-T 13869-2017 用电安全导则.pdf
GB-T 37338-2019 电动摩托车和电动轻便摩托车用仪表.pdf
GB-T 43206-2023 信息安全技术 信息系统密码应用测评要求.pdf
JR-T0156-2017 移动终端支付可信环境技术规范.pdf
T-CHAS 10-2-3—2018 中国医院质量安全管理 第2-3部分:患者服务 急救绿色通道.pdf
信息安全学报 社工概念演化分析 2021.pdf
JY-T 0568-2020 电感耦合等离子体质谱分析方法通则.pdf
DB31-T 862-2021 “一网通办”政务服务中心建设和运行规范 上海市.pdf
T-FAIF 001—2023 预制菜常温配送管理规范.pdf
1
/
3
17
评价文档
赞助2.5元 点击下载(1012.9 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。