(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210780208.4 (22)申请日 2022.07.04 (71)申请人 浩睿智源 (山 东) 人工智能有限公司 地址 250101 山东省济南市中国(山 东)自 由贸易试验区济南片区舜泰北路933 号博晶大厦15 02号 (72)发明人 王聪聪 隋金雁 张继洲 刘得成  孙保林 马佳霖 邢奥林 王明晗  陶可猛  (74)专利代理 机构 山东瑞宸知识产权代理有限 公司 37268 专利代理师 于晓丽 (51)Int.Cl. A61B 5/16(2006.01) A61B 5/00(2006.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 20/40(2022.01) G16H 30/20(2018.01) G16H 50/20(2018.01) (54)发明名称 基于多模态数据融合的抑郁症筛查方法、 系 统及存储介质 (57)摘要 本发明涉及基于多模态数据融合的抑郁症 筛查方法、 系统及存储介质, 其包括采集被检测 者的视频数据、 音频数据以及文本数据; 提取视 频数据的视频低级描述符, 通过视频低级描述符 的深层特征得到视频特征; 提取音频数据的音 频 低级描述符, 通过音 频低级描述符的深层特征得 到音频特征; 将文本数据转为词嵌入向量, 对词 嵌入向量进行提取得到文本特征; 对提取的视频 特征、 音频特征和文本特征进行融合, 获得融合 特征; 将融合特征输入到CNN分类网络, 输出抑郁 症分类等级。 本发明通过提取被检测者的音频、 视频和文本多模态融合特征, 从而实现音频、 视 频和文本多模态下的抑郁症自动检测, 提高了抑 郁症的筛查结果的精度和提高了抑郁症的检测 效率。 权利要求书2页 说明书8页 附图3页 CN 115153547 A 2022.10.11 CN 115153547 A 1.基于多模态数据融合的抑郁症筛查方法, 其特 征在于: 所述方法包括以下步骤: 采集被检测者的视频 数据、 音频 数据以及文本数据, 形成样本集; 提取所述样本集中的视频数据的视频低级描述符, 通过所述视频低级描述符的深层特 征得到视频特征; 提取所述样本集中的音频数据的音频低级描述符, 通过所述音频低级描述符的深层特 征得到音频 特征; 将所述样本集中的文本数据转为词嵌入向量, 对所述词嵌入向量进行提取得到文本特 征; 对提取得到的视频 特征、 音频特征和文本特 征进行融合, 获得融合特 征; 将所述融合特 征输入到 CNN分类网络, 输出抑郁症分类等级。 2.根据权利要求1所述的基于多模态数据融合的抑郁症筛查方法, 其特征在于: 所述提 取所述样本集中的视频数据的视频低级描述符, 通过所述视频低级描述符的深层特征得到 视频特征步骤具体包括: 对所述视频 数据的视频低级 描述符进行 预处理得到视频结构化数据; 通过ResNet作为特 征提取模型对视频 结构化数据进行深层特 征提取, 得到 视频特征; 所述提取所述样本集中的音频数据的音频低级描述符, 通过所述音频低级描述符的深 层特征得到音频 特征步骤具体包括: 通过ResNet作为特 征提取模型对视频 结构化数据进行深层特 征提取, 得到音频 特征; 其中, 在所述特 征提取模块中引入残差网络将连乘的梯度求 导转为连加。 3.根据权利要求1所述的基于多模态数据融合的抑郁症筛查方法及系统, 其特征在于: 将所述样本集中的文本数据转为词嵌入向量, 对所述词嵌入向量进行提取得到文本特征的 步骤具体包括: 对所述文本数据进行分类, 对所述文本数据中出现的数字和只出现一 次的词语进行清 理, 按照词语出现的次数排序建立抑郁症筛查的词典, 并对词典进行编码; 利用所述词典将输入的所述文本数据进行固定长度的One ‑hot编码, 通过Embedding层 将所述文本数据转 为词嵌入向量; 将所述词嵌入向量作为文本特征提取模型Bi ‑LSTM的输入, 实现文本特征提取模型对 上下文特征信息的提取, 得到文本特 征。 4.根据权利要求1所述的基于多模态数据融合的抑郁症筛查方法, 其特征在于: 获得所 述融合特 征包括以下步骤: 将提取得到的视频特征、 音频特征和文本特征进行标准化, 将标准化的特征进行集成 形成新的特 征映射; 利用自注意力机制对标准 化后的特 征进行加权, 得到融合特 征。 5.根据权利要求5所述的基于多模态数据融合的抑郁症筛查方法, 其特征在于: 对所述 视频特征进行标准化的步骤, 具体包括: 以帧间隙0.1 ‑0.5s为单位对视频 数据进行采样; 提取视频 数据中置信度为1的数据; 利用preprocessing.scale()函数对视频数据中的每列数据通过减去均值, 除去方差 将所有数据聚集在均值 为0, 方差为1 实现视频 数据的标准 化;权 利 要 求 书 1/2 页 2 CN 115153547 A 2利用pad_ sequences()函数对 标准化后的视频数据序列长度大于 设定长度的序列进 行 截短, 对小于设定 长度的序列进行 添0补长, 使视频 数据长度统一 为设定长度。 6.根据权利要求5所述的基于多模态数据融合的抑郁症筛查方法, 其特征在于: 对所述 音频特征进行标准化的步骤, 具体包括: 根据被测者文本数据记录开始和结束时间提取被测者的音频数据的低级描述符, 去除 非被测试者的音频 数据; 利用preproces sing.scale()函数实现对音频 数据标准 化; 利用pad_ sequences()函数对 标准化后的音 频数据序列长度大于 设定长度的序列进 行 截短, 对小于设定 长度的序列进行 添0补长, 使 音频数据长度统一 为设定长度。 7.根据权利要求5所述的基于多模态数据融合的抑郁症筛查方法, 其特征在于: 将文本 数据进行 标准化的方法包括以下步骤: 通过句子嵌入将被测者心理状态描述的句子转 为文本向量; 利用pad_sequences()函数对文本向量大于设定长度的序列进行截短, 对小于设定长 度的序列进行 添0补长, 使 文本数据长度统一 为设定长度。 8.根据权利要求1所述的基于多模态数据融合的抑郁症筛查方法, 其特征在于: 构建所 述CNN分类网络包括以下步骤: 设定训练参数和内容损失函数, 构建初始CN N分类网络; 采集所述融合特 征构建成训练样本集, 输入到初始CN N分类网络进行迭代训练; 调整所述训练参数直至所述内容损失函数降低至预设最小阈值, 得到 CNN分类网络 。 9.基于多模态数据融合的抑郁症筛查系统, 其特 征在于, 包括: 数据采集模块, 用于采集被测者的音频 数据、 视频 数据, 并形成文本数据; 视频数据特征提取模块: 用于对视频数据进行低级特征描述符进行提取, 将视频数据 转为视频结构化数据, 对视频 结构化数据进行深层特 征提取得到视频特征; 音频数据特征提取模块: 用于对音频数据进行低级特征描述符进行提取, 将音频数据 转为音频结构化数据, 对音频 结构化数据进行深层特 征提取得到音频 特征; 文本数据特征提取模块: 将所述文本数据转为词嵌入向量, 对所述词嵌入向量进行提 取得到文本特 征; 特征融合和分类预测模块: 对获得视频特征、 音频特征和文本特征进行融合, 得到 融合 特征, 将融合特 征输入到最优CN N分类网络 输出被测者的抑郁症等级。 10.一种计算机可读存储介质, 其特征在于: 存储有能够被处理器加载并执行如权利要 求1‑8中任一种方法中的计算机程序。权 利 要 求 书 2/2 页 3 CN 115153547 A 3

.PDF文档 专利 基于多模态数据融合的抑郁症筛查方法、系统及存储介质

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多模态数据融合的抑郁症筛查方法、系统及存储介质 第 1 页 专利 基于多模态数据融合的抑郁症筛查方法、系统及存储介质 第 2 页 专利 基于多模态数据融合的抑郁症筛查方法、系统及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:29:55上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。