(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210401444.0 (22)申请日 2022.04.18 (71)申请人 哈尔滨理工大 学 地址 150080 黑龙江省哈尔滨市南岗区学 府路52号 (72)发明人 庄全胜 吕鑫淼  (51)Int.Cl. G10L 25/63(2013.01) G10L 25/30(2013.01) G10L 25/03(2013.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06F 40/30(2020.01) (54)发明名称 一种基于深度残差收缩网络的多模态情感 识别方法 (57)摘要 一种基于深度残差收缩网络的多模态情感 识别方法, 属于语音情感识别方法的领域。 现有 的情感识别方法 受到周围环境噪音的影 响, 在提 取特征的时候由于特征冗余, 存在过拟合的问 题。 本发明将语谱图特征送入加入注 意力机制的 深度残差收缩网络, 去除语谱图特征的冗余特 征, 之后通过深度神经网络进行深层次特征处 理, 之后进行情感识别分类; 将文本信号送入 XLnet模型进行特征处理, 之后经过深度神经网 络进行深层次特征处理, 进行文本情感识别; 得 到的两个结果进行决策层融合, 得到情感识别结 果。 本发明通过提高情感分析模型预测的准确 性, 以及将深度残差收缩网络运用到声谱图的特 征选择上, 提高情感识别方法的准确性。 权利要求书2页 说明书7页 附图1页 CN 114758676 A 2022.07.15 CN 114758676 A 1.一种基于深度残差收缩网络的多模态情感识别方法, 其特征在于: 所述方法通过以 下步骤实现: 步骤一、 将语音原始信号处理得到语谱图, 将语谱图特征送入加入了注意力机制的深 度残差收缩网络, 以去除语谱图特 征的冗余特 征; 步骤二、 将去 除了冗余特征的语谱图特征通过深度神经网络进行深层次特征处理, 之 后进行情感识别分类; 步骤三、 将文本信号送入XLnet模型进行特征处理, 之后经过深度神经网络进行深层次 特征处理, 进行文本情感识别; 步骤四、 步骤二和步骤三得到的两个结果进行决策层融合, 得到情感识别结果。 2.根据权利要求1所述的一种基于深度残差收缩网络的多模态情感识别方法, 其特征 在于: 步骤一所述的将语谱图特征送入加入了注意力机制的深度残差 收缩网络, 以去除语 谱图特征的冗余特 征的过程 为, 步骤一一、 设计深度残差收缩网络: 深度残差收缩网络由残差收缩单元堆叠而成, 残差收缩单元主要用来获得阈值, 使用 绝对运算和GAP层将特征图简化为一维矢量, 然后传播到两层FC网络中; 其中, FC网络中的 第二层具有一个以上的神经 元, 并且神经 元的数量 等于输入特征图的通道数; 使用下式将FC网络的输出缩放到(0,1)的范围: 其中, z代 表神经元的特征, α 是缩放系数; 那么, 阈值计算如下式所示: 其中, τ是代表求得的阈值, i、 j、 c分别是特征图的宽度, 高度和通道的索引; 软阈值化 的阈值不仅需要为正, 而且也不能太大; 如果阈值大于特征图的最大绝对值, 则软阈值输出 将为零; 步骤一二、 软阈值 化过程: 通过软阈值函数对特征进行转化的过程称为软阈值化, 其实质是将接近0的特征转换 为0, 依旧保留正负特征; 软阈值函数如下公式所示; 其中, x是输入特征, y是输出特征, thr 是阈值; 对输入数据x进行求 导, 可得公式如下, 软阈值 函数的导数为1或0; 利用导数的特点和不同的数据形式, 软阈值的过程也可表示为下式, 其中, x表示需要 进行软阈值化的输入数据, thr是 学习到的阈值, sign(x)是符号 函数; soft=(x,a)=sign(x)*max{|x| ‑thr,0}权 利 要 求 书 1/2 页 2 CN 114758676 A 2如下公式, 当x>0时为1, 当x< 0时为‑1; max是求 二者的最大值; 将软阈值 化和深度学习方法结合消除噪声并构建高区分性特 征; 步骤一三、 构建自注意力 机制, 模型自行学习输入信息的权值分配, 通过计算向量之间 的关联性进行打 分; 首先, 将向量矩阵Q与向量矩阵K的各维度向量进行运算得出两者之间的相似度, 通过 对这些数值计算得 出相应的权 重值; 然后, 通过SoftMax函数对计算出的权 重进行归一 化处理; 最后, 将权值与矩阵V中各个维度的向量加权求和得出最后的注意力矩阵; 当K=V=Q 时, 即为自注意力机制; 自注意力机制的计算公式如下: Q=(q1,q2, …,ql)∈Rn ×d、 K=(k1,k2, …,kl)∈Rn ×d、 V=(v1,v2, …,vn)∈Rn ×d, d 表示单个向量的维度, n为输入向量的个数, d和n均是由输入矩阵X进行线性变换得到的; KT 表示K的转置; dk是一个用于调节内积的维度为 k的矩阵; 输入序列线性映射过程公式如下: 其中Wq、 W k、 Wv为三个线性映射 参数矩阵, 由模型在训练中自行 学习得出。 3.根据权利要求1或2所述的一种基于深度残差收缩 网络的多模态情 感识别方法, 其特 征在于: 所述的将文本信号送入 XLnet模型进行特征处理, 之后经过深度神经网络进 行深层 次特征处理, 进行文本情感识别的过程 为: 设计基于融合情感词典的XLNet预训练模型, 将情感词典匹配得到的情感词与原文拼 接, 再采用XLNet模型充分学习上下文语义信息, 同时, 设计基于LSTM+Attention网络层的 XLNet预训练模型, 在采用XLNet预训练模型学习词向量的基础上, 添加LSTM+Attention混 合的网络层, 通过 该网络层对词向量进一 步学习并加强特殊词向量的权值。权 利 要 求 书 2/2 页 3 CN 114758676 A 3

.PDF文档 专利 一种基于深度残差收缩网络的多模态情感识别方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度残差收缩网络的多模态情感识别方法 第 1 页 专利 一种基于深度残差收缩网络的多模态情感识别方法 第 2 页 专利 一种基于深度残差收缩网络的多模态情感识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:39上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。