(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210401444.0
(22)申请日 2022.04.18
(71)申请人 哈尔滨理工大 学
地址 150080 黑龙江省哈尔滨市南岗区学
府路52号
(72)发明人 庄全胜 吕鑫淼
(51)Int.Cl.
G10L 25/63(2013.01)
G10L 25/30(2013.01)
G10L 25/03(2013.01)
G06N 3/08(2006.01)
G06N 3/04(2006.01)
G06F 40/30(2020.01)
(54)发明名称
一种基于深度残差收缩网络的多模态情感
识别方法
(57)摘要
一种基于深度残差收缩网络的多模态情感
识别方法, 属于语音情感识别方法的领域。 现有
的情感识别方法 受到周围环境噪音的影 响, 在提
取特征的时候由于特征冗余, 存在过拟合的问
题。 本发明将语谱图特征送入加入注 意力机制的
深度残差收缩网络, 去除语谱图特征的冗余特
征, 之后通过深度神经网络进行深层次特征处
理, 之后进行情感识别分类; 将文本信号送入
XLnet模型进行特征处理, 之后经过深度神经网
络进行深层次特征处理, 进行文本情感识别; 得
到的两个结果进行决策层融合, 得到情感识别结
果。 本发明通过提高情感分析模型预测的准确
性, 以及将深度残差收缩网络运用到声谱图的特
征选择上, 提高情感识别方法的准确性。
权利要求书2页 说明书7页 附图1页
CN 114758676 A
2022.07.15
CN 114758676 A
1.一种基于深度残差收缩网络的多模态情感识别方法, 其特征在于: 所述方法通过以
下步骤实现:
步骤一、 将语音原始信号处理得到语谱图, 将语谱图特征送入加入了注意力机制的深
度残差收缩网络, 以去除语谱图特 征的冗余特 征;
步骤二、 将去 除了冗余特征的语谱图特征通过深度神经网络进行深层次特征处理, 之
后进行情感识别分类;
步骤三、 将文本信号送入XLnet模型进行特征处理, 之后经过深度神经网络进行深层次
特征处理, 进行文本情感识别;
步骤四、 步骤二和步骤三得到的两个结果进行决策层融合, 得到情感识别结果。
2.根据权利要求1所述的一种基于深度残差收缩网络的多模态情感识别方法, 其特征
在于: 步骤一所述的将语谱图特征送入加入了注意力机制的深度残差 收缩网络, 以去除语
谱图特征的冗余特 征的过程 为,
步骤一一、 设计深度残差收缩网络:
深度残差收缩网络由残差收缩单元堆叠而成, 残差收缩单元主要用来获得阈值, 使用
绝对运算和GAP层将特征图简化为一维矢量, 然后传播到两层FC网络中; 其中, FC网络中的
第二层具有一个以上的神经 元, 并且神经 元的数量 等于输入特征图的通道数;
使用下式将FC网络的输出缩放到(0,1)的范围:
其中, z代 表神经元的特征, α 是缩放系数; 那么, 阈值计算如下式所示:
其中, τ是代表求得的阈值, i、 j、 c分别是特征图的宽度, 高度和通道的索引; 软阈值化
的阈值不仅需要为正, 而且也不能太大; 如果阈值大于特征图的最大绝对值, 则软阈值输出
将为零;
步骤一二、 软阈值 化过程:
通过软阈值函数对特征进行转化的过程称为软阈值化, 其实质是将接近0的特征转换
为0, 依旧保留正负特征; 软阈值函数如下公式所示; 其中, x是输入特征, y是输出特征, thr
是阈值;
对输入数据x进行求 导, 可得公式如下, 软阈值 函数的导数为1或0;
利用导数的特点和不同的数据形式, 软阈值的过程也可表示为下式, 其中, x表示需要
进行软阈值化的输入数据, thr是 学习到的阈值, sign(x)是符号 函数;
soft=(x,a)=sign(x)*max{|x| ‑thr,0}权 利 要 求 书 1/2 页
2
CN 114758676 A
2如下公式, 当x>0时为1, 当x< 0时为‑1; max是求 二者的最大值;
将软阈值 化和深度学习方法结合消除噪声并构建高区分性特 征;
步骤一三、 构建自注意力 机制, 模型自行学习输入信息的权值分配, 通过计算向量之间
的关联性进行打 分;
首先, 将向量矩阵Q与向量矩阵K的各维度向量进行运算得出两者之间的相似度, 通过
对这些数值计算得 出相应的权 重值;
然后, 通过SoftMax函数对计算出的权 重进行归一 化处理;
最后, 将权值与矩阵V中各个维度的向量加权求和得出最后的注意力矩阵; 当K=V=Q
时, 即为自注意力机制; 自注意力机制的计算公式如下:
Q=(q1,q2, …,ql)∈Rn ×d、 K=(k1,k2, …,kl)∈Rn ×d、 V=(v1,v2, …,vn)∈Rn ×d, d
表示单个向量的维度, n为输入向量的个数, d和n均是由输入矩阵X进行线性变换得到的; KT
表示K的转置; dk是一个用于调节内积的维度为 k的矩阵; 输入序列线性映射过程公式如下:
其中Wq、 W k、 Wv为三个线性映射 参数矩阵, 由模型在训练中自行 学习得出。
3.根据权利要求1或2所述的一种基于深度残差收缩 网络的多模态情 感识别方法, 其特
征在于: 所述的将文本信号送入 XLnet模型进行特征处理, 之后经过深度神经网络进 行深层
次特征处理, 进行文本情感识别的过程 为:
设计基于融合情感词典的XLNet预训练模型, 将情感词典匹配得到的情感词与原文拼
接, 再采用XLNet模型充分学习上下文语义信息, 同时, 设计基于LSTM+Attention网络层的
XLNet预训练模型, 在采用XLNet预训练模型学习词向量的基础上, 添加LSTM+Attention混
合的网络层, 通过 该网络层对词向量进一 步学习并加强特殊词向量的权值。权 利 要 求 书 2/2 页
3
CN 114758676 A
3
专利 一种基于深度残差收缩网络的多模态情感识别方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:45:39上传分享