专利基于文本主驱动的学习者多模态情感分析方法及装置 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210776860.9 (22)申请日 2022.07.04 (71)申请人浙江师范大学地址 321004 浙江省金华市迎宾大道68 8号 (72)发明人黄昌勤　张俊玲　李明　吴雪梅　蒋凡　涂雅欣　 (74)专利代理机构广州嘉权专利商标事务所有限公司 4 4205 专利代理师黎扬鹏 (51)Int.Cl. G06V 40/16(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称基于文本主驱动的学习者多模态情感分析方法及装置 (57)摘要本申请公开了一种基于文本主驱动的学习者多模态情感分析方法及装置，本申请提取在线课堂中有学生相关情感信息嵌入的多模态数据；对于文本模态的数据，利用语言表征预训练模型 BERT进行特征提取；对于音频和视觉模态的数据，利用LSTM来进行特征提取；利用跨模态注意力机制融合多模态信息，输出多模态特征融合的最终结果；根据最终融合结果进行情感分析。利用对比学习技术促进单模态特征编码质量，维持任务相关的模态数据独特性，保证多模态融合结果充分学习课堂中产生的多种模态数据的独特情感信息，提升在线学习环境中学习者的参与度，从而促进教学质量。权利要求书2页说明书11页附图2页 CN 115294627 A 2022.11.04 CN 115294627 A 1.基于文本主驱动的学习者多模态情感分析方法，其特征在于，所述方法包括：提取在线课堂中有学生相关情感信息嵌入的多模态数据；对于文本模态的数据，利用语言表征预训练模型BERT 进行特征提取；对于音频和视觉模态的数据，利用LSTM来进行特征提取；利用跨模态注意力机制融合多模态信息，输出多模态特征融合的最终结果；根据多模态特征融合的最终输出进行情感分析。 2.根据权利要求1所述的一种基于文本主驱动的学习者多模态情感分析方法，其特征在于，提取在线课堂中有学生相关情感信息嵌入的多模态数据，包括：通过原始视频转录出文本信息；利用OVAREP软件提取声学特征；通过面部动作编码系统提取面部动作单元；通过表情识别模型提取人脸嵌入特征。 3.根据权利要求1所述的一种基于文本主驱动的学习者多模态情感分析方法，其特征在于，利用语言表征预训练模型BERT 进行特征提取的公式为：其中， Xt表示文本模态的特征向量， BERT( ·)表示基于Transformer的语言表征预训练模型BERT，而是模型的训练参数， lt表示模态序列长度， dt表示模态特征维度。 4.根据权利要求1所述的一种基于文本主驱动的学习者多模态情感分析方法，其特征在于，利用LSTM来进行特征提取的公式为：其中， BiLSTM( ·)表示利用BiLSTM模型进行特征提取， Im表示经过预处理的模型输入， lm表示模态m的序列长度， dm表示模态m的特征维度，当m＝a时， Xm表示音频模态的特征向量，表示训练音频模态特征提取的模型参数；当m＝v时， Xm表示视觉模态的特征向量，表示训练视觉模态特征提取的模型参数。 5.根据权利要求1所述的一种基于文本主驱动的学习者多模态情感分析方法，其特征在于，利用跨模态注意力机制融合多模态信息，跨模态注意力层为CA( ·)函数，包括：其中，和是该函数的输入， L( ·)表示层标准化操作， Q,K,V分别代表查询、键和值， T为模态融合信息， dk表示模态k的特征维度。 6.根据权利要求1所述的一种基于文本主驱动的学习者多模态情感分析方法，其特征在于，输出多模态特征融合的最终结果，包括：定义以文本为中心的特征融合模块，数学式为：权　利　要　求　书 1/2 页 2 CN 115294627 A 2其中， N是TAF子模块的层数， M是TVF子模块的层数。和是TVF子模块的第i层输入，和是TAF子模块的第j层输入， lt表示模态序列长度， dt表示模态特征维度；得到多模态特征融合的最终结果，数学式包括：其中是TVF子模块的最终输出，是TAF子模块的最终输出， Zs是多模态特征融合模块的最终输出。 7.根据权利要求1所述的一种基于文本主驱动的学习者多模态情感分析方法，其特征在于，所述方法还包括：根据多模态特征融合的最终输出进行情感预测，包括：通过多层感知机进行情感极性预测，数学式包括：其中σ(·)表示ReLU激活函数， Wy是激活函数的训练参数，是最终预测的情感极性， Zs 是多模态特征融合模块的最终输出。 8.根据权利要求7所述的一种基于文本主驱动的学习者多模态情感分析方法，其特征在于，所述方法还包括：采用平均绝对误差计算情感预测损失，公式包括：其中， n是数据集中所有的样本数， yi和分别表示第i个样本的真实情感极性和预测情感极性，为情感预测损失。 9.基于文本主驱动的学习者多模态情感分析装置，其特征在于，所述装置包括：第一模块，用于提取在线课堂中有学生相关情感信息嵌入的多模态数据；第二模块，用于对于文本模态的数据，利用语言表征预训练模型BERT 进行特征提取；第三模块，用于对于音频和视觉模态的数据，利用LSTM来进行特征提取；第四模块，用于利用跨模态注意力机制融合多模态信息，输出多模态特征融合的最终结果；第五模块，用于根据多模态特征融合的最终输出进行情感分析。 10.基于文本主驱动的学习者多模态情感分析装置，其特征在于，所述装置包括：至少一个处理器；至少一个存储器，所述存储器用于存储至少一个程序；当至少一个所述程序被至少一个所述处理器执行时实现如权利要求1 ‑7中任一项所述的基于文本主驱动的学习者多模态情感分析方法。权　利　要　求　书 2/2 页 3 CN 115294627 A 3

专利 基于文本主驱动的学习者多模态情感分析方法及装置

专利基于文本主驱动的学习者多模态情感分析方法及装置