(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210729782.7
(22)申请日 2022.06.24
(71)申请人 电子科技大 学
地址 611731 四川省成 都市高新区 (西区)
西源大道 2006号
(72)发明人 徐行 蒋寻 陈智国 沈复民
宋井宽 申恒涛
(74)专利代理 机构 电子科技大 学专利中心
51203
专利代理师 曾磊
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 40/20(2022.01)
G06V 10/774(2022.01)
G06V 10/776(2022.01)G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06V 10/764(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G10L 25/27(2013.01)
G10L 25/48(2013.01)
(54)发明名称
弱监督音视频内容解析的双路层次化混合
模型的训练方法
(57)摘要
本发明公开了一种弱监督音视频内容解析
的双路层次化混合模型的训练方法, 所述弱监督
音视频内容解析的双路层次化混合模型结构包
括混合注 意力网络、 层次化上下文建模网络及模
态引导网络, 该训练方法首先使用混合注意力网
络进行模态特异化标签精炼得到不完全准确的
音频标注和视频标注; 然后利用得到的不完全准
确的音频标注和视频标注, 协同训练模态引导网
络和层次化上下文建模网络; 通过上述训练方
法, 可以得到具有较强模态分辨能力的上下文层
次化建模网络, 较好地对音视频进行内容解析;
模态引导网络强化了模态区分能力; 本发明采用
的双路层次化混合模型来解决弱监督音视频内
容解析任务, 进一步提高了模型对不同模态的适
应和理解能力。
权利要求书5页 说明书14页 附图2页
CN 115131700 A
2022.09.30
CN 115131700 A
1.一种弱监督音视频内容解析的双路层次化混合模型的训练方法, 其特征在于, 所述
弱监督音视频内容解析的双路层次化混合模型结构包括混合注意力网络、 层次化上下文建
模网络及 模态引导网络, 其中, 混合注意力网络用于模态特异 化标签精炼; 层次化上下文建
模网络用于计算输入有声视频所含有的视觉、 听觉、 视听联合的事件定位结果; 模态引导网
络用于提升层次化上 下文建模网络的模态辨别能力; 该训练方法包括以下步骤:
步骤1: 获取音视频数据集, 并将其按预设比例划分为训练集、 验证集、 测试集, 其中, 训
练集仅存在弱监督标注信息, 即所提供的用于训练的有声视频中仅标注其含有的动作或事
件种类, 没有详细的模态种类标注和时刻标注数据;
步骤2: 将所述音视频数据集的训练集、 验证集、 测试集中的有声视频拆分为音频数据
和视频数据, 并将音频 数据和视频 数据均划分为时序长度为1秒的片段;
步骤3: 加载预训练的2D卷积神经网络和3D卷积神经网络, 分别用于提取划分为1秒片
段的视频数据中的2D视觉特征和3D视觉特征; 加载预训练的VGGish网络, 对划分为 1秒片段
的音频数据提取听觉特征; 进一步地, 将2D视觉特征和3D视觉特征通过连结操作融合为综
合视觉特征;
步骤4: 加载混合注意力网络, 输入步骤3中所提取的听觉特征和综合视觉特征进行初
步的音视频内容解析, 随后利用混合注意力网络的预测结果, 对所述音视频数据集中提供
的不区分模态标注进 行模态特异 化标签精炼, 最 终得到在音频和视频模态上呈现出差异 化
的音频标注和视频 标注;
步骤5: 构建层次化上下文建模网络, 输入步骤3中得到的听觉特征和综合视觉特征, 进
行音视频内容 解析, 输出对应的有 声视频所含有的视 觉、 听觉、 视听联合的事 件定位结果;
步骤6: 构建模态引导网络, 所述模态引导网络包含视觉 ‑模态引导子网络和听觉 ‑模态
引导子网络, 视觉 ‑模态引导子网络输入综合视觉特征, 预测训练辅助用的视觉的事件或动
作定位结果; 听觉 ‑模态引导子网络输入听觉特征, 预测训练辅助用的听觉的事件或动作定
位结果;
步骤7: 根据步骤4中得到的视频标注和音频标注以及步骤5中层次化上下文建模网络
的输出, 计算层次化上 下文建模网络的混合模态事 件定位损失;
步骤8: 根据步骤4中得到的视频标注和音频标注以及步骤6中视觉 ‑模态引导子网络的
输出, 计算视觉模态的单模态事件定位损失; 根据步骤4中得到的视频标注和音频标注以及
步骤6中听觉 ‑模态引导子网络的输出, 计算听觉模态的单模态事 件定位损失;
步骤9: 根据步骤5和步骤6的输出, 计算视觉 ‑模态引导损失和听觉 ‑模态引导损失, 这
两部分损失仅用于优化层次化上下文建模网络, 对于模态引导网络, 由视觉 ‑模态引导损失
函数和听觉 ‑模态引导损失函数产生的梯度将被截断;
步骤10: 根据步骤5中层次化上下文建模网络输出的结果和步骤6 中模态引导网络输出
的结果, 计算层次化上下文建模网络输出 的视觉、 听觉的事件定位结果之间的反向均方差
损失函数与模态引导网络输出的训练辅助用的视觉、 听觉的事件定位结果之间的反向均方
差损失函数, 鼓励层次化上下文建模网络学习视频、 音频两种模态之 间的差异 化信息, 并结
合步骤7‑9中各个部 分的损失函数更新混合模态事件定位损失及视觉模态的单模态事件定
位损失和听觉模态的单模态事 件定位损失;
步骤11: 采用3个独立的Adam优化器, 分别训练层次化上下文建模网络、 视觉 ‑模态引导权 利 要 求 书 1/5 页
2
CN 115131700 A
2子网络和听觉 ‑模态引导子网络 。
2.根据权利要求1所述的弱监督音视频内容解析的双路层次化混合模型的训练方法,
其特征在于, 该训练方法还 包括以下步骤:
步骤12: 在验证阶段, 在验证集上评估训练完成的层次化上下文建模网络的预测结果
准确性, 在模型保存时仅保留层次化上下文建模网络作为部署模型, 同时分别 保存视觉的
事件或动作定位的最佳层次化上下文建模模型和听觉的事件或动作定位的最佳层次化上
下文建模 模型;
步骤13: 在测试阶段, 将步骤12中保存的视觉的事件或动作定位的最佳层次化上下文
建模模型和听觉的事件或动作定位的最佳层次化上下文建模模型联合成为含有视觉分支
和听觉分支的弱监督音视频内容解析的双路层次化混合模型, 每条分支只对其相应的模态
做事件定位动作; 采用该含有视觉 分支和听觉 分支的弱监督音视频内容解析的双路层次化
混合模型对测试集数据进 行预测, 两条分支分别得到测试集数据的视觉的事件或动作定位
和听觉的事 件或动作定位。
3.根据权利要求2所述的弱监督音视频内容解析的双路层次化混合模型的训练方法,
其特征在于, 所述 步骤5具体包括:
步骤5.1: 输入步骤3中提取的综合视觉特征和听觉特征, 进行层次化特征表征, 假设经
步骤3提取后的听觉特征表示为Fa, 综合视觉特征表示为Fv, 设H为设定的层次化数目上限,
对于第h层, 层次化特 征表征由以下公式表示:
其中,
和
分别表示第h层的第一音频线性映射层和第一视频线性映射层执行
的操作, Ra(·)和Rv(·)分别为两个时序卷积残差模块执行的操作, kh和lh为第h层的卷积
核尺寸和步长,
分别为第h层的音频、 视频层次化特征表征, h=1,2, …,H; 更详细
地, 时序卷积残差模块Ra和Rv被表示为:
R(x,k,l)=σ(BN(Co nv1D(x,k,l) ))+x
为了便于表示, 此处采用R(x,k,l)代指时序卷积残差模块Ra和Rv, 其中σ 为激励函数、 批
量归一化层和时序卷积, BN( ·)、 Conv1D( ·)分别为批量归一化层和时序卷积层执行的操
作, x为时序卷积残差模块的输入的特征, k为时序卷积残差模块的卷积核尺寸, l为时序卷
积残差模块的时序卷积步长;
步骤5.2: 根据步骤5.1中所得到的层次化特征表征, 挖掘不同层次中的特征上下文关
系, 并在特 征空间中进行多尺度强化, 具体由以下公式表示:
其中, φsa(·)、 φca(·)和I(·)分别为层次化上下文建模网络的自注意力机制层、 交
叉注意力机制层和上采样插值执行的操作;
和
为第h层的音频、 视频多尺度特征强化
表征;
步骤5.3: 根据步骤5.2中所得到的音频、 视频多尺度特征强化表征, 利用多模态多实例
学习池化模块, 预测视频、 音频分别所含有的视觉动作或事件类别、 听觉动作或事件类别,权 利 要 求 书 2/5 页
3
CN 115131700 A
3
专利 弱监督音视频内容解析的双路层次化混合模型的训练方法
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:31:01上传分享