专利弱监督音视频内容解析的双路层次化混合模型的训练方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210729782.7 (22)申请日 2022.06.24 (71)申请人电子科技大学地址 611731 四川省成都市高新区（西区）西源大道 2006号 (72)发明人徐行　蒋寻　陈智国　沈复民　宋井宽　申恒涛　 (74)专利代理机构电子科技大学专利中心 51203 专利代理师曾磊 (51)Int.Cl. G06V 20/40(2022.01) G06V 40/20(2022.01) G06V 10/774(2022.01) G06V 10/776(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/764(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G10L 25/27(2013.01) G10L 25/48(2013.01) (54)发明名称弱监督音视频内容解析的双路层次化混合模型的训练方法 (57)摘要本发明公开了一种弱监督音视频内容解析的双路层次化混合模型的训练方法，所述弱监督音视频内容解析的双路层次化混合模型结构包括混合注意力网络、层次化上下文建模网络及模态引导网络，该训练方法首先使用混合注意力网络进行模态特异化标签精炼得到不完全准确的音频标注和视频标注；然后利用得到的不完全准确的音频标注和视频标注，协同训练模态引导网络和层次化上下文建模网络；通过上述训练方法，可以得到具有较强模态分辨能力的上下文层次化建模网络，较好地对音视频进行内容解析；模态引导网络强化了模态区分能力；本发明采用的双路层次化混合模型来解决弱监督音视频内容解析任务，进一步提高了模型对不同模态的适应和理解能力。权利要求书5页说明书14页附图2页 CN 115131700 A 2022.09.30 CN 115131700 A 1.一种弱监督音视频内容解析的双路层次化混合模型的训练方法，其特征在于，所述弱监督音视频内容解析的双路层次化混合模型结构包括混合注意力网络、层次化上下文建模网络及模态引导网络，其中，混合注意力网络用于模态特异化标签精炼；层次化上下文建模网络用于计算输入有声视频所含有的视觉、听觉、视听联合的事件定位结果；模态引导网络用于提升层次化上下文建模网络的模态辨别能力；该训练方法包括以下步骤：步骤1：获取音视频数据集，并将其按预设比例划分为训练集、验证集、测试集，其中，训练集仅存在弱监督标注信息，即所提供的用于训练的有声视频中仅标注其含有的动作或事件种类，没有详细的模态种类标注和时刻标注数据；步骤2：将所述音视频数据集的训练集、验证集、测试集中的有声视频拆分为音频数据和视频数据，并将音频数据和视频数据均划分为时序长度为1秒的片段；步骤3：加载预训练的2D卷积神经网络和3D卷积神经网络，分别用于提取划分为1秒片段的视频数据中的2D视觉特征和3D视觉特征；加载预训练的VGGish网络，对划分为 1秒片段的音频数据提取听觉特征；进一步地，将2D视觉特征和3D视觉特征通过连结操作融合为综合视觉特征；步骤4：加载混合注意力网络，输入步骤3中所提取的听觉特征和综合视觉特征进行初步的音视频内容解析，随后利用混合注意力网络的预测结果，对所述音视频数据集中提供的不区分模态标注进行模态特异化标签精炼，最终得到在音频和视频模态上呈现出差异化的音频标注和视频标注；步骤5：构建层次化上下文建模网络，输入步骤3中得到的听觉特征和综合视觉特征，进行音视频内容解析，输出对应的有声视频所含有的视觉、听觉、视听联合的事件定位结果；步骤6：构建模态引导网络，所述模态引导网络包含视觉 ‑模态引导子网络和听觉 ‑模态引导子网络，视觉 ‑模态引导子网络输入综合视觉特征，预测训练辅助用的视觉的事件或动作定位结果；听觉 ‑模态引导子网络输入听觉特征，预测训练辅助用的听觉的事件或动作定位结果；步骤7：根据步骤4中得到的视频标注和音频标注以及步骤5中层次化上下文建模网络的输出，计算层次化上下文建模网络的混合模态事件定位损失；步骤8：根据步骤4中得到的视频标注和音频标注以及步骤6中视觉 ‑模态引导子网络的输出，计算视觉模态的单模态事件定位损失；根据步骤4中得到的视频标注和音频标注以及步骤6中听觉 ‑模态引导子网络的输出，计算听觉模态的单模态事件定位损失；步骤9：根据步骤5和步骤6的输出，计算视觉 ‑模态引导损失和听觉 ‑模态引导损失，这两部分损失仅用于优化层次化上下文建模网络，对于模态引导网络，由视觉 ‑模态引导损失函数和听觉 ‑模态引导损失函数产生的梯度将被截断；步骤10：根据步骤5中层次化上下文建模网络输出的结果和步骤6 中模态引导网络输出的结果，计算层次化上下文建模网络输出的视觉、听觉的事件定位结果之间的反向均方差损失函数与模态引导网络输出的训练辅助用的视觉、听觉的事件定位结果之间的反向均方差损失函数，鼓励层次化上下文建模网络学习视频、音频两种模态之间的差异化信息，并结合步骤7‑9中各个部分的损失函数更新混合模态事件定位损失及视觉模态的单模态事件定位损失和听觉模态的单模态事件定位损失；步骤11：采用3个独立的Adam优化器，分别训练层次化上下文建模网络、视觉 ‑模态引导权　利　要　求　书 1/5 页 2 CN 115131700 A 2子网络和听觉 ‑模态引导子网络。 2.根据权利要求1所述的弱监督音视频内容解析的双路层次化混合模型的训练方法，其特征在于，该训练方法还包括以下步骤：步骤12：在验证阶段，在验证集上评估训练完成的层次化上下文建模网络的预测结果准确性，在模型保存时仅保留层次化上下文建模网络作为部署模型，同时分别保存视觉的事件或动作定位的最佳层次化上下文建模模型和听觉的事件或动作定位的最佳层次化上下文建模模型；步骤13：在测试阶段，将步骤12中保存的视觉的事件或动作定位的最佳层次化上下文建模模型和听觉的事件或动作定位的最佳层次化上下文建模模型联合成为含有视觉分支和听觉分支的弱监督音视频内容解析的双路层次化混合模型，每条分支只对其相应的模态做事件定位动作；采用该含有视觉分支和听觉分支的弱监督音视频内容解析的双路层次化混合模型对测试集数据进行预测，两条分支分别得到测试集数据的视觉的事件或动作定位和听觉的事件或动作定位。 3.根据权利要求2所述的弱监督音视频内容解析的双路层次化混合模型的训练方法，其特征在于，所述步骤5具体包括：步骤5.1：输入步骤3中提取的综合视觉特征和听觉特征，进行层次化特征表征，假设经步骤3提取后的听觉特征表示为Fa，综合视觉特征表示为Fv，设H为设定的层次化数目上限，对于第h层，层次化特征表征由以下公式表示：其中，和分别表示第h层的第一音频线性映射层和第一视频线性映射层执行的操作， Ra(·)和Rv(·)分别为两个时序卷积残差模块执行的操作， kh和lh为第h层的卷积核尺寸和步长，分别为第h层的音频、视频层次化特征表征， h＝1,2, …,H；更详细地，时序卷积残差模块Ra和Rv被表示为： R(x,k,l)＝σ(BN(Co nv1D(x,k,l) ))+x 为了便于表示，此处采用R(x,k,l)代指时序卷积残差模块Ra和Rv，其中σ 为激励函数、批量归一化层和时序卷积， BN( ·)、 Conv1D( ·)分别为批量归一化层和时序卷积层执行的操作， x为时序卷积残差模块的输入的特征， k为时序卷积残差模块的卷积核尺寸， l为时序卷积残差模块的时序卷积步长；步骤5.2：根据步骤5.1中所得到的层次化特征表征，挖掘不同层次中的特征上下文关系，并在特征空间中进行多尺度强化，具体由以下公式表示：其中， φsa(·)、 φca(·)和I(·)分别为层次化上下文建模网络的自注意力机制层、交叉注意力机制层和上采样插值执行的操作；和为第h层的音频、视频多尺度特征强化表征；步骤5.3：根据步骤5.2中所得到的音频、视频多尺度特征强化表征，利用多模态多实例学习池化模块，预测视频、音频分别所含有的视觉动作或事件类别、听觉动作或事件类别，权　利　要　求　书 2/5 页 3 CN 115131700 A 3

专利 弱监督音视频内容解析的双路层次化混合模型的训练方法

专利弱监督音视频内容解析的双路层次化混合模型的训练方法