专利音视频同步判别方法、装置、电子设备及存储介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210780467.7 (22)申请日 2022.07.04 (71)申请人京东科技信息技术有限公司地址 100176 北京市北京经济技术开发区科创十一街18号院2号楼6层6 01 (72)发明人吴大江　裴积全　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师罗岚 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01)G10L 25/24(2013.01) G10L 25/30(2013.01) G10L 25/51(2013.01) G10L 25/57(2013.01) (54)发明名称音视频同步判别方法、装置、电子设备及存储介质 (57)摘要本公开提供了一种音视频同步判别方法、装置、电子设备及存储介质，涉及数据处理技术领域。该方案为：获取待判别的原始音频片段和原始视频片段，并从中获取多组在时间维度上对齐的局部音频片段和局部视频片段；针对每一组，获取局部音频片段的音频特征和局部视频片段的视频特征，并基于音频特征和视频特征，获取该组的融合特征；基于多组的融合特征，判断原始音频片段和原始视频片段是否同步。本公开中获取多组局部音视频片段的融合特征，通过这种方式，可以在对局部音视频片段进行同步判断的基础上，通过关联分析多组的融合特征，实现对原始音视频片段的同步判断。权利要求书3页说明书8页附图4页 CN 115187899 A 2022.10.14 CN 115187899 A 1.一种音视频同步判别方法，其特征在于，包括：获取待判别的原始音频片段和原始视频片段，并从中获取多组在时间维度上对齐的局部音频片段和局部视频片段；针对每一组，获取所述局部音频片段的音频特征和所述局部视频片段的视频特征，并基于所述音频特征和所述视频特征，获取该组的融合特征；基于多组的所述融合特征，判断所述原始音频片段和所述原始视频片段是否同步。 2.根据权利要求1所述的方法，其特征在于，所述基于多组的所述融合特征，判断所述原始音频片段和所述原始视频片段是否同步，包括：基于多组的所述融合特征和训练好的目标分类器，对所述原始音频片段和所述原始视频片段进行同步分类预测，获取预测结果，所述预测结果指示所述原始音频片段和所述原始视频片段是否同步。 3.根据权利要求1所述的方法，其特征在于，所述从中获取多组在时间维度上对齐的局部音频片段和局部视频片段，包括：确定从所述原始视频片段中提取的所述局部视频片段的视频帧数，并按照所述视频帧数，从所述原始视频片段中提取所述局部视频片段；确定从所述原始音频片段中提取的所述局部音频片段的音频帧数，并按照所述音频帧数，从所述原始音频片段中获取所述局部音频片段。 4.根据权利要求3所述的方法，其特征在于，所述音频帧数的获取过程，包括：获取所述原始视频片段的视频帧率和所述局部视频片段的视频帧数；获取所述原始音频片段的音频采样率；基于所述视频帧率、所述视频帧数和所述音频采样率，确定所述局部音频片段的音频帧数。 5.根据权利要求2所述的方法，其特征在于，所述基于多组的所述融合特征和训练好的目标分类器，对所述原始音频片段和所述原始视频片段进行同步分类预测，包括：基于多组的所述融合特征，得到待识别特征序列；将所述待识别特征序列输入目标分类器，所述目标分类器的特征提取层对所述待识别特征序列进行全局关系提取，以获取全局特征；将所述全局特征输入所述目标分类器的感知层，由所述感知层基于所述全局特征，对所述原始音频片段和所述原始视频片段进行同步分类预测，获取所述预测结果。 6.根据权利要求5所述的方法，其特征在于，所述基于多组的所述融合特征，得到待识别特征序列，包括：对多帧所述融合特征按照时间顺序进行排列，获取第一特征序列。 7.根据权利要求5所述的方法，其特征在于，所述基于多组的所述融合特征，得到待识别特征序列，包括：响应于所述融合特征为所述音频特征和所述视频特征拼接，将多组的所述融合特征中的所述音频特征，按照时间顺序进行排列，获取第一特征子序列；将多组的所述融合特征中的所述视频特征，按照时间顺序进行排列，获取第二特征子序列；基于所述第一特征子序列和所述第二特征子序列，生成第二特征序列。权　利　要　求　书 1/3 页 2 CN 115187899 A 28.根据权利要求2 ‑7任一项所述的方法，其特征在于，所述目标分类器的训练过程，包括：获取样本音频片段、样本视频片段和标签数据，所述标签数据用于指示所述样本音频片段和样本视频片段是否同步；获取所述样本音频片段的样本音频特征和所述样本视频片段的样本视频特征；基于所述样本音频特征和所述样本视频特征，获取样本融合特征；基于所述样本融合特征，对初始分类器进行训练，以得到目标分类器。 9.根据权利要求8所述的方法，其特征在于，所述样本音频片段和所述样本视频片段包括正样本和负样本，所述正样本的获取过程包括：将同一样本的音频和视频在时间维度上依序切分，获取所述正样本。 10.根据权利要求9所述的方法，其特征在于，所述负样本包括样本间负样本和样本内负样本，所述样本间负样本和所述样本内负样本的获取过程包括：将同一样本的音频和视频通过时间维度上的快进或延迟，获取所述样本内负样本；将不同样本的音频与视频在时间维度上依序切分，获取所述样本间负样本。 11.一种音视频同步判别装置，其特征在于，包括：第一获取模块，用于获取待判别的原始音频片段和原始视频片段，并从中获取多组在时间维度上对齐的局部音频片段和局部视频片段；第二获取模块，用于针对每一组，获取所述局部音频片段的音频特征和所述局部视频片段的视频特征，并基于所述音频特征和所述视频特征，获取该组的融合特征；判断模块，用于基于多组的所述融合特征，判断所述原始音频片段和所述原始视频片段是否同步。 12.根据权利要求1 1所述的装置，其特征在于，所述判断模块，还用于：基于多组的所述融合特征和训练好的目标分类器，对所述原始音频片段和所述原始视频片段进行同步分类预测，获取预测结果，所述预测结果指示所述原始音频片段和所述原始视频片段是否同步。 13.根据权利要求1 1所述的装置，其特征在于，所述第一获取模块，还用于：确定从所述原始视频片段中提取的所述局部视频片段的视频帧数，并按照所述视频帧数，从所述原始视频片段中提取所述局部视频片段；确定从所述原始音频片段中提取的所述局部音频片段的音频帧数，并按照所述音频帧数，从所述原始音频片段中获取所述局部音频片段。 14.根据权利要求13所述的装置，其特征在于，所述第一获取模块，还用于：获取所述原始视频片段的视频帧率和所述局部视频片段的视频帧数；获取所述原始音频片段的音频采样率；基于所述视频帧率、所述视频帧数和所述音频采样率，确定所述局部音频片段的音频帧数。 15.根据权利要求12所述的装置，其特征在于，所述判断模块，还用于：基于多组的所述融合特征，得到待识别特征序列；将所述待识别特征序列输入目标分类器，所述目标分类器的特征提取层对所述待识别特征序列进行全局关系提取，以获取全局特征；权　利　要　求　书 2/3 页 3 CN 115187899 A 3

专利 音视频同步判别方法、装置、电子设备及存储介质

专利音视频同步判别方法、装置、电子设备及存储介质