(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210780467.7 (22)申请日 2022.07.04 (71)申请人 京东科技信息技 术有限公司 地址 100176 北京市北京经济技 术开发区 科创十一 街18号院2号楼6层6 01 (72)发明人 吴大江 裴积全  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 罗岚 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01)G10L 25/24(2013.01) G10L 25/30(2013.01) G10L 25/51(2013.01) G10L 25/57(2013.01) (54)发明名称 音视频同步判别方法、 装置、 电子设备及存 储介质 (57)摘要 本公开提供了一种音视频同步判别方法、 装 置、 电子设备及存储介质, 涉及数据处理技术领 域。 该方案为: 获取待判别的原始音频片段和原 始视频片段, 并从中获取多组在时间维度上对齐 的局部音频片段和局部视频片段; 针对每一组, 获取局部音频片段的音频特征和局部视频片段 的视频特征, 并基于音频特征和视频特征, 获取 该组的融合特征; 基于多组的融合特征, 判断原 始音频片段和原始视频片段是否同步。 本公开中 获取多组局部音视频片段的融合特征, 通过这种 方式, 可以在对局部音视频片段进行同步判断的 基础上, 通过关联分析多组的融合特征, 实现对 原始音视频片段的同步判断。 权利要求书3页 说明书8页 附图4页 CN 115187899 A 2022.10.14 CN 115187899 A 1.一种音视频同步判别方法, 其特 征在于, 包括: 获取待判别的原始音频片段和 原始视频片段, 并从中获取多组在时间维度上对齐的局 部音频片段和 局部视频片段; 针对每一组, 获取所述局部音频片段的音频特征和所述局部视频片段的视频特征, 并 基于所述音频 特征和所述视频 特征, 获取该组的融合特 征; 基于多组的所述融合特 征, 判断所述原 始音频片段和所述原 始视频片段 是否同步。 2.根据权利要求1所述的方法, 其特征在于, 所述基于多组的所述融合特征, 判断所述 原始音频片段和所述原 始视频片段 是否同步, 包括: 基于多组 的所述融合特征和训练好的目标分类器, 对所述原始音频片段和所述原始视 频片段进行同步分类预测, 获取预测结果, 所述预测结果指示所述原始音频片段和所述原 始视频片段 是否同步。 3.根据权利要求1所述的方法, 其特征在于, 所述从中获取多组在时间维度上对齐的局 部音频片段和 局部视频片段, 包括: 确定从所述原始视频片段中提取的所述局部视频片段的视频帧数, 并按照所述视频帧 数, 从所述原 始视频片段中提取 所述局部 视频片段; 确定从所述原始音频片段中提取的所述局部音频片段的音频帧数, 并按照所述音频帧 数, 从所述原 始音频片段中获取 所述局部音频片段。 4.根据权利要求3所述的方法, 其特 征在于, 所述音频帧数的获取 过程, 包括: 获取所述原始视频片段的视频帧率和所述局部 视频片段的视频帧数; 获取所述原始音频片段的音频采样率; 基于所述视频帧率、 所述视频帧数和所述音频采样率, 确定所述局部音频片段的音频 帧数。 5.根据权利要求2所述的方法, 其特征在于, 所述基于多组 的所述融合特征和训练好的 目标分类 器, 对所述原 始音频片段和所述原 始视频片段进行同步分类预测, 包括: 基于多组的所述融合特 征, 得到待识别特 征序列; 将所述待识别特征序列输入目标分类器, 所述目标分类器的特征提取层对所述待识别 特征序列进行全局关系提取, 以获取全局特 征; 将所述全局特征输入所述目标分类器的感知层, 由所述感知层基于所述全局特征, 对 所述原始音频片段和所述原 始视频片段进行同步分类预测, 获取 所述预测结果。 6.根据权利要求5所述的方法, 其特征在于, 所述基于多组的所述融合特征, 得到待识 别特征序列, 包括: 对多帧所述融合特 征按照时间顺序进行排列, 获取第一特 征序列。 7.根据权利要求5所述的方法, 其特征在于, 所述基于多组的所述融合特征, 得到待识 别特征序列, 包括: 响应于所述融合特征为所述音频特征和所述视频特征拼接, 将多组的所述融合特征中 的所述音频 特征, 按照时间顺序进行排列, 获取第一特 征子序列; 将多组的所述融合特征中的所述视频特征, 按照 时间顺序进行排列, 获取第二特征子 序列; 基于所述第一特 征子序列和所述第二特 征子序列, 生成第二特 征序列。权 利 要 求 书 1/3 页 2 CN 115187899 A 28.根据权利要求2 ‑7任一项所述的方法, 其特征在于, 所述目标分类器的训练过程, 包 括: 获取样本音频片段、 样本视频片段和标签数据, 所述标签数据用于指示所述样本音频 片段和样本 视频片段 是否同步; 获取所述样本音频片段的样本音频 特征和所述样本 视频片段的样本 视频特征; 基于所述样本音频 特征和所述样本 视频特征, 获取样本融合特 征; 基于所述样本融合特 征, 对初始分类 器进行训练, 以得到目标分类 器。 9.根据权利要求8所述的方法, 其特征在于, 所述样本音频片段和所述样本视频片段包 括正样本和负 样本, 所述 正样本的获取 过程包括: 将同一样本的音频和视频在时间维度上依序切分, 获取 所述正样本。 10.根据权利要求9所述的方法, 其特征在于, 所述负样本包括样本间负样本和样本内 负样本, 所述样本间负 样本和所述样本内负 样本的获取 过程包括: 将同一样本的音频和视频通过时间维度上的快进或延迟, 获取 所述样本内负 样本; 将不同样本的音频与视频在时间维度上依序切分, 获取 所述样本间负 样本。 11.一种音视频同步判别装置, 其特 征在于, 包括: 第一获取模块, 用于获取待判别的原始音频片段和原始视频片段, 并从中获取多组在 时间维度上对齐的局部音频片段和 局部视频片段; 第二获取模块, 用于针对每一组, 获取所述局部音频片段的音频特征和所述局部视频 片段的视频 特征, 并基于所述音频 特征和所述视频 特征, 获取该组的融合特 征; 判断模块, 用于基于多组的所述融合特征, 判断所述原始音频片段和所述原始视频片 段是否同步。 12.根据权利要求1 1所述的装置, 其特 征在于, 所述判断模块, 还用于: 基于多组 的所述融合特征和训练好的目标分类器, 对所述原始音频片段和所述原始视 频片段进行同步分类预测, 获取预测结果, 所述预测结果指示所述原始音频片段和所述原 始视频片段 是否同步。 13.根据权利要求1 1所述的装置, 其特 征在于, 所述第一获取模块, 还用于: 确定从所述原始视频片段中提取的所述局部视频片段的视频帧数, 并按照所述视频帧 数, 从所述原 始视频片段中提取 所述局部 视频片段; 确定从所述原始音频片段中提取的所述局部音频片段的音频帧数, 并按照所述音频帧 数, 从所述原 始音频片段中获取 所述局部音频片段。 14.根据权利要求13所述的装置, 其特 征在于, 所述第一获取模块, 还用于: 获取所述原始视频片段的视频帧率和所述局部 视频片段的视频帧数; 获取所述原始音频片段的音频采样率; 基于所述视频帧率、 所述视频帧数和所述音频采样率, 确定所述局部音频片段的音频 帧数。 15.根据权利要求12所述的装置, 其特 征在于, 所述判断模块, 还用于: 基于多组的所述融合特 征, 得到待识别特 征序列; 将所述待识别特征序列输入目标分类器, 所述目标分类器的特征提取层对所述待识别 特征序列进行全局关系提取, 以获取全局特 征;权 利 要 求 书 2/3 页 3 CN 115187899 A 3

.PDF文档 专利 音视频同步判别方法、装置、电子设备及存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 音视频同步判别方法、装置、电子设备及存储介质 第 1 页 专利 音视频同步判别方法、装置、电子设备及存储介质 第 2 页 专利 音视频同步判别方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:32:07上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。