(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210741685.X (22)申请日 2022.06.28 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 曾雅文 黎功福 王艺如  (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 专利代理师 唐宇鑫 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06F 16/783(2019.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 视频数据处理方法、 装置、 程序产品、 计算机 设备和介质 (57)摘要 本申请公开了一种视频数据处理方法、 装 置、 程序产品、 计算机设备和介质, 该方法包括: 获取样例对和样本关联对; 样例对按照包含的视 频片段与文本间的内容差异被分为正样例对和 负样例对; 样本关联对包含文本和该文本在样本 视频数据中所属的视频片段; 样 本视频数据具有 视频描述标签; 调用生成网络对样例对进行对比 学习得到 学习偏差; 调用生 成网络基于样本关联 对预测样 本视频数据的样本视频描述信息, 基于 视频描述标签和样本视频描述信息得到预测偏 差; 根据学习偏差和预测偏差训练生成网络, 得 到训练好的生成网络。 采用本申请, 可提高训练 得到的生 成网络的准确性, 进而采用训练好的生 成网络也可以准确地生成视频数据的视频描述 信息。 权利要求书3页 说明书26页 附图11页 CN 115115984 A 2022.09.27 CN 115115984 A 1.一种视频 数据处理方法, 其特 征在于, 所述方法包括: 获取样例对和样本关联对; 一个样例对包含一个第一视频片段和一个第一文本, 所述 样例对按照包含的第一视频片段与第一文本间的内容差异被分为正样例对和负样例对; 一 个样本关联对包含一个第二文本和该第二文本在样本视频数据中所属的第二视频片段; 所 述样本视频数据具有视频描述标签; 调用生成网络对所述样例对进行特征对比学习, 得到学习偏差; 所述学习偏差用于减 小所述正样例对中的第一视频片段与第一文本间的特征差异, 并用于增大所述负样例对中 的第一视频片段与第一文本间的特 征差异; 调用所述生成网络对所述样本关联对进行预测处理, 得到所述样本视频数据的样本视 频描述信息, 并基于所述视频描述标签获取所述生成网络针对所述样本视频描述信息的预 测偏差; 根据所述学习偏差和所述预测偏差修正所述生成网络的网络参数, 得到训练好的生成 网络; 所述训练好的生成网络用于生成视频 数据的视频描述信息 。 2.如权利要求1所述的方法, 其特征在于, 所述正样例对包含的第 一视频片段的视频内 容与所述正样例对包含的第一文本描述的内容相同; 所述负样例对包含的第一视频片段的 视频内容与所述负 样例对包含的第一文本描述的内容 不同。 3.如权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 获取所述样本视频数据的样本音频数据, 并对所述样本音频数据进行文本转换处理, 得到样本文本数据; 对所述样本文本数据进行文本分割处理, 得到所述样本文本数据包含的至少一个第 二 文本。 4.如权利要求3所述的方法, 其特征在于, 所述至少一个第 二文本中的任一个表示为目 标文本; 所述方法还 包括: 获取所述目标文本在所述样本音频 数据中对应的音频片段; 获取所述音频片段在所述样本 视频数据中的起始播 放时刻和终止播 放时刻; 根据所述起始播放 时刻和所述终止播放 时刻从所述样本视频数据中, 切割得到所述目 标文本所属的第二视频片段; 根据所述目标文本和所述目标文本所属的第二视频片段构建所述样本关联对。 5.如权利要求1所述的方法, 其特征在于, 所述调用生成网络对所述样例对进行特征对 比学习, 得到学习偏差, 包括: 调用所述生成网络生成所述正样例对中第一视频片段的第一视频特征和所述正样例 对中第一文本的第一文本特 征; 调用所述生成网络生成所述负样例对中第一视频片段的第二视频特征和所述负样例 对中第一文本的第二文本特 征; 基于所述第 一视频特征、 所述第 一文本特征、 所述第 二视频特征和所述第 二文本特征, 获取所述生成网络针对所述样例对的所述学习偏差 。 6.如权利要求1所述的方法, 其特征在于, 所述调用所述生成网络对所述样本关联对进 行预测处理, 得到所述样本 视频数据的样本 视频描述信息, 包括: 调用所述生成网络生成所述样本关联对中第二文本的第三文本特征和所述样本关联权 利 要 求 书 1/3 页 2 CN 115115984 A 2对中第二视频片段的第三视频 特征; 获取所述样本关联对中第二文本包含的至少一个分词, 并获取每个分词的词嵌入特 征; 调用所述生成网络基于所述第 三文本特征、 所述第 三视频特征和所述每个分词的词嵌 入特征, 预测所述样本 视频描述信息 。 7.如权利要求6所述的方法, 其特征在于, 所述调用所述生成网络生成所述样本关联对 中子文本的第三文本特征和所述样本关联对中子文本的关联视频片段的第三视频特征, 包 括: 获取所述样本关联对中第二文本的文本嵌入特征和所述样本关联对中第二视频片段 的视频嵌入特 征; 调用所述生成网络基于所述文本嵌入特征生成所述第 三文本特征, 并调用所述生成网 络基于所述视频嵌入特 征生成所述第三视频 特征。 8.如权利要求6所述的方法, 其特征在于, 所述调用所述生成网络基于所述第 三文本特 征、 所述第三视频 特征和所述每 个分词的词嵌入特 征, 预测所述样本 视频描述信息, 包括: 调用所述生成网络基于所述第 三文本特征、 所述第 三视频特征和所述每个分词的词嵌 入特征, 生成所述样本 视频数据的多模态特 征; 基于所述多模态特 征预测所述样本 视频数据的所述样本 视频描述信息 。 9.如权利要求8所述的方法, 其特征在于, 所述生成网络包含视频编码器和文本解码 器, 所述多模态特 征基于所述视频编码器生成; 所述基于所述多模态特 征预测所述样本 视频数据的所述样本 视频描述信息, 包括: 调用所述文本解码器 基于所述多模态特 征预测得到所述样本 视频描述信息 。 10.如权利要求9所述的方法, 其特征在于, 所述调用所述文本解码器基于所述多模态 特征预测得到所述样本 视频描述信息, 包括: 调用所述文本解码器基于所述多模态特征、 及所述文本解码器所预测的所述样本视频 数据的前n ‑1个描述字符, 预测所述样本 视频数据的第n个描述字符; n 为正整数; 若所述第n个描述字符不携带预测结束标识, 则调用所述文本解码器基于所述多模态 特征、 所述前n ‑1个描述字符、 及所述第n个描述字符, 预测所述样本视频数据的第n+1个描 述字符; 若所述第n+1个描述字符携带所述预测结束标识, 则根据所述前n ‑1个描述字符、 所述 第n个描述字符和所述第n+1个描述字符确定所述样本 视频描述信息 。 11.如权利要求1所述的方法, 其特征在于, 所述根据所述学习偏差和所述预测偏差修 正所述生成网络的网络参数, 得到训练好的生成网络, 包括: 获取针对所述学习偏差的第一偏差 权重和针对所述预测偏差的第二偏差 权重; 基于所述第一偏差权重和所述第二偏差权重对所述学习偏差和所述预测偏差进行加 权求和, 得到所述 生成网络针对所述样例对和所述样本关联对的综合训练偏差; 基于所述综合训练偏差修 正所述生成网络的网络参数, 得到所述训练好的生成网络 。 12.如权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 获取目标视频 数据及根据所述目标视频 数据提取 得到的目标文本数据; 根据所述目标文本数据的各个子文本和所述各个子文本分别在所述目标视频数据中权 利 要 求 书 2/3 页 3 CN 115115984 A 3

.PDF文档 专利 视频数据处理方法、装置、程序产品、计算机设备和介质

文档预览
中文文档 41 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共41页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视频数据处理方法、装置、程序产品、计算机设备和介质 第 1 页 专利 视频数据处理方法、装置、程序产品、计算机设备和介质 第 2 页 专利 视频数据处理方法、装置、程序产品、计算机设备和介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:31:47上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。