专利视频生成方法、装置、电子设备及介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210834501.4 (22)申请日 2022.07.14 (71)申请人维沃移动通信有限公司地址 523863 广东省东莞市长安镇维沃路1 号 (72)发明人李宇　 (74)专利代理机构北京远志博慧知识产权代理事务所 (特殊普通合伙) 11680 专利代理师李翠雅 (51)Int.Cl. G06T 11/00(2006.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06V 10/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称视频生成方法、装置、电子设备及介质 (57)摘要本申请公开了一种视频生成方法、装置、电子设备及介质，属于人工智能技术领域。该视频生成方法包括：获取第一图像集合，将该第一图像集合输入多分类模型进行分类，输出该第一图像集合对应的M个分类结果；从该M个分类结果对应的至少一个视频模板中，确定目标视频模板；基于上述第一图像集合与该目标视频模板，生成目标视频；其中， M为大于1的整数。权利要求书3页说明书14页附图6页 CN 115222838 A 2022.10.21 CN 115222838 A 1.一种视频生成方法，其特征在于，所述方法包括：获取第一图像集合；将所述第一图像集合输入多分类模型进行分类，输出所述第一图像集合对应的M个分类结果；从所述M个分类结果对应的至少一个视频模板中，确定目标视频模板；基于所述第一图像集合与所述目标视频模板，生成目标视频；其中， M为大于1的整数。 2.根据权利要求1所述的方法，其特征在于，所述将所述第一图像集合输入多分类模型进行分类，输出所述第一图像集合对应的M个分类结果，包括：将所述第一图像集合输入多分类模型后，基于所述多分类模型将所述第一图像集合中的N帧图像转换为X个图像块的第一图像特征信息；从所述X个图像块的第一图像特征信息中，确定出第一关键图像特征信息；提取所述第一关键图像特征信息对应的高层语义信息；基于所述高层语义信息，得到所述第一图像集合对应的M个分类结果；其中， N、 X为大于1的整数。 3.根据权利要求2所述的方法，其特征在于，所述基于所述多分类模型将所述第一图像集合中的N帧图像转换为X个图像块的第一图像特征信息，包括：基于所述多分类模型中的图像特征信息转化模块，将所述第一图像集合中的N帧图像进行拆分，得到X个图像块；通过卷积神经网络对所述X个图像块进行特征信息提取，得到所述X个图像块的第一图像特征信息。 4.根据权利要求2所述的方法，其特征在于，所述从所述X个图像块的第一图像特征信息中，确定出第一关键图像特征信息，包括：基于所述多分类模型中的图像特征信息选择模块，从所述X个图像块的第一图像特征信息中，选择出第二关键图像特征信息，并将所述X个图像块的第一图像特征信息的排列方式进行变换，得到第二图像特征信息；将所述第二关键图像特征信息和所述第二图像特征信息进行融合，得到所述第一关键图像特征信息。 5.根据权利要求2所述的方法，其特征在于，所述提取所述第一关键图像特征信息对应的高层语义信息，包括：基于所述多分类模型中的基础特征模块，对所述第一关键图像特征信息进行归一化操作，得到第三关键图像特征信息；提取所述第三关键图像特征信息中的基础图像特征信息；将所述第一关键图像特征信息与所述基础图像特征信息融合，得到目标关键图像特征信息；提取所述目标关键图像特征信息对应的高层语义信息。 6.根据权利要求1所述的方法，其特征在于，所述获取第一图像集合，包括：从第一视频中抽取N帧视频帧，以获取第一图像集合；所述基于所述第一图像集合与所述目标视频模板，生成目标视频，包括：权　利　要　求　书 1/3 页 2 CN 115222838 A 2将所述第一视频与所述目标视频模板融合，生成目标视频。 7.一种视频生成装置，其特征在于，所述装置包括：获取单元、分类单元、确定单元和生成单元，其中：所述获取单元，用于获取第一图像集合；所述分类单元，用于将所述获取单元获取到的所述第一图像集合输入多分类模型进行分类，输出所述第一图像集合对应的M个分类结果；所述确定单元，用于从所述分类单元得到的所述M个分类结果对应的至少一个视频模板中，确定目标视频模板；所述生成单元，用于基于所述获取单元获取到的所述第一图像集合与所述确定单元确定的所述目标视频模板，生成目标视频；其中， M为大于1的整数。 8.根据权利要求7 所述的装置，其特征在于，所述分类单元，具体用于：将所述获取单元获取到的所述第一图像集合输入多分类模型后，基于所述多分类模型将所述第一图像集合中的N帧图像转换为X个图像块的第一图像特征信息；从所述X个图像块的第一图像特征信息中，确定出第一关键图像特征信息；提取所述第一关键图像特征信息对应的高层语义信息；基于所述高层语义信息，得到所述第一图像集合对应的M个分类结果；其中， N、 X为大于1的整数。 9.根据权利要求8所述的装置，其特征在于，所述分类单元，具体用于：基于所述多分类模型中的图像特征信息转化模块，将所述第一图像集合中的N帧图像进行拆分，得到X个图像块；通过卷积神经网络对所述X个图像块进行特征信息提取，得到所述X个图像块的第一图像特征信息。 10.根据权利要求8所述的装置，其特征在于，所述分类单元，具体用于：基于所述多分类模型中的图像特征信息选择模块，从所述X个图像块的第一图像特征信息中，选择出第二关键图像特征信息，并将所述X个图像块的第一图像特征信息的排列方式进行变换，得到第二图像特征信息；将所述第二关键图像特征信息和所述第二图像特征信息进行融合，得到所述第一关键图像特征信息。 11.根据权利要求8所述的装置，其特征在于，所述分类单元，具体用于：基于所述多分类模型中的基础特征模块，对所述第一关键图像特征信息进行归一化操作，得到第三关键图像特征信息；提取所述第三关键图像特征信息中的基础图像特征信息；将所述第一关键图像特征信息与所述基础图像特征信息融合，得到目标关键图像特征信息；提取所述目标关键图像特征信息对应的高层语义信息。 12.根据权利要求7 所述的装置，其特征在于，所述获取单元，具体用于从第一视频中抽取N帧视频帧，以获取第一图像集合；所述生成单元，具体用于将所述第一视频与所述目标视频模板融合，生成目标视频。权　利　要　求　书 2/3 页 3 CN 115222838 A 3

专利 视频生成方法、装置、电子设备及介质

专利视频生成方法、装置、电子设备及介质