(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221043968 8.8 (22)申请日 2022.04.25 (71)申请人 中国平安人寿保险股份有限公司 地址 518000 广东省深圳市福田区福田街 道益田路5033号平安金融中心14、 15、 16、 37、 41、 4 4、 45、 46、 54、 58、 59层 (72)发明人 梁亚妮  (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 廖慧贤 (51)Int.Cl. H04N 21/44(2011.01) H04N 21/439(2011.01) G10L 15/26(2006.01) G06F 40/284(2020.01)G06F 40/30(2020.01) G06K 9/62(2022.01) G06V 20/40(2022.01) G06V 20/62(2022.01) G06V 40/16(2022.01) (54)发明名称 视频生成方法、 视频生 成装置、 电子设备、 存 储介质 (57)摘要 本申请提供一种视频生 成方法、 视频生 成装 置、 电子设备、 存储介质, 属于人工智能技术领 域。 包括: 获取原始视频, 将原始 视频分离为音频 和图像帧; 对音频进行语音处理, 得到第一关键 词和语调属性; 根据第一分类模 型对图像帧进行 分类, 得到人物图像帧和图文 图像帧; 对人物图 像帧进行人物表情识别, 得到人物表情属性; 对 图文图像帧进行光学字符识别, 得到第二关键 词; 根据第一关键词、 语调属性、 人物表情属性、 第二关键词得到关键时间点; 将关键时间点、 第 一关键词和第二关键词输入知识图谱, 根据知识 图谱输出的剪辑策略对原始 视频进行剪辑处理, 生成目标视频。 本申请通过知识图谱输出的剪辑 策略对原始视频进行剪辑, 能够自动输出剪辑后 的视频。 权利要求书2页 说明书13页 附图6页 CN 114786059 A 2022.07.22 CN 114786059 A 1.视频生成方法, 其特 征在于, 所述方法包括: 获取原始视频, 将所述原 始视频分离为音频和图像帧; 对所述音频进行语音处 理, 得到第一关键词和语调属性; 根据预设的第一分类模型对所述图像帧进行分类, 得到人物图像帧和图文图像帧; 对所述人物图像帧进行 人物表情识别, 得到人物 表情属性; 对所述图文图像帧进行光学字符识别, 得到第二关键词; 获取所述第一关键词的时间属性、 所述语调属性的时间属性、 所述人物表情属性的时 间属性、 所述第二关键词的时间属性, 根据所述第一关键词对应的时间属性、 所述语调属性 对应的时间属 性、 所述人物表情属 性对应的时间属 性、 所述第二关键词对应的时间属 性得 到关键时间点; 将所述关键时间点、 所述第一关键词和所述第二关键词输入预先建立的知识图谱, 根 据所述知识图谱输出剪辑策略; 根据所述剪辑策略对所述原 始视频进行剪辑处 理, 生成目标视频。 2.根据权利要求1所述的视频生成方法, 其特征在于, 所述对所述音频进行语音处理, 得到第一关键词和语调属性, 包括: 将所述音频转换为第一文本, 对所述第一文本进行语义识别, 得到所述第一文本中的 第一关键词; 对所述音频进行语调分析, 得到声纹特征, 根据预设的第二分类模型对所述声纹特征 进行分类, 得到语调属性。 3.根据权利要求2所述的视频生成方法, 其特征在于, 所述将所述音频转换为第一文 本, 对所述第一文本进行语义识别, 得到所述第一文本中的第一关键词, 包括: 根据预设的语音识别模型对所述音频进行语音识别, 将所述音频转换为对应的所述第 一文本; 对所述第一文本进行分词处 理, 得到第一单词序列; 对所述第一单词序列中每个单词 进行词性标注, 得到所述第 一单词序列中每个所述单 词的单词 词性; 根据所述单词 词性对所述第一单词序列进行词性还原, 得到第二单词序列; 对所述第二单词序列进行语义识别, 得到所述第一文本中的第一关键词。 4.根据权利要求1所述的视频生成方法, 其特征在于, 所述对所述人物图像帧进行人物 表情识别, 得到人物 表情属性, 包括: 对所述人物图像帧进行 人脸对齐处 理, 在所述人物图像帧中定位人脸特 征点; 对所述人脸特 征点进行姿态估计, 得到人物 表情属性。 5.根据权利要求1至4任一项所述的视频生成方法, 其特征在于, 所述对所述图文图像 帧进行光学字符识别, 得到第二关键词, 包括: 对所述图文图像帧进行光学字符识别, 得到所述图文图像帧中的第二文本; 根据命名实体识别模型对所述图文图像帧中的第 二文本进行语义识别, 得到第 二关键 词。 6.根据权利要求1至4任一项所述的视频生成方法, 其特 征在于, 所述方法还 包括: 获取预设的评分函数;权 利 要 求 书 1/2 页 2 CN 114786059 A 2根据所述评分函数对所述剪辑策略进行打 分, 得到所述剪辑策略的打 分值; 根据所述打分值对所述剪辑策略进行筛选, 得到筛选后的剪辑策略, 将筛选后的剪辑 策略作为目标 策略; 将所述目标策略以及对应所述目标策略的关键时间点、 第一关键词、 第二关键词输入 知识图谱, 以更新所述知识图谱。 7.根据权利要求1至4任一项所述的视频生成方法, 其特征在于, 所述根据所述剪辑策 略对所述原 始视频进行剪辑处 理, 生成目标视频, 包括: 根据所述剪辑策略获取剪辑时间点和剪辑行为, 所述剪辑行为包括滤镜选择、 视频片 段加速、 视频片段放慢、 视频片段整合、 视频片段氛围选择、 背 景乐导入、 音 频调整中的至少 一种; 根据所述剪辑时间点和所述剪辑行为对所述原 始视频进行剪辑处 理, 生成目标视频。 8.视频生成装置, 其特 征在于, 所述装置包括: 获取模块, 用于获取原 始视频, 将所述原 始视频分离为音频和图像帧; 语音处理模块, 用于对所述音频进行语音处 理, 得到第一关键词和语调属性; 图像分类模块, 用于根据预设的第一分类模型对所述图像帧进行分类, 得到人物图像 帧和图文图像帧; 人物表情识别模块, 用于对所述人物图像帧进行 人物表情识别, 得到人物 表情属性; 图文识别模块, 用于对所述图文图像帧进行光学字符识别, 得到第二关键词; 关键时间点识别模块, 用于获取所述第一关键词的时间属性、 所述语调属性的时间属 性、 所述人物表情属性的时间属性、 所述第二关键词的时间属性, 根据所述第一关键词对应 的时间属性、 所述语调属性对应的时间属性、 所述人物表情属性对应的时间属性、 所述第二 关键词对应的时间属性得到关键时间点; 剪辑策略输出模块, 用于将所述关键时间点、 所述第一关键词和所述第二关键词输入 预先建立的知识图谱, 根据所述知识图谱输出剪辑策略; 目标视频生成模块, 用于根据所述剪辑策略对所述原始视频进行剪辑处理, 生成目标 视频。 9.电子设备, 其特征在于, 所述电子设备包括存储器和 处理器, 其中, 所述存储器中存 储有计算机程序, 所述计算机程序被所述处 理器执行时所述处 理器用于执 行: 如权利要求1至7任一项所述的方法。 10.存储介质, 所述存储介质为计算机可读存储介质, 其特征在于, 所述计算机可读存 储有计算机程序, 在所述计算机程序被 计算机执 行时, 所述计算机用于执 行: 如权利要求1至7任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114786059 A 3

.PDF文档 专利 视频生成方法、视频生成装置、电子设备、存储介质

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视频生成方法、视频生成装置、电子设备、存储介质 第 1 页 专利 视频生成方法、视频生成装置、电子设备、存储介质 第 2 页 专利 视频生成方法、视频生成装置、电子设备、存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:52:16上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。