(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221043968 8.8
(22)申请日 2022.04.25
(71)申请人 中国平安人寿保险股份有限公司
地址 518000 广东省深圳市福田区福田街
道益田路5033号平安金融中心14、 15、
16、 37、 41、 4 4、 45、 46、 54、 58、 59层
(72)发明人 梁亚妮
(74)专利代理 机构 广州嘉权专利商标事务所有
限公司 4 4205
专利代理师 廖慧贤
(51)Int.Cl.
H04N 21/44(2011.01)
H04N 21/439(2011.01)
G10L 15/26(2006.01)
G06F 40/284(2020.01)G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06V 20/40(2022.01)
G06V 20/62(2022.01)
G06V 40/16(2022.01)
(54)发明名称
视频生成方法、 视频生 成装置、 电子设备、 存
储介质
(57)摘要
本申请提供一种视频生 成方法、 视频生 成装
置、 电子设备、 存储介质, 属于人工智能技术领
域。 包括: 获取原始视频, 将原始 视频分离为音频
和图像帧; 对音频进行语音处理, 得到第一关键
词和语调属性; 根据第一分类模 型对图像帧进行
分类, 得到人物图像帧和图文 图像帧; 对人物图
像帧进行人物表情识别, 得到人物表情属性; 对
图文图像帧进行光学字符识别, 得到第二关键
词; 根据第一关键词、 语调属性、 人物表情属性、
第二关键词得到关键时间点; 将关键时间点、 第
一关键词和第二关键词输入知识图谱, 根据知识
图谱输出的剪辑策略对原始 视频进行剪辑处理,
生成目标视频。 本申请通过知识图谱输出的剪辑
策略对原始视频进行剪辑, 能够自动输出剪辑后
的视频。
权利要求书2页 说明书13页 附图6页
CN 114786059 A
2022.07.22
CN 114786059 A
1.视频生成方法, 其特 征在于, 所述方法包括:
获取原始视频, 将所述原 始视频分离为音频和图像帧;
对所述音频进行语音处 理, 得到第一关键词和语调属性;
根据预设的第一分类模型对所述图像帧进行分类, 得到人物图像帧和图文图像帧;
对所述人物图像帧进行 人物表情识别, 得到人物 表情属性;
对所述图文图像帧进行光学字符识别, 得到第二关键词;
获取所述第一关键词的时间属性、 所述语调属性的时间属性、 所述人物表情属性的时
间属性、 所述第二关键词的时间属性, 根据所述第一关键词对应的时间属性、 所述语调属性
对应的时间属 性、 所述人物表情属 性对应的时间属 性、 所述第二关键词对应的时间属 性得
到关键时间点;
将所述关键时间点、 所述第一关键词和所述第二关键词输入预先建立的知识图谱, 根
据所述知识图谱输出剪辑策略;
根据所述剪辑策略对所述原 始视频进行剪辑处 理, 生成目标视频。
2.根据权利要求1所述的视频生成方法, 其特征在于, 所述对所述音频进行语音处理,
得到第一关键词和语调属性, 包括:
将所述音频转换为第一文本, 对所述第一文本进行语义识别, 得到所述第一文本中的
第一关键词;
对所述音频进行语调分析, 得到声纹特征, 根据预设的第二分类模型对所述声纹特征
进行分类, 得到语调属性。
3.根据权利要求2所述的视频生成方法, 其特征在于, 所述将所述音频转换为第一文
本, 对所述第一文本进行语义识别, 得到所述第一文本中的第一关键词, 包括:
根据预设的语音识别模型对所述音频进行语音识别, 将所述音频转换为对应的所述第
一文本;
对所述第一文本进行分词处 理, 得到第一单词序列;
对所述第一单词序列中每个单词 进行词性标注, 得到所述第 一单词序列中每个所述单
词的单词 词性;
根据所述单词 词性对所述第一单词序列进行词性还原, 得到第二单词序列;
对所述第二单词序列进行语义识别, 得到所述第一文本中的第一关键词。
4.根据权利要求1所述的视频生成方法, 其特征在于, 所述对所述人物图像帧进行人物
表情识别, 得到人物 表情属性, 包括:
对所述人物图像帧进行 人脸对齐处 理, 在所述人物图像帧中定位人脸特 征点;
对所述人脸特 征点进行姿态估计, 得到人物 表情属性。
5.根据权利要求1至4任一项所述的视频生成方法, 其特征在于, 所述对所述图文图像
帧进行光学字符识别, 得到第二关键词, 包括:
对所述图文图像帧进行光学字符识别, 得到所述图文图像帧中的第二文本;
根据命名实体识别模型对所述图文图像帧中的第 二文本进行语义识别, 得到第 二关键
词。
6.根据权利要求1至4任一项所述的视频生成方法, 其特 征在于, 所述方法还 包括:
获取预设的评分函数;权 利 要 求 书 1/2 页
2
CN 114786059 A
2根据所述评分函数对所述剪辑策略进行打 分, 得到所述剪辑策略的打 分值;
根据所述打分值对所述剪辑策略进行筛选, 得到筛选后的剪辑策略, 将筛选后的剪辑
策略作为目标 策略;
将所述目标策略以及对应所述目标策略的关键时间点、 第一关键词、 第二关键词输入
知识图谱, 以更新所述知识图谱。
7.根据权利要求1至4任一项所述的视频生成方法, 其特征在于, 所述根据所述剪辑策
略对所述原 始视频进行剪辑处 理, 生成目标视频, 包括:
根据所述剪辑策略获取剪辑时间点和剪辑行为, 所述剪辑行为包括滤镜选择、 视频片
段加速、 视频片段放慢、 视频片段整合、 视频片段氛围选择、 背 景乐导入、 音 频调整中的至少
一种;
根据所述剪辑时间点和所述剪辑行为对所述原 始视频进行剪辑处 理, 生成目标视频。
8.视频生成装置, 其特 征在于, 所述装置包括:
获取模块, 用于获取原 始视频, 将所述原 始视频分离为音频和图像帧;
语音处理模块, 用于对所述音频进行语音处 理, 得到第一关键词和语调属性;
图像分类模块, 用于根据预设的第一分类模型对所述图像帧进行分类, 得到人物图像
帧和图文图像帧;
人物表情识别模块, 用于对所述人物图像帧进行 人物表情识别, 得到人物 表情属性;
图文识别模块, 用于对所述图文图像帧进行光学字符识别, 得到第二关键词;
关键时间点识别模块, 用于获取所述第一关键词的时间属性、 所述语调属性的时间属
性、 所述人物表情属性的时间属性、 所述第二关键词的时间属性, 根据所述第一关键词对应
的时间属性、 所述语调属性对应的时间属性、 所述人物表情属性对应的时间属性、 所述第二
关键词对应的时间属性得到关键时间点;
剪辑策略输出模块, 用于将所述关键时间点、 所述第一关键词和所述第二关键词输入
预先建立的知识图谱, 根据所述知识图谱输出剪辑策略;
目标视频生成模块, 用于根据所述剪辑策略对所述原始视频进行剪辑处理, 生成目标
视频。
9.电子设备, 其特征在于, 所述电子设备包括存储器和 处理器, 其中, 所述存储器中存
储有计算机程序, 所述计算机程序被所述处 理器执行时所述处 理器用于执 行:
如权利要求1至7任一项所述的方法。
10.存储介质, 所述存储介质为计算机可读存储介质, 其特征在于, 所述计算机可读存
储有计算机程序, 在所述计算机程序被 计算机执 行时, 所述计算机用于执 行:
如权利要求1至7任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 114786059 A
3
专利 视频生成方法、视频生成装置、电子设备、存储介质
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:52:16上传分享