(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210383218.4
(22)申请日 2022.04.12
(71)申请人 杭州电子科技大 学
地址 310000 浙江省杭州市钱塘区2号大街
1158号
(72)发明人 周景林 曹瀚洋 周奕希
(74)专利代理 机构 北京圣州专利代理事务所
(普通合伙) 11818
专利代理师 朱芳斌
(51)Int.Cl.
H04N 21/234(2011.01)
H04N 21/44(2011.01)
G06V 20/40(2022.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)G06N 7/00(2006.01)
(54)发明名称
一种基于深度学习、 自注 意力机制与符号推
理的自动剪辑方法
(57)摘要
本发明公开了一种基于深度学习、 自注 意力
机制与符号推理的自动剪辑方法, 包括以下步
骤: 建立需要宣传的领域视频素材库; 用搭建的
数据库训练RVM; 建立需要描述的视频内容的基
元库; 利用HAKE的逻辑推理引擎来组织基元; 建
立需要进行语义理解的文本类型; 用数据集来训
练transformer得到文本理解网络; 将需要进行
自动剪辑的视频输入到RVM网络; 然后输入HAKE
视频理解引擎, 输出带有标签的视频; 将剪辑需
求文本输入transformer模型中, 输出按照语义
顺序排列的标签; 将获得的标签对比匹配; 将视
频匹配结果排序; 将上述步骤集成到一个一体化
系统中, 简化面向用户的操作。 本发明解决了前
剪辑技术门槛高、 且无法对多个视频同时剪辑需
要消耗大量的人力资源和时间资源的问题。
权利要求书2页 说明书4页 附图2页
CN 114979705 A
2022.08.30
CN 114979705 A
1.一种基于深度 学习、 自注意力 机制与符号推理的自动剪辑方法, 其特征在于, 包括以
下步骤:
S1、 建立需要宣传的领域视频素材库, 采用RVM对低质量的视频片段进行分割, 其中需
要包含低质量的原 始视频与人工 剪辑后的高质量的视频;
S2、 用步骤S1中搭建的数据库训练RVM, 获得适应该任务的网络架构, 用一个容量较大
的包含低质量片段和对应高质量片段的数据集, 来对原始的RVM进 行有监督训练, 获得一个
适应以视频质量高低来分割视频的网络;
S3、 建立需要 描述的视频内容的基元库;
S4、 利用HAKE的逻辑推理引擎 来组织基元, 获得一系列符合语义逻辑的标签;
S5、 建立需要 进行语义理解的文本类型, 主 要考虑人工标注好的相关数据集;
S6、 用步骤S5 的数据集来训练transformer会得到精度更高的适应分析剪辑需求的文
本理解网络;
S7、 将需要进行自动剪辑的视频输入到步骤S2训练好的RVM网络, 获得除去人工失误或
环境因素影响的瑕疵部分获得高质量视频;
S8、 将步骤S7获得的高质量视频输入HAKE 视频理解引擎, 输出 带有标签的视频;
S9、 将剪辑 需求文本输入由步骤S6训练好的transformer模型中, 输出按照语义顺序排
列的标签;
S10、 将步骤S 8和步骤S9获得的标签对比匹配;
S11、 将视频按照步骤S10的匹配结果 排序;
S12、 将上述 步骤集成到一个一体化系统中, 简化 面向用户的操作。
2.根据权利要求1所述的一种基于深度学习、 自注意力机制与符号推理的自动剪辑方
法, 其特征在于:
输出带有标签的视频具体为首先将收集大量的未经处理 的视频片段, 作为输入多通道
的经过预训练的RVM网络中, 删除由于认 为操作失误或环境因素导致的低质量片段, 输出没
有瑕疵的高质量片段;
其次, 当获得高质量的视频片段后, 让批量的片段作 为输入进入HAKE, HAKE通过三个阶
段的工作来对视频内容进 行理解, 其一建立相关领域的基元库, 其容量根据需要不断扩大,
其二运用逻辑推理规则将 基元按照语言逻辑组合起来, 其三运用CNN来对视频内容作标签,
输出带有标签的视频。
3.根据权利要求1所述的一种基于深度学习、 自注意力机制与符号推理的自动剪辑方
法, 其特征在于, 基元库的搭建工作分为 三步:
第一步要实现对两类实体的识别, 层次结构不同级别的实体和同一层次的实体;
第二步要进行层次感知的知识图嵌入, HAKE由两部分组成, 分别为量部分和相位部分,
分别针对两个不同类别的实体进行建模, 为了区分不同部分的嵌入, 在模量部分中, 使用em
和hm表示实体嵌入和关系嵌入, 而在相位部分中使用ep和rp表示实体嵌入和关系嵌入, HAKE
将模量部分和相位部分组合在一起, 将实体映射到极坐标系中, 其中径向坐标和角坐标分
别对应于模量部分和相位部分, HAKE将一个实体h映射到[hm; hp], [·;·]表示两个向量的
串联, 评分函数为dr,m(h,t)=| |hmrm‑tm||2,来评价模量和相位的效果;
第三步在进行视频分割的同时, 并行进行文本语义分割, 采用Transformer来完成该任权 利 要 求 书 1/2 页
2
CN 114979705 A
2务, Transformer由且仅由self ‑Attenion和Feed Forward NeuralNetwork组成, 在
Transformer的encoder中, 数据首先会经过一个叫做 ‘self‑attention ’的模块得到一个加
权之后的特征向量Z, 其表示为
得到Z之后, 它会被送
到encoder的下一个模块, 即Feed Forward Neural Network, 这个全连接有两层, 第一层的
激活函数是ReLU, 第二层是一个线性激活函数, 可以表示为FFN(Z)=max(0,ZW1+b1)W2+b2,
两个Attention分别用于计算输入和输出的权值, 将用户的需求文本输入到transformer
中, 经过对文本的理解, 输出按照文本语义逻辑 排列的语义标签, 多以基元的 的形式呈现;
最后采用常用的比较算法对比视频标签和文本标签, 在一定的容错范围内进行匹配,
依照文本标签的顺序对视频内容进行排序, 最终获得按照文本语义顺序排列的高质量的视
频片段, 即可作为成片。权 利 要 求 书 2/2 页
3
CN 114979705 A
3
专利 一种基于深度学习、自注意力机制与符号推理的自动剪辑方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:45:35上传分享