专利一种基于深度学习、自注意力机制与符号推理的自动剪辑方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210383218.4 (22)申请日 2022.04.12 (71)申请人杭州电子科技大学地址 310000 浙江省杭州市钱塘区2号大街 1158号 (72)发明人周景林　曹瀚洋　周奕希　 (74)专利代理机构北京圣州专利代理事务所 (普通合伙) 11818 专利代理师朱芳斌 (51)Int.Cl. H04N 21/234(2011.01) H04N 21/44(2011.01) G06V 20/40(2022.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 7/00(2006.01) (54)发明名称一种基于深度学习、自注意力机制与符号推理的自动剪辑方法 (57)摘要本发明公开了一种基于深度学习、自注意力机制与符号推理的自动剪辑方法，包括以下步骤：建立需要宣传的领域视频素材库；用搭建的数据库训练RVM；建立需要描述的视频内容的基元库；利用HAKE的逻辑推理引擎来组织基元；建立需要进行语义理解的文本类型；用数据集来训练transformer得到文本理解网络；将需要进行自动剪辑的视频输入到RVM网络；然后输入HAKE 视频理解引擎，输出带有标签的视频；将剪辑需求文本输入transformer模型中，输出按照语义顺序排列的标签；将获得的标签对比匹配；将视频匹配结果排序；将上述步骤集成到一个一体化系统中，简化面向用户的操作。本发明解决了前剪辑技术门槛高、且无法对多个视频同时剪辑需要消耗大量的人力资源和时间资源的问题。权利要求书2页说明书4页附图2页 CN 114979705 A 2022.08.30 CN 114979705 A 1.一种基于深度学习、自注意力机制与符号推理的自动剪辑方法，其特征在于，包括以下步骤： S1、建立需要宣传的领域视频素材库，采用RVM对低质量的视频片段进行分割，其中需要包含低质量的原始视频与人工剪辑后的高质量的视频； S2、用步骤S1中搭建的数据库训练RVM，获得适应该任务的网络架构，用一个容量较大的包含低质量片段和对应高质量片段的数据集，来对原始的RVM进行有监督训练，获得一个适应以视频质量高低来分割视频的网络； S3、建立需要描述的视频内容的基元库； S4、利用HAKE的逻辑推理引擎来组织基元，获得一系列符合语义逻辑的标签； S5、建立需要进行语义理解的文本类型，主要考虑人工标注好的相关数据集； S6、用步骤S5 的数据集来训练transformer会得到精度更高的适应分析剪辑需求的文本理解网络； S7、将需要进行自动剪辑的视频输入到步骤S2训练好的RVM网络，获得除去人工失误或环境因素影响的瑕疵部分获得高质量视频； S8、将步骤S7获得的高质量视频输入HAKE 视频理解引擎，输出带有标签的视频； S9、将剪辑需求文本输入由步骤S6训练好的transformer模型中，输出按照语义顺序排列的标签； S10、将步骤S 8和步骤S9获得的标签对比匹配； S11、将视频按照步骤S10的匹配结果排序； S12、将上述步骤集成到一个一体化系统中，简化面向用户的操作。 2.根据权利要求1所述的一种基于深度学习、自注意力机制与符号推理的自动剪辑方法，其特征在于：输出带有标签的视频具体为首先将收集大量的未经处理的视频片段，作为输入多通道的经过预训练的RVM网络中，删除由于认为操作失误或环境因素导致的低质量片段，输出没有瑕疵的高质量片段；其次，当获得高质量的视频片段后，让批量的片段作为输入进入HAKE， HAKE通过三个阶段的工作来对视频内容进行理解，其一建立相关领域的基元库，其容量根据需要不断扩大，其二运用逻辑推理规则将基元按照语言逻辑组合起来，其三运用CNN来对视频内容作标签，输出带有标签的视频。 3.根据权利要求1所述的一种基于深度学习、自注意力机制与符号推理的自动剪辑方法，其特征在于，基元库的搭建工作分为三步：第一步要实现对两类实体的识别，层次结构不同级别的实体和同一层次的实体；第二步要进行层次感知的知识图嵌入， HAKE由两部分组成，分别为量部分和相位部分，分别针对两个不同类别的实体进行建模，为了区分不同部分的嵌入，在模量部分中，使用em 和hm表示实体嵌入和关系嵌入，而在相位部分中使用ep和rp表示实体嵌入和关系嵌入， HAKE 将模量部分和相位部分组合在一起，将实体映射到极坐标系中，其中径向坐标和角坐标分别对应于模量部分和相位部分， HAKE将一个实体h映射到[hm； hp]， [·；·]表示两个向量的串联，评分函数为dr,m(h,t)＝| |hmrm‑tm||2,来评价模量和相位的效果；第三步在进行视频分割的同时，并行进行文本语义分割，采用Transformer来完成该任权　利　要　求　书 1/2 页 2 CN 114979705 A 2务， Transformer由且仅由self ‑Attenion和Feed Forward NeuralNetwork组成，在 Transformer的encoder中，数据首先会经过一个叫做 ‘self‑attention ’的模块得到一个加权之后的特征向量Z，其表示为得到Z之后，它会被送到encoder的下一个模块，即Feed Forward Neural Network，这个全连接有两层，第一层的激活函数是ReLU，第二层是一个线性激活函数，可以表示为FFN(Z)＝max(0,ZW1+b1)W2+b2, 两个Attention分别用于计算输入和输出的权值，将用户的需求文本输入到transformer 中，经过对文本的理解，输出按照文本语义逻辑排列的语义标签，多以基元的的形式呈现；最后采用常用的比较算法对比视频标签和文本标签，在一定的容错范围内进行匹配，依照文本标签的顺序对视频内容进行排序，最终获得按照文本语义顺序排列的高质量的视频片段，即可作为成片。权　利　要　求　书 2/2 页 3 CN 114979705 A 3

专利 一种基于深度学习、自注意力机制与符号推理的自动剪辑方法

专利一种基于深度学习、自注意力机制与符号推理的自动剪辑方法