(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210383218.4 (22)申请日 2022.04.12 (71)申请人 杭州电子科技大 学 地址 310000 浙江省杭州市钱塘区2号大街 1158号 (72)发明人 周景林 曹瀚洋 周奕希  (74)专利代理 机构 北京圣州专利代理事务所 (普通合伙) 11818 专利代理师 朱芳斌 (51)Int.Cl. H04N 21/234(2011.01) H04N 21/44(2011.01) G06V 20/40(2022.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 7/00(2006.01) (54)发明名称 一种基于深度学习、 自注 意力机制与符号推 理的自动剪辑方法 (57)摘要 本发明公开了一种基于深度学习、 自注 意力 机制与符号推理的自动剪辑方法, 包括以下步 骤: 建立需要宣传的领域视频素材库; 用搭建的 数据库训练RVM; 建立需要描述的视频内容的基 元库; 利用HAKE的逻辑推理引擎来组织基元; 建 立需要进行语义理解的文本类型; 用数据集来训 练transformer得到文本理解网络; 将需要进行 自动剪辑的视频输入到RVM网络; 然后输入HAKE 视频理解引擎, 输出带有标签的视频; 将剪辑需 求文本输入transformer模型中, 输出按照语义 顺序排列的标签; 将获得的标签对比匹配; 将视 频匹配结果排序; 将上述步骤集成到一个一体化 系统中, 简化面向用户的操作。 本发明解决了前 剪辑技术门槛高、 且无法对多个视频同时剪辑需 要消耗大量的人力资源和时间资源的问题。 权利要求书2页 说明书4页 附图2页 CN 114979705 A 2022.08.30 CN 114979705 A 1.一种基于深度 学习、 自注意力 机制与符号推理的自动剪辑方法, 其特征在于, 包括以 下步骤: S1、 建立需要宣传的领域视频素材库, 采用RVM对低质量的视频片段进行分割, 其中需 要包含低质量的原 始视频与人工 剪辑后的高质量的视频; S2、 用步骤S1中搭建的数据库训练RVM, 获得适应该任务的网络架构, 用一个容量较大 的包含低质量片段和对应高质量片段的数据集, 来对原始的RVM进 行有监督训练, 获得一个 适应以视频质量高低来分割视频的网络; S3、 建立需要 描述的视频内容的基元库; S4、 利用HAKE的逻辑推理引擎 来组织基元, 获得一系列符合语义逻辑的标签; S5、 建立需要 进行语义理解的文本类型, 主 要考虑人工标注好的相关数据集; S6、 用步骤S5 的数据集来训练transformer会得到精度更高的适应分析剪辑需求的文 本理解网络; S7、 将需要进行自动剪辑的视频输入到步骤S2训练好的RVM网络, 获得除去人工失误或 环境因素影响的瑕疵部分获得高质量视频; S8、 将步骤S7获得的高质量视频输入HAKE 视频理解引擎, 输出 带有标签的视频; S9、 将剪辑 需求文本输入由步骤S6训练好的transformer模型中, 输出按照语义顺序排 列的标签; S10、 将步骤S 8和步骤S9获得的标签对比匹配; S11、 将视频按照步骤S10的匹配结果 排序; S12、 将上述 步骤集成到一个一体化系统中, 简化 面向用户的操作。 2.根据权利要求1所述的一种基于深度学习、 自注意力机制与符号推理的自动剪辑方 法, 其特征在于: 输出带有标签的视频具体为首先将收集大量的未经处理 的视频片段, 作为输入多通道 的经过预训练的RVM网络中, 删除由于认 为操作失误或环境因素导致的低质量片段, 输出没 有瑕疵的高质量片段; 其次, 当获得高质量的视频片段后, 让批量的片段作 为输入进入HAKE, HAKE通过三个阶 段的工作来对视频内容进 行理解, 其一建立相关领域的基元库, 其容量根据需要不断扩大, 其二运用逻辑推理规则将 基元按照语言逻辑组合起来, 其三运用CNN来对视频内容作标签, 输出带有标签的视频。 3.根据权利要求1所述的一种基于深度学习、 自注意力机制与符号推理的自动剪辑方 法, 其特征在于, 基元库的搭建工作分为 三步: 第一步要实现对两类实体的识别, 层次结构不同级别的实体和同一层次的实体; 第二步要进行层次感知的知识图嵌入, HAKE由两部分组成, 分别为量部分和相位部分, 分别针对两个不同类别的实体进行建模, 为了区分不同部分的嵌入, 在模量部分中, 使用em 和hm表示实体嵌入和关系嵌入, 而在相位部分中使用ep和rp表示实体嵌入和关系嵌入, HAKE 将模量部分和相位部分组合在一起, 将实体映射到极坐标系中, 其中径向坐标和角坐标分 别对应于模量部分和相位部分, HAKE将一个实体h映射到[hm; hp], [·;·]表示两个向量的 串联, 评分函数为dr,m(h,t)=| |hmrm‑tm||2,来评价模量和相位的效果; 第三步在进行视频分割的同时, 并行进行文本语义分割, 采用Transformer来完成该任权 利 要 求 书 1/2 页 2 CN 114979705 A 2务, Transformer由且仅由self ‑Attenion和Feed  Forward NeuralNetwork组成, 在 Transformer的encoder中, 数据首先会经过一个叫做 ‘self‑attention ’的模块得到一个加 权之后的特征向量Z, 其表示为 得到Z之后, 它会被送 到encoder的下一个模块, 即Feed  Forward Neural Network, 这个全连接有两层, 第一层的 激活函数是ReLU, 第二层是一个线性激活函数, 可以表示为FFN(Z)=max(0,ZW1+b1)W2+b2, 两个Attention分别用于计算输入和输出的权值, 将用户的需求文本输入到transformer 中, 经过对文本的理解, 输出按照文本语义逻辑 排列的语义标签, 多以基元的 的形式呈现; 最后采用常用的比较算法对比视频标签和文本标签, 在一定的容错范围内进行匹配, 依照文本标签的顺序对视频内容进行排序, 最终获得按照文本语义顺序排列的高质量的视 频片段, 即可作为成片。权 利 要 求 书 2/2 页 3 CN 114979705 A 3

.PDF文档 专利 一种基于深度学习、自注意力机制与符号推理的自动剪辑方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度学习、自注意力机制与符号推理的自动剪辑方法 第 1 页 专利 一种基于深度学习、自注意力机制与符号推理的自动剪辑方法 第 2 页 专利 一种基于深度学习、自注意力机制与符号推理的自动剪辑方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:35上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。