(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210833563.3 (22)申请日 2022.07.14 (71)申请人 桂林电子科技大 学 地址 541004 广西壮 族自治区桂林市七 星 区金鸡路1号 (72)发明人 蔡晓东 王湘晴  (74)专利代理 机构 北京轻创知识产权代理有限 公司 11212 专利代理师 赵秀斌 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) (54)发明名称 一种视频描述方法、 装置及存 储介质 (57)摘要 本发明提供一种视频描述方法、 装置及存储 介质, 方法包括: 从预设视频数据集中导入待描 述视频, 对所述待描述视频进行特征提取, 得到 图像特征和运动特征; 将所述图像特征和所述运 动特征拼接, 得到拼接特征, 并通过门控融合机 制将所述图像特征、 所述运动特征和所述拼接特 征一并进行编码处理, 得到编码视觉视频特征; 将所述编码 视觉视频特征进行解码, 得到所述编 码视觉视频特征的描述。 本发明能够去除视频特 征语义信息里多余或不重要的信息, 降低冗余信 息对生成描述的干 扰, 提升视频描述的准确性。 权利要求书2页 说明书6页 附图1页 CN 115205746 A 2022.10.18 CN 115205746 A 1.一种视频描述方法, 其特 征在于, 包括如下步骤: 从预设视频数据集中导入待描述视频, 对所述待描述视频进行特征提取, 得到 图像特 征和运动特 征; 将所述图像特征和所述运动特征拼接, 得到拼接特征, 并通过门控融合机制将所述图 像特征、 所述运动特征和所述 拼接特征一并进行编码处 理, 得到编码视 觉视频特征; 将所述编码视 觉视频特征进行解码, 得到所述编码视 觉视频特征的描述。 2.根据权利要求1所述的视频描述方法, 其特征在于, 所述从预设视频数据集中导入待 描述视频, 对所述待 描述视频进行 特征提取, 得到图像特 征和运动特 征, 具体为: 将待描述视频定义 为视频序列V, 且V={i1,i2,…,in}, in表示视频帧数; 通过2D‑CNN模型从所述视频序列V中进行 特征提取, 得到图像特 征; 通过3D‑CNN模型从所述视频序列V中进行 特征提取, 得到运动特 征。 3.根据权利要求1所述的视频描述方法, 其特征在于, 所述将所述图像特征和所述运动 特征拼接, 得到拼接特征, 并通过门控融合机制将所述图像特征、 所述运动特征和所述拼接 特征一并进行编码处 理, 得到编码视 觉视频特征, 具体为: 通过cat函数将所述图像特 征和所述 运动特征拼接, 得到拼接特 征; 通过仿射变换加非线性激活函数WH将拼接特 征进行变换, 得到变换H; 将所述变换H进行非线性变换T(x, WT), 得到权重参数t; 从所述图像特征和所述运动特征中筛选出有 效信息和冗余信 息, 将所述有 效信息对应 的特征和所述冗余信息对应的特 征进行非线性变换C(x, WC), 得到权重参数c; 通过门控融合机制 将变换H以及所述有 效信息对应的特征和所述冗余信 息对应的特征 进行输出, 输出为: y=H(x, WH)⊙T(x, WT)+x⊙C(x, WC), 其中, y为输出, H(x, WH)为变换H, x为 拼接特征; 将输出y中的有效信息保留, 滤除冗余信息, 得到编码视 觉视频特征。 4.根据权利要求3所述的视频描述方法, 其特征在于, 所述将输出y中的有效信 息保留, 滤除冗余信息, 得到编码视 觉视频特征, 具体为: 令C=1‑T, 所述输出y变换为输出y ’: y’=H(x, WH)⊙T(x, WT)+x⊙(1‑T(x, WT)), 其中, C和T均为非线性变换, 并将t介于 0~1之间, 则将T定义 为: T(x, WT)=σ(WTTx+bT), 其中, bT为T的偏置, 且将T的偏置bT初始化为负数, 则通过最终的输出y ’得到编码视 觉视频特征。 5.根据权利要求1所述的视频描述方法, 其特征在于, 所述将所述编码视觉视频特征进 行解码, 得到所述编码视 觉视频特征的描述, 具体为: 将所述编码视觉视频特征输入到预设解码器中进行解码, 得到所述编码视觉视频特征 的句子和标签, 根据 交叉熵损失函数对所述句 子和标签进行句 长调制损失函数 的计算, 在 计算过程中根据真实标签的长度对交叉熵损失函数进行加权处 理, 所述加权处 理为: 权 利 要 求 书 1/2 页 2 CN 115205746 A 2其中, 为一句完整的句子, 即一个完整的标签, θ为设定参数, bs为批量大小, Li为标签 句长, 为属于标签中第t ‑1个单词, hi, t‑1, ci, t‑1, si分别为第i个视频的输出状态、 细胞状 态和语义特征, Xi表示输入第i个视频, β ≥0为超参数, 用于在生成描述的简洁性和准确性 之间保持平衡。 6.一种视频描述装置, 其特 征在于, 包括: 提取模块, 用于从预设视频数据集中导入待描述视频, 对所述待描述视频进行特征提 取, 得到图像特 征和运动特 征; 编码模块, 用于将所述图像特征和所述运动特征拼接, 得到拼接特征, 并通过门控融合 机制将所述图像特征、 所述运动特征和所述拼接特征一并进行编码处理, 得到编码视觉视 频特征; 解码模块, 用于将所述编码视觉视频特征进行解码, 得到所述编码视觉视频特征的描 述。 7.根据权利要求6所述的视频描述装置, 其特征在于, 所述提取模块中, 从预设视频数 据集中导入待描述视频, 对所述待描述视频进行特征提取, 得到图像特征和运动特征, 具体 为: 将待描述视频定义 为视频序列V, 且V={i1,i2,…,in}, in表示视频帧数; 通过2D‑CNN模型从所述视频序列V中进行 特征提取, 得到图像特 征; 通过3D‑CNN模型从所述视频序列V中进行 特征提取, 得到运动特 征。 8.根据权利要求6所述的视频描述装置, 其特征在于, 所述编码模块中, 将所述图像特 征和所述运动特征拼接, 得到拼接特征, 并通过门控融合机制将所述图像特征、 所述运动特 征和所述 拼接特征一并进行编码处 理, 得到编码视 觉视频特征, 具体为: 通过cat函数将所述图像特 征和所述 运动特征拼接, 得到拼接特 征; 通过仿射变换加非线性激活函数WH将拼接特 征进行变换, 得到变换H; 将所述变换H进行非线性变换T(x, WT), 得到权重参数t; 从所述图像特征和所述运动特征中筛选出有 效信息和冗余信 息, 将所述有 效信息对应 的特征和所述冗余信息对应的特 征进行非线性变换C(x, WC), 得到权重参数c; 通过门控融合机制 将变换H以及所述有 效信息对应的特征和所述冗余信 息对应的特征 进行输出, 输出为: y=H(x, WH)⊙T(x, WT)+x⊙C(x, WC), 其中, y为输出, H(x, WH)为变换H, x为 拼接特征; 将输出y中的有效信息保留, 滤除冗余信息, 得到编码视 觉视频特征。 9.一种视频描述装置, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理 器上运行 的计算机程序, 当所述处理器执行所述计算机程序时, 实现如权利要求1至5任一 项所述的视频描述方法。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 当所述计算机程序被处 理器执行时, 实现如权利要求1至 5任一项所述的视频描述方法。权 利 要 求 书 2/2 页 3 CN 115205746 A 3

.PDF文档 专利 一种视频描述方法、装置及存储介质

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种视频描述方法、装置及存储介质 第 1 页 专利 一种视频描述方法、装置及存储介质 第 2 页 专利 一种视频描述方法、装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:28:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。