(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210833563.3
(22)申请日 2022.07.14
(71)申请人 桂林电子科技大 学
地址 541004 广西壮 族自治区桂林市七 星
区金鸡路1号
(72)发明人 蔡晓东 王湘晴
(74)专利代理 机构 北京轻创知识产权代理有限
公司 11212
专利代理师 赵秀斌
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/40(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
(54)发明名称
一种视频描述方法、 装置及存 储介质
(57)摘要
本发明提供一种视频描述方法、 装置及存储
介质, 方法包括: 从预设视频数据集中导入待描
述视频, 对所述待描述视频进行特征提取, 得到
图像特征和运动特征; 将所述图像特征和所述运
动特征拼接, 得到拼接特征, 并通过门控融合机
制将所述图像特征、 所述运动特征和所述拼接特
征一并进行编码处理, 得到编码视觉视频特征;
将所述编码 视觉视频特征进行解码, 得到所述编
码视觉视频特征的描述。 本发明能够去除视频特
征语义信息里多余或不重要的信息, 降低冗余信
息对生成描述的干 扰, 提升视频描述的准确性。
权利要求书2页 说明书6页 附图1页
CN 115205746 A
2022.10.18
CN 115205746 A
1.一种视频描述方法, 其特 征在于, 包括如下步骤:
从预设视频数据集中导入待描述视频, 对所述待描述视频进行特征提取, 得到 图像特
征和运动特 征;
将所述图像特征和所述运动特征拼接, 得到拼接特征, 并通过门控融合机制将所述图
像特征、 所述运动特征和所述 拼接特征一并进行编码处 理, 得到编码视 觉视频特征;
将所述编码视 觉视频特征进行解码, 得到所述编码视 觉视频特征的描述。
2.根据权利要求1所述的视频描述方法, 其特征在于, 所述从预设视频数据集中导入待
描述视频, 对所述待 描述视频进行 特征提取, 得到图像特 征和运动特 征, 具体为:
将待描述视频定义 为视频序列V, 且V={i1,i2,…,in}, in表示视频帧数;
通过2D‑CNN模型从所述视频序列V中进行 特征提取, 得到图像特 征;
通过3D‑CNN模型从所述视频序列V中进行 特征提取, 得到运动特 征。
3.根据权利要求1所述的视频描述方法, 其特征在于, 所述将所述图像特征和所述运动
特征拼接, 得到拼接特征, 并通过门控融合机制将所述图像特征、 所述运动特征和所述拼接
特征一并进行编码处 理, 得到编码视 觉视频特征, 具体为:
通过cat函数将所述图像特 征和所述 运动特征拼接, 得到拼接特 征;
通过仿射变换加非线性激活函数WH将拼接特 征进行变换, 得到变换H;
将所述变换H进行非线性变换T(x, WT), 得到权重参数t;
从所述图像特征和所述运动特征中筛选出有 效信息和冗余信 息, 将所述有 效信息对应
的特征和所述冗余信息对应的特 征进行非线性变换C(x, WC), 得到权重参数c;
通过门控融合机制 将变换H以及所述有 效信息对应的特征和所述冗余信 息对应的特征
进行输出, 输出为:
y=H(x, WH)⊙T(x, WT)+x⊙C(x, WC),
其中, y为输出, H(x, WH)为变换H, x为 拼接特征;
将输出y中的有效信息保留, 滤除冗余信息, 得到编码视 觉视频特征。
4.根据权利要求3所述的视频描述方法, 其特征在于, 所述将输出y中的有效信 息保留,
滤除冗余信息, 得到编码视 觉视频特征, 具体为:
令C=1‑T, 所述输出y变换为输出y ’:
y’=H(x, WH)⊙T(x, WT)+x⊙(1‑T(x, WT)),
其中, C和T均为非线性变换, 并将t介于 0~1之间, 则将T定义 为:
T(x, WT)=σ(WTTx+bT),
其中, bT为T的偏置, 且将T的偏置bT初始化为负数,
则通过最终的输出y ’得到编码视 觉视频特征。
5.根据权利要求1所述的视频描述方法, 其特征在于, 所述将所述编码视觉视频特征进
行解码, 得到所述编码视 觉视频特征的描述, 具体为:
将所述编码视觉视频特征输入到预设解码器中进行解码, 得到所述编码视觉视频特征
的句子和标签, 根据 交叉熵损失函数对所述句 子和标签进行句 长调制损失函数 的计算, 在
计算过程中根据真实标签的长度对交叉熵损失函数进行加权处 理, 所述加权处 理为:
权 利 要 求 书 1/2 页
2
CN 115205746 A
2其中,
为一句完整的句子, 即一个完整的标签, θ为设定参数, bs为批量大小, Li为标签
句长,
为属于标签中第t ‑1个单词, hi, t‑1, ci, t‑1, si分别为第i个视频的输出状态、 细胞状
态和语义特征, Xi表示输入第i个视频, β ≥0为超参数, 用于在生成描述的简洁性和准确性
之间保持平衡。
6.一种视频描述装置, 其特 征在于, 包括:
提取模块, 用于从预设视频数据集中导入待描述视频, 对所述待描述视频进行特征提
取, 得到图像特 征和运动特 征;
编码模块, 用于将所述图像特征和所述运动特征拼接, 得到拼接特征, 并通过门控融合
机制将所述图像特征、 所述运动特征和所述拼接特征一并进行编码处理, 得到编码视觉视
频特征;
解码模块, 用于将所述编码视觉视频特征进行解码, 得到所述编码视觉视频特征的描
述。
7.根据权利要求6所述的视频描述装置, 其特征在于, 所述提取模块中, 从预设视频数
据集中导入待描述视频, 对所述待描述视频进行特征提取, 得到图像特征和运动特征, 具体
为:
将待描述视频定义 为视频序列V, 且V={i1,i2,…,in}, in表示视频帧数;
通过2D‑CNN模型从所述视频序列V中进行 特征提取, 得到图像特 征;
通过3D‑CNN模型从所述视频序列V中进行 特征提取, 得到运动特 征。
8.根据权利要求6所述的视频描述装置, 其特征在于, 所述编码模块中, 将所述图像特
征和所述运动特征拼接, 得到拼接特征, 并通过门控融合机制将所述图像特征、 所述运动特
征和所述 拼接特征一并进行编码处 理, 得到编码视 觉视频特征, 具体为:
通过cat函数将所述图像特 征和所述 运动特征拼接, 得到拼接特 征;
通过仿射变换加非线性激活函数WH将拼接特 征进行变换, 得到变换H;
将所述变换H进行非线性变换T(x, WT), 得到权重参数t;
从所述图像特征和所述运动特征中筛选出有 效信息和冗余信 息, 将所述有 效信息对应
的特征和所述冗余信息对应的特 征进行非线性变换C(x, WC), 得到权重参数c;
通过门控融合机制 将变换H以及所述有 效信息对应的特征和所述冗余信 息对应的特征
进行输出, 输出为:
y=H(x, WH)⊙T(x, WT)+x⊙C(x, WC),
其中, y为输出, H(x, WH)为变换H, x为 拼接特征;
将输出y中的有效信息保留, 滤除冗余信息, 得到编码视 觉视频特征。
9.一种视频描述装置, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理
器上运行 的计算机程序, 当所述处理器执行所述计算机程序时, 实现如权利要求1至5任一
项所述的视频描述方法。
10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在
于, 当所述计算机程序被处 理器执行时, 实现如权利要求1至 5任一项所述的视频描述方法。权 利 要 求 书 2/2 页
3
CN 115205746 A
3
专利 一种视频描述方法、装置及存储介质
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:28:22上传分享