专利一种视频描述方法、装置及存储介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210833563.3 (22)申请日 2022.07.14 (71)申请人桂林电子科技大学地址 541004 广西壮族自治区桂林市七星区金鸡路1号 (72)发明人蔡晓东　王湘晴　 (74)专利代理机构北京轻创知识产权代理有限公司 11212 专利代理师赵秀斌 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) (54)发明名称一种视频描述方法、装置及存储介质 (57)摘要本发明提供一种视频描述方法、装置及存储介质，方法包括：从预设视频数据集中导入待描述视频，对所述待描述视频进行特征提取，得到图像特征和运动特征；将所述图像特征和所述运动特征拼接，得到拼接特征，并通过门控融合机制将所述图像特征、所述运动特征和所述拼接特征一并进行编码处理，得到编码视觉视频特征；将所述编码视觉视频特征进行解码，得到所述编码视觉视频特征的描述。本发明能够去除视频特征语义信息里多余或不重要的信息，降低冗余信息对生成描述的干扰，提升视频描述的准确性。权利要求书2页说明书6页附图1页 CN 115205746 A 2022.10.18 CN 115205746 A 1.一种视频描述方法，其特征在于，包括如下步骤：从预设视频数据集中导入待描述视频，对所述待描述视频进行特征提取，得到图像特征和运动特征；将所述图像特征和所述运动特征拼接，得到拼接特征，并通过门控融合机制将所述图像特征、所述运动特征和所述拼接特征一并进行编码处理，得到编码视觉视频特征；将所述编码视觉视频特征进行解码，得到所述编码视觉视频特征的描述。 2.根据权利要求1所述的视频描述方法，其特征在于，所述从预设视频数据集中导入待描述视频，对所述待描述视频进行特征提取，得到图像特征和运动特征，具体为：将待描述视频定义为视频序列V，且V＝{i1,i2,…,in}， in表示视频帧数；通过2D‑CNN模型从所述视频序列V中进行特征提取，得到图像特征；通过3D‑CNN模型从所述视频序列V中进行特征提取，得到运动特征。 3.根据权利要求1所述的视频描述方法，其特征在于，所述将所述图像特征和所述运动特征拼接，得到拼接特征，并通过门控融合机制将所述图像特征、所述运动特征和所述拼接特征一并进行编码处理，得到编码视觉视频特征，具体为：通过cat函数将所述图像特征和所述运动特征拼接，得到拼接特征；通过仿射变换加非线性激活函数WH将拼接特征进行变换，得到变换H；将所述变换H进行非线性变换T(x， WT)，得到权重参数t；从所述图像特征和所述运动特征中筛选出有效信息和冗余信息，将所述有效信息对应的特征和所述冗余信息对应的特征进行非线性变换C(x， WC)，得到权重参数c；通过门控融合机制将变换H以及所述有效信息对应的特征和所述冗余信息对应的特征进行输出，输出为： y＝H(x， WH)⊙T(x， WT)+x⊙C(x， WC)，其中， y为输出， H(x， WH)为变换H， x为拼接特征；将输出y中的有效信息保留，滤除冗余信息，得到编码视觉视频特征。 4.根据权利要求3所述的视频描述方法，其特征在于，所述将输出y中的有效信息保留，滤除冗余信息，得到编码视觉视频特征，具体为：令C＝1‑T，所述输出y变换为输出y ’： y’＝H(x， WH)⊙T(x， WT)+x⊙(1‑T(x， WT))，其中， C和T均为非线性变换，并将t介于 0～1之间，则将T定义为： T(x， WT)＝σ(WTTx+bT)，其中， bT为T的偏置，且将T的偏置bT初始化为负数，则通过最终的输出y ’得到编码视觉视频特征。 5.根据权利要求1所述的视频描述方法，其特征在于，所述将所述编码视觉视频特征进行解码，得到所述编码视觉视频特征的描述，具体为：将所述编码视觉视频特征输入到预设解码器中进行解码，得到所述编码视觉视频特征的句子和标签，根据交叉熵损失函数对所述句子和标签进行句长调制损失函数的计算，在计算过程中根据真实标签的长度对交叉熵损失函数进行加权处理，所述加权处理为：权　利　要　求　书 1/2 页 2 CN 115205746 A 2其中，为一句完整的句子，即一个完整的标签， θ为设定参数， bs为批量大小， Li为标签句长，为属于标签中第t ‑1个单词， hi， t‑1， ci， t‑1， si分别为第i个视频的输出状态、细胞状态和语义特征， Xi表示输入第i个视频， β ≥0为超参数，用于在生成描述的简洁性和准确性之间保持平衡。 6.一种视频描述装置，其特征在于，包括：提取模块，用于从预设视频数据集中导入待描述视频，对所述待描述视频进行特征提取，得到图像特征和运动特征；编码模块，用于将所述图像特征和所述运动特征拼接，得到拼接特征，并通过门控融合机制将所述图像特征、所述运动特征和所述拼接特征一并进行编码处理，得到编码视觉视频特征；解码模块，用于将所述编码视觉视频特征进行解码，得到所述编码视觉视频特征的描述。 7.根据权利要求6所述的视频描述装置，其特征在于，所述提取模块中，从预设视频数据集中导入待描述视频，对所述待描述视频进行特征提取，得到图像特征和运动特征，具体为：将待描述视频定义为视频序列V，且V＝{i1,i2,…,in}， in表示视频帧数；通过2D‑CNN模型从所述视频序列V中进行特征提取，得到图像特征；通过3D‑CNN模型从所述视频序列V中进行特征提取，得到运动特征。 8.根据权利要求6所述的视频描述装置，其特征在于，所述编码模块中，将所述图像特征和所述运动特征拼接，得到拼接特征，并通过门控融合机制将所述图像特征、所述运动特征和所述拼接特征一并进行编码处理，得到编码视觉视频特征，具体为：通过cat函数将所述图像特征和所述运动特征拼接，得到拼接特征；通过仿射变换加非线性激活函数WH将拼接特征进行变换，得到变换H；将所述变换H进行非线性变换T(x， WT)，得到权重参数t；从所述图像特征和所述运动特征中筛选出有效信息和冗余信息，将所述有效信息对应的特征和所述冗余信息对应的特征进行非线性变换C(x， WC)，得到权重参数c；通过门控融合机制将变换H以及所述有效信息对应的特征和所述冗余信息对应的特征进行输出，输出为： y＝H(x， WH)⊙T(x， WT)+x⊙C(x， WC)，其中， y为输出， H(x， WH)为变换H， x为拼接特征；将输出y中的有效信息保留，滤除冗余信息，得到编码视觉视频特征。 9.一种视频描述装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，当所述处理器执行所述计算机程序时，实现如权利要求1至5任一项所述的视频描述方法。 10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，当所述计算机程序被处理器执行时，实现如权利要求1至 5任一项所述的视频描述方法。权　利　要　求　书 2/2 页 3 CN 115205746 A 3

专利 一种视频描述方法、装置及存储介质

专利一种视频描述方法、装置及存储介质