专利一种基于句子语义的视频描述方法、装置及存储介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210487341.0 (22)申请日 2022.05.06 (71)申请人桂林电子科技大学地址 541004 广西壮族自治区桂林市七星区金鸡路1号 (72)发明人蔡晓东　周美欣　 (74)专利代理机构北京轻创知识产权代理有限公司 11212 专利代理师李昆蔚 (51)Int.Cl. G06F 16/783(2019.01) G06F 16/78(2019.01) G06F 40/30(2020.01) (54)发明名称一种基于句子语义的视频描述方法、装置及存储介质 (57)摘要本发明涉及一种基于句子语义的视频描述方法、装置及存储介质，属于技术领域；方法包括步骤：将视觉特征和运动特征进行拼接融合，将目标视频特征对应的描述词袋转换为文本特征，根据视觉词、目标视频特征及其对应的文本特征构建损失函数模型，以及计算每个单词在句中出现的概率，根据概率得到句子级别损失函数，通过句子级别损失函数和损失函数模型进行损失迭代计算，得到最终的视频描述信息；本发明有助于提高预测长度的准确性，从而生成的视频描述信息更完整。权利要求书2页说明书6页附图2页 CN 114817637 A 2022.07.29 CN 114817637 A 1.一种基于句子语义的视频描述方法，其特征在于，包括如下步骤：导入数据集，所述数据集包括多个视频及描述对以及与各个所述视频及描述对对应的描述词袋；将各个所述视频及描述对中的视频分别进行视觉特征和运动特征提取，将每个所述视频对应的视觉特征和运动特征进行拼接融合，得到目标视频特征，并通过词嵌入方式将目标视频特征对应的描述词袋转换为文本特征；对所述目标视频特征进行句子长度的预测，并结合预设的标签对预测的句子长度信息进行损失计算，得到含有标签的句子长度信息；将所述含有标签的句子长度信息解码生成视觉词，并根据所述视觉词、所述目标视频特征及其对应的文本特征构建损失函数模型；通过所述视觉词计算所述文本特征中每个单词在句中出现的概率；根据所述概率得到句子级别损失函数，通过所述句子级别损失函数和所述损失函数模型进行损失迭代计算，得到最终的视频描述信息。 2.根据权利要求1所述的视频描述方法，其特征在于，还包括对拼接融合后的视觉特征和运动特征进行紧凑处理的步骤，具体为：通过highway网络对拼接融合后的视觉特征和运动特征进行紧凑处理。 3.根据权利要求1所述的视频描述方法，其特征在于，所述对所述目标视频特征进行句子长度的预测，具体为：通过第一式对所述目标视频特征进行句子长度的预测，所述第一式为： L＝Soft max(ReLU(MP(V)Wl1)Wl2)，其中， MP表示平均池化， RELU和Softmax表示激活函数，和表示权重参数。 4.根据权利要求1所述的视频描述方法，其特征在于，所述根据所述视觉词、所述目标视频特征及其对应的文本特征构建损失函数模型，具体为：所述损失函数模型为：其中， V表示所述目标视频特征及其对应的文本特征， Yvis表示视觉词， Yobs表示生成过程中未掩盖的词， Ymask表示生成过程中掩盖的词， λ表示可调整的参数。 5.根据权利要求1所述的视频描述方法，其特征在于，所述通过所述视觉词计算所述文本特征中每个单词在句中出现的概率，具体为：通过第二式计算视觉词的单词级别分数，所述第二式为： st＝Wght+bg，其中， ht表示视觉词， Wg， bg表示学习训练参数；通过第三式和所述单词级别分数计算每个单词在句中出现的概率，所述第三式为：其中， Sb表示概率， K表示第i个视频对应的标签的词袋数量， bi表示标签对应的词袋。 6.根据权利要求1所述的视频描述方法，其特征在于，所述根据所述概率得到句子级别权　利　要　求　书 1/2 页 2 CN 114817637 A 2损失函数，通过所述句子级别损失函数和所述损失函数模型进行损失迭代计算，得到最终的视频描述信息，具体为：通过第四式和所述概率Sb计算句子级别损失函数，所述第四式为：其中， K表示第i个视频对应的标签的词袋数量， bi表示标签对应的词袋；通过第五式、所述句子级别损失函数和所述损失函数模型Lw进行损失迭代计算，得到最终的视频描述信息，所述第五式为： Lgen＝Lw+α Ls，其中， α 表示损失函数模型。 7.一种基于句子语义的视频描述装置，其特征在于，包括：数据导入模块，用于导入数据集，所述数据集包括多个视频及描述对以及与各个所述视频及描述对对应的描述词袋；视频特征处理模块，用于将各个所述视频及描述对中的视频分别进行视觉特征和运动特征提取，将每个所述视频对应的视觉特征和运动特征进行拼接融合，得到目标视频特征，并通过词嵌入方式将目标视频特征对应的描述词袋转换为文本特征；句子长度预测模块，用于对所述目标视频特征进行句子长度的预测，并结合预设的标签对预测的句子长度信息进行损失计算，得到含有标签的句子长度信息；视频特征解码模块，用于将所述含有标签的句子长度信息解码生成视觉词，并根据所述视觉词、所述目标视频特征及其对应的文本特征构建损失函数模型；句子语义处理模块，用于通过所述视觉词ht计算所述文本特征中每个单词在句中出现的概率；根据所述概率得到句子级别损失函数，通过所述句子级别损失函数和所述损失函数模型进行损失迭代计算，得到最终的视频描述信息。 8.根据权利要求1所述的视频描述装置，其特征在于，还包括对拼接融合后的视觉特征和运动特征进行紧凑处理的步骤，具体为：通过highway网络对拼接融合后的视觉特征和运动特征进行紧凑处理。 9.一种基于句子语义的视频描述装置，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，当所述处理器执行所述计算机程序时，实现如权利要求1至 6任一项所述的基于句子语义的视频描述方法。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1至6任一项所述的基于句子语义的视频描述方法。权　利　要　求　书 2/2 页 3 CN 114817637 A 3

专利 一种基于句子语义的视频描述方法、装置及存储介质

专利一种基于句子语义的视频描述方法、装置及存储介质