专利一种基于多概念知识挖掘的视频描述生成方法及存储介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210375021.6 (22)申请日 2022.04.11 (71)申请人同济大学地址 200092 上海市杨浦区四平路1239号 (72)发明人王瀚漓　张沁宇　 (74)专利代理机构上海科盛知识产权代理有限公司 312 25 专利代理师翁惠瑜 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01) G06K 9/62(2022.01) G06F 40/30(2020.01) (54)发明名称一种基于多概念知识挖掘的视频描述生成方法及存储介质 (57)摘要本发明涉及一种基于多概念知识挖掘的视频描述生成方法及存储介质，所述方法包括：获取待处理的输入视频，对所述输入视频进行视觉特征和语义标签提取，并对所述语义标签进行优化，获得先验语义标签，以所提取的视觉特征和所述先验语义标签作为基于Tran sformer结构的视频描述生成模型的输入，获得对应的描述结果，其中，所述视觉特征包括2D特征和3D特征；所述视频描述生成模型训练时，从训练样本中进行视频‑文本知识、视频 ‑视频知识和文本 ‑文本知识的挖掘，优化视频描述生成模型中多头自注意力层的参数和词嵌入层的参数。与现有技术相比，本发明具有主题相关度强、语义丰富度高、训练速度快等优点。权利要求书2页说明书9页附图2页 CN 114743143 A 2022.07.12 CN 114743143 A 1.一种基于多概念知识挖掘的视频描述生成方法，其特征在于，包括：获取待处理的输入视频，对所述输入视频进行视觉特征和语义标签提取，并对所述语义标签进行优化，获得先验语义标签，以所提取的视觉特征和所述先验语义标签作为基于Transformer结构的视频描述生成模型的输入，获得对应的描述结果，其中，所述视觉特征包括2D特征和3D特征；所述视频描述生成模型训练时，从训练样本中进行视频 ‑文本知识、视频 ‑视频知识和文本‑文本知识的挖掘，优化视频描述生成模型中多头自注意力层的参数和词嵌入层的参数。 2.根据权利要求1所述的基于多概念知识挖掘的视频描述生成方法，其特征在于，所述语义标签包括图像分类预测标签、行为识别预测标签、目标检测预测标签以及各标签对应的概率值。 3.根据权利要求1所述的基于多概念知识挖掘的视频描述生成方法，其特征在于，所述视觉特征和语义标签的提取以及所述视频 ‑文本知识的挖掘基于外部的预训练模型实现，所述视频 ‑视频知识和文本 ‑文本知识的挖掘基于目标数据集语料库训练实现。 4.根据权利要求3所述的基于多概念知识挖掘的视频描述生成方法，其特征在于，所述视频‑视频知识和文本 ‑文本知识的挖掘具体为：将训练样本中的2D特征和3D特征分别通过一个独立的编码器，输出2D特征编码和3D特征编码并进行拼接，进行视频描述生成任务的预训练，训练完成后，提取每个编码器中多头注意力层的参数和词嵌入层的参数；基于词嵌入层的参数进行计算得到目标数据集语料库中各单词之间的局部语义相似度；使用训练样本中的2D特征和3D特征进行视频多标签分类任务的预训练，训练过程中的损失函数基于所述局部语义相似度构建。 5.根据权利要求4所述的基于多概念知识挖掘的视频描述生成方法，其特征在于，所述损失函数表示为： yk,i； j+1＝yk,i； j+T(simlocal(k,j),0.5) ‑yk,i； j×T(simlocal(k,j),0.5) T(x,t)＝x ×sgn(max(x ‑t),0) 其中， p表示每个单词在该位置上出现的概率， pm＝max(p‑m,0)， m是一个控制负例贡献的超参数， γ+和γ‑分别是控制正例和负例权重的超参数， yk,i； j+1代表第i个视频在对视频所属的第j+1个标签进行处理时字典中第k个标签的目标值， simlocal(k,j)表示局部语义相似度。 6.根据权利要求1所述的基于多概念知识挖掘的视频描述生成方法，其特征在于，对所述语义标签进行优化具体为：基于大型词向量模型对所有语义标签所属数据集语料库中的各单词之间进行全局语义相似度的计算，并基于词嵌入层的参数计算得到目标数据集语料库中各单词之间的局部语义相似度，建立双重单词映射，获取每个语义标签的映射值，基于该映射值计算主题相关度，以设定数值选取主题相关度高的语义标签作为先验语义标签。权　利　要　求　书 1/2 页 2 CN 114743143 A 27.根据权利要求6所述的基于多概念知识挖掘的视频描述生成方法，其特征在于，所述大型词向量模型为Gl oVe模型。 8.根据权利要求6所述的基于多概念知识挖掘的视频描述生成方法，其特征在于，所述全局语义相似度和局部语义相似度采用的计算公式均为：其中，和分别代表两个单词基于词嵌入层参数的词向量表示， α和β 是控制语义相似度分布的超参数，在计算全局语义相似度和局部语义相似度取不同的数值。 9.根据权利要求1所述的基于多概念知识挖掘的视频描述生成方法，其特征在于，以所提取的视觉特征和所述先验语义标签作为基于Transformer结构的视频描述生成模型的输入具体为：将2D特征和3D特征分别通过一个独立的编码器得到2D特征编码和3D特征编码，将先验语义标签序列通过词嵌入层得到语义特征编码，将2D特征编码、 3D特征编码和语义特征编码进行拼接送入解码器中进行预测。 10.一种计算机可读存储介质，其特征在于，包括供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行如权利要求1 ‑9任一所述基于多概念知识挖掘的视频描述生成方法的指令。权　利　要　求　书 2/2 页 3 CN 114743143 A 3

专利 一种基于多概念知识挖掘的视频描述生成方法及存储介质

专利一种基于多概念知识挖掘的视频描述生成方法及存储介质