(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210375021.6
(22)申请日 2022.04.11
(71)申请人 同济大学
地址 200092 上海市杨 浦区四平路1239号
(72)发明人 王瀚漓 张沁宇
(74)专利代理 机构 上海科盛知识产权代理有限
公司 312 25
专利代理师 翁惠瑜
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/774(2022.01)
G06V 10/764(2022.01)
G06K 9/62(2022.01)
G06F 40/30(2020.01)
(54)发明名称
一种基于多概念知识挖掘的视频描述生成
方法及存 储介质
(57)摘要
本发明涉及一种基于多概念知识挖掘的视
频描述生成方法及存储介质, 所述方法包括: 获
取待处理的输入视频, 对所述输入视频进行视觉
特征和语义标签提取, 并对所述语义标签进行优
化, 获得先验语义标签, 以所提取的视觉特征和
所述先验语义标签作为基于Tran sformer结构的
视频描述生成模型的输入, 获得对应的描述结
果, 其中, 所述视觉 特征包括2D特征和3D特征; 所
述视频描述生成模型训练时, 从训练样本中进行
视频‑文本知识、 视频 ‑视频知识和文本 ‑文本知
识的挖掘, 优化视频描述生 成模型中多头自注意
力层的参数和词嵌入层的参数。 与现有技术相
比, 本发明具有主题相关度强、 语义丰富度高、 训
练速度快等优点。
权利要求书2页 说明书9页 附图2页
CN 114743143 A
2022.07.12
CN 114743143 A
1.一种基于多概念知识挖掘的视频描述生成方法, 其特征在于, 包括: 获取待处理的输
入视频, 对所述输入视频进行视觉特征和语义标签提取, 并对 所述语义标签进 行优化, 获得
先验语义标签, 以所提取的视觉特征和所述先验语义标签作为基于Transformer结构的视
频描述生成模型的输入, 获得对应的描述结果, 其中, 所述视 觉特征包括2D特 征和3D特 征;
所述视频描述生成模型训练时, 从训练样本中进行视频 ‑文本知识、 视频 ‑视频知识和
文本‑文本知识的挖掘, 优化视频描述生成模型中多头 自注意力层的参数和词嵌入层的参
数。
2.根据权利要求1所述的基于多概念知识挖掘的视频描述生成方法, 其特征在于, 所述
语义标签包括图像分类预测标签、 行为识别预测标签、 目标检测预测标签以及各标签对应
的概率值。
3.根据权利要求1所述的基于多概念知识挖掘的视频描述生成方法, 其特征在于, 所述
视觉特征和语义标签的提取以及所述视频 ‑文本知识的挖掘 基于外部的预训练模型实现,
所述视频 ‑视频知识和文本 ‑文本知识的挖掘基于目标 数据集语料库训练实现。
4.根据权利要求3所述的基于多概念知识挖掘的视频描述生成方法, 其特征在于, 所述
视频‑视频知识和文本 ‑文本知识的挖掘具体为:
将训练样本中的2D特征和3D特征分别通过一个独立的编码器, 输出2D特征编码和3D特
征编码并进行拼接, 进 行视频描述生成任务的预训练, 训练完成后, 提取每个编 码器中多头
注意力层的参数和词嵌入层的参数;
基于词嵌入层的参数进行计算得到目标数据集语料库中各单词之间的局部语义相似
度;
使用训练样本中的2D特征和3D特征进行视频多标签分类任务的预训练, 训练过程中的
损失函数基于所述局部语义相似度构建。
5.根据权利要求4所述的基于多概念知识挖掘的视频描述生成方法, 其特征在于, 所述
损失函数表示 为:
yk,i; j+1=yk,i; j+T(simlocal(k,j),0.5) ‑yk,i; j×T(simlocal(k,j),0.5)
T(x,t)=x ×sgn(max(x ‑t),0)
其中, p表示每个单词在该位置上出现的概率, pm=max(p‑m,0), m是一个控制负例贡献
的超参数, γ+和γ‑分别是控制正例和负例权重的超参数, yk,i; j+1代表第i个视频在对视频
所属的第j+1个标签进行处理时字典中第k个标签的目标值, simlocal(k,j)表示局部语义相
似度。
6.根据权利要求1所述的基于多概念知识挖掘的视频描述生成方法, 其特征在于, 对所
述语义标签进行优化具体为:
基于大型词向量模型对所有语义标签所属数据集语料库中的各单词之间进行全局语
义相似度的计算, 并基于词嵌入层的参数计算得到目标数据集语料库中各单词之 间的局部
语义相似度, 建立双重单词映射, 获取每个语义标签的映射值, 基于该映射值计算主题相关
度, 以设定数值选取主题相关度高的语义标签作为先验语义标签。权 利 要 求 书 1/2 页
2
CN 114743143 A
27.根据权利要求6所述的基于多概念知识挖掘的视频描述生成方法, 其特征在于, 所述
大型词向量模型为Gl oVe模型。
8.根据权利要求6所述的基于多概念知识挖掘的视频描述生成方法, 其特征在于, 所述
全局语义相似度和 局部语义相似度采用的计算公式均为:
其中,
和
分别代表两个单词基于词嵌入层参数的词向量表示, α和β 是控制语义相似
度分布的超参数, 在计算全局语义相似度和 局部语义相似度取不同的数值。
9.根据权利要求1所述的基于多概念知识挖掘的视频描述生成方法, 其特征在于, 以所
提取的视觉特征和所述先验语义标签作为基于Transformer结构的视频描述生 成模型的输
入具体为:
将2D特征和3D特征分别通过一个独立的编码器得到2D特征编码和3D特征编码, 将先验
语义标签序列通过词嵌入层得到语义特征编码, 将2D特征编码、 3D特征编码和 语义特征编
码进行拼接送入解码器中进行 预测。
10.一种计算机可读存储介质, 其特征在于, 包括供电子设备的一个或多个处理器执行
的一个或多个程序, 所述一个或多个程序包括用于执行如权利要求1 ‑9任一所述基于多概
念知识挖掘的视频描述 生成方法的指令 。权 利 要 求 书 2/2 页
3
CN 114743143 A
3
专利 一种基于多概念知识挖掘的视频描述生成方法及存储介质
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:45:07上传分享