(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210270425.9
(22)申请日 2022.03.18
(65)同一申请的已公布的文献号
申请公布号 CN 114357124 A
(43)申请公布日 2022.04.15
(73)专利权人 成都考拉悠然科技有限公司
地址 610000 四川省成 都市自由贸易试验
区成都高新区天府五街200号4号楼A
区10层10 01、 1002、 1003室
(72)发明人 徐行 蒋寻 沈复民 申恒涛
(74)专利代理 机构 成都君合集专利代理事务所
(普通合伙) 51228
专利代理师 尹新路
(51)Int.Cl.
G06F 16/33(2019.01)G06F 16/783(2019.01)
G06F 40/126(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
审查员 李艳霞
(54)发明名称
一种基于语言重建和图机制的视频段落定
位方法
(57)摘要
本发明涉及多模态视频理解中的跨模态内
容检索技术领域, 公开了一种基于语 言重建和图
机制的视频段落定位方法, 包括: 选择数据集, 构
建视频段落, 使用损失函数训练模型, 最后验证
模型效果。 本发 明用于提高细粒度的异构数据之
间的信息交互能力, 增强对视频内容的理解, 提
高模型对视频 ‑文本的跨模态内容理解能力。 本
发明可用于各种多模态视频理解场合, 如网络视
频APP、 智慧安防系统、 大规模视频内容检索等,
可改善用户软件使用体验, 提高视频、 安防、 社会
治理等相关领域工作人员的工作效率。
权利要求书2页 说明书8页 附图3页
CN 114357124 B
2022.06.14
CN 114357124 B
1.一种基于语言重建和图机制的视频 段落定位方法, 其特 征在于, 包括以下步骤:
步骤S1.选择训练数据集, 提取视频 ‑段落对作为定位 算法模型的输入;
步骤S2.加载预训练的3D卷积神经网络的模型参数, 提取所述视频 ‑段落对中的视频模
态, 获取片段级视频 特征;
步骤S3.提取所述视频 ‑段落对中的文本模态, 使用GloVe编码将文本模态中的各个单
词表示为固定维度的词向量作为 查询文本编码;
步骤S4.使用投影层和正则化处理查询文本编码, 获取单词级文本特征, 随后将单词级
文本特征按句 子拆分, 并将得到的每个句 子依次输入到双向门控编码单元中, 提取出句 子
级文本特征;
步骤S5. 将片段级视频特征和单词级文本特征连结在一起, 将每个特征点作为一个图
结点, 每条边的强度设为可学习参数, 初始化为一张由视频特征结点和文本特征结点组成
的多模态全连接图, 并输入到多模态图编码器中进行多模态特征融合, 使得每个结点能够
选择性地从邻居结点获取信息, 实现细粒度的特 征交互;
步骤S5.1. 将视频结点和文本结点连 结, 边权值设置为可 学习值, 初始化多模态图;
步骤S5.2. 将多模态图传入多模态图编码器中, 进行多模态图建模, 通过Transformer
编码器对图建模层、 视频和文本的位置编码获取 单层多模态图建模;
步骤S5.3.多模态图编码器由多层步骤S5.2中所述单层多模态图建模结构构成, 采用
迭代的方式不断更新多模态图;
步骤S6.提取多模态图编码器处理后的多模态图中的视频特征结点, 和步骤S4中提取
的句子级文本特征一起输入到事件特征解码器中, 得到目标事件的多模态特征, 并使用多
层感知机预测该事 件在完整视频中相对位置;
步骤S7.使用步骤S6中得到的每个目标事件的多模态特征, 同时提取多模态图编码器
处理后的多模态图中的文本特征结点, 一起输入到语言重建器中, 将每个文本特征结点重
新翻译为段落 查询文本, 实现查询文本 重构;
步骤S8.根据步骤S6中预测的结果计算时序位置信息损失;
步骤S9.提取事 件特征解码器中的注意力权 重矩阵, 计算注意力引导损失;
步骤S10.根据步骤S7中文本 重构的结果计算语言重构损失;
步骤S11.采用Adam优化器, 并使用恒定学习率策略对定位 算法模型进行训练。
2.根据权利要求1所述的一种基于语言重建和图机制的视频段落定位方法, 其特征在
于, 还包括对定位 算法模型的验证方式:
在测试阶段不需进行语言重建, 通过去除训练完成的基于语言重建和图机制的视频段
落定位方法中的语言重 建器提高模型推理速度; 使用去除语言重建器后的剩余部分作为测
评模型, 对视频和段落文本对进行视频多片段检索, 以验证定位 算法模型的效果。
3.根据权利要求1所述的一种基于语言重建和图机制的视频段落定位方法, 其特征在
于, 所述步骤S5.2包括:
在图建模层GM( ·)中进行多模态图推理使每个结点的从其邻居结点获取信息, 并更新
自身和边的权值。
4.根据权利要求1所述的一种基于语言重建和图机制的视频段落定位方法, 其特征在
于, 所述步骤S6包括:权 利 要 求 书 1/2 页
2
CN 114357124 B
2提取多模态图编码器处理后的多模态图中的视频特征结点, 作为事件特征解码器的已
编码信号输入, 句 子级文本特征作为事件特征解码器的查询信号输入, 通过自注意力机制
挖掘多事件之间的上下文关系, 通过跨模态注意力机制得到目标事件的多模态特征, 最后
使用多层感知机预测各个事 件在完整视频中的相对位置 。
5.根据权利要求1所述的一种基于语言重建和图机制的视频段落定位方法, 其特征在
于, 所述步骤S7包括:
将步骤S6 中得到的目标事件的多模态特征作为语言重建器的已编码信号输入, 提取多
模态图编 码器处理后的多模态图中的文本结点作为语言重 建器的查询 信号输入, 计算每个
文本结点在已编码词汇中的概 率分布, 选择概 率最大的单词作为重建结果。
6.根据权利要求1所述的一种基于语言重建和图机制的视频段落定位方法, 其特征在
于, 所述步骤S8包括:
使用步骤S6中每个事件的预测结果, 根据事件的预测结果、 全部事件数、 实际标注和G ‑
IOU损失函数计算 位置信息损失。
7.根据权利要求1所述的一种基于语言重建和图机制的视频段落定位方法, 其特征在
于, 所述步骤S9包括:
提取事件特征解码器中的跨模态 注意力机制中的注意力权 重, 计算注意力引导损失。
8.根据权利要求1所述的一种基于语言重建和图机制的视频段落定位方法, 其特征在
于, 所述步骤S10包括: 根据语言重建器的预测结果, 计算重构损失。
9.根据权利要求6或7或8任一项所述的一种基于语言重建和图机制的视频段落定位方
法, 其特征在于, 所述 步骤S10还 包括:
将位置损失、 注意力引导损失、 重构损失进行加权求和, 作为 最终的训练目标。权 利 要 求 书 2/2 页
3
CN 114357124 B
3
专利 一种基于语言重建和图机制的视频段落定位方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:45:58上传分享