(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210270425.9 (22)申请日 2022.03.18 (65)同一申请的已公布的文献号 申请公布号 CN 114357124 A (43)申请公布日 2022.04.15 (73)专利权人 成都考拉悠然科技有限公司 地址 610000 四川省成 都市自由贸易试验 区成都高新区天府五街200号4号楼A 区10层10 01、 1002、 1003室 (72)发明人 徐行 蒋寻 沈复民 申恒涛  (74)专利代理 机构 成都君合集专利代理事务所 (普通合伙) 51228 专利代理师 尹新路 (51)Int.Cl. G06F 16/33(2019.01)G06F 16/783(2019.01) G06F 40/126(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) 审查员 李艳霞 (54)发明名称 一种基于语言重建和图机制的视频段落定 位方法 (57)摘要 本发明涉及多模态视频理解中的跨模态内 容检索技术领域, 公开了一种基于语 言重建和图 机制的视频段落定位方法, 包括: 选择数据集, 构 建视频段落, 使用损失函数训练模型, 最后验证 模型效果。 本发 明用于提高细粒度的异构数据之 间的信息交互能力, 增强对视频内容的理解, 提 高模型对视频 ‑文本的跨模态内容理解能力。 本 发明可用于各种多模态视频理解场合, 如网络视 频APP、 智慧安防系统、 大规模视频内容检索等, 可改善用户软件使用体验, 提高视频、 安防、 社会 治理等相关领域工作人员的工作效率。 权利要求书2页 说明书8页 附图3页 CN 114357124 B 2022.06.14 CN 114357124 B 1.一种基于语言重建和图机制的视频 段落定位方法, 其特 征在于, 包括以下步骤: 步骤S1.选择训练数据集, 提取视频 ‑段落对作为定位 算法模型的输入; 步骤S2.加载预训练的3D卷积神经网络的模型参数, 提取所述视频 ‑段落对中的视频模 态, 获取片段级视频 特征; 步骤S3.提取所述视频 ‑段落对中的文本模态, 使用GloVe编码将文本模态中的各个单 词表示为固定维度的词向量作为 查询文本编码; 步骤S4.使用投影层和正则化处理查询文本编码, 获取单词级文本特征, 随后将单词级 文本特征按句 子拆分, 并将得到的每个句 子依次输入到双向门控编码单元中, 提取出句 子 级文本特征; 步骤S5. 将片段级视频特征和单词级文本特征连结在一起, 将每个特征点作为一个图 结点, 每条边的强度设为可学习参数, 初始化为一张由视频特征结点和文本特征结点组成 的多模态全连接图, 并输入到多模态图编码器中进行多模态特征融合, 使得每个结点能够 选择性地从邻居结点获取信息, 实现细粒度的特 征交互; 步骤S5.1.  将视频结点和文本结点连 结, 边权值设置为可 学习值, 初始化多模态图; 步骤S5.2.  将多模态图传入多模态图编码器中, 进行多模态图建模, 通过Transformer 编码器对图建模层、 视频和文本的位置编码获取 单层多模态图建模; 步骤S5.3.多模态图编码器由多层步骤S5.2中所述单层多模态图建模结构构成, 采用 迭代的方式不断更新多模态图; 步骤S6.提取多模态图编码器处理后的多模态图中的视频特征结点, 和步骤S4中提取 的句子级文本特征一起输入到事件特征解码器中, 得到目标事件的多模态特征, 并使用多 层感知机预测该事 件在完整视频中相对位置; 步骤S7.使用步骤S6中得到的每个目标事件的多模态特征, 同时提取多模态图编码器 处理后的多模态图中的文本特征结点, 一起输入到语言重建器中, 将每个文本特征结点重 新翻译为段落 查询文本, 实现查询文本 重构; 步骤S8.根据步骤S6中预测的结果计算时序位置信息损失; 步骤S9.提取事 件特征解码器中的注意力权 重矩阵, 计算注意力引导损失; 步骤S10.根据步骤S7中文本 重构的结果计算语言重构损失; 步骤S11.采用Adam优化器, 并使用恒定学习率策略对定位 算法模型进行训练。 2.根据权利要求1所述的一种基于语言重建和图机制的视频段落定位方法, 其特征在 于, 还包括对定位 算法模型的验证方式: 在测试阶段不需进行语言重建, 通过去除训练完成的基于语言重建和图机制的视频段 落定位方法中的语言重 建器提高模型推理速度; 使用去除语言重建器后的剩余部分作为测 评模型, 对视频和段落文本对进行视频多片段检索, 以验证定位 算法模型的效果。 3.根据权利要求1所述的一种基于语言重建和图机制的视频段落定位方法, 其特征在 于, 所述步骤S5.2包括: 在图建模层GM( ·)中进行多模态图推理使每个结点的从其邻居结点获取信息, 并更新 自身和边的权值。 4.根据权利要求1所述的一种基于语言重建和图机制的视频段落定位方法, 其特征在 于, 所述步骤S6包括:权 利 要 求 书 1/2 页 2 CN 114357124 B 2提取多模态图编码器处理后的多模态图中的视频特征结点, 作为事件特征解码器的已 编码信号输入, 句 子级文本特征作为事件特征解码器的查询信号输入, 通过自注意力机制 挖掘多事件之间的上下文关系, 通过跨模态注意力机制得到目标事件的多模态特征, 最后 使用多层感知机预测各个事 件在完整视频中的相对位置 。 5.根据权利要求1所述的一种基于语言重建和图机制的视频段落定位方法, 其特征在 于, 所述步骤S7包括: 将步骤S6 中得到的目标事件的多模态特征作为语言重建器的已编码信号输入, 提取多 模态图编 码器处理后的多模态图中的文本结点作为语言重 建器的查询 信号输入, 计算每个 文本结点在已编码词汇中的概 率分布, 选择概 率最大的单词作为重建结果。 6.根据权利要求1所述的一种基于语言重建和图机制的视频段落定位方法, 其特征在 于, 所述步骤S8包括: 使用步骤S6中每个事件的预测结果, 根据事件的预测结果、 全部事件数、 实际标注和G ‑ IOU损失函数计算 位置信息损失。 7.根据权利要求1所述的一种基于语言重建和图机制的视频段落定位方法, 其特征在 于, 所述步骤S9包括: 提取事件特征解码器中的跨模态 注意力机制中的注意力权 重, 计算注意力引导损失。 8.根据权利要求1所述的一种基于语言重建和图机制的视频段落定位方法, 其特征在 于, 所述步骤S10包括:  根据语言重建器的预测结果, 计算重构损失。 9.根据权利要求6或7或8任一项所述的一种基于语言重建和图机制的视频段落定位方 法, 其特征在于, 所述 步骤S10还 包括: 将位置损失、 注意力引导损失、 重构损失进行加权求和, 作为 最终的训练目标。权 利 要 求 书 2/2 页 3 CN 114357124 B 3

.PDF文档 专利 一种基于语言重建和图机制的视频段落定位方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于语言重建和图机制的视频段落定位方法 第 1 页 专利 一种基于语言重建和图机制的视频段落定位方法 第 2 页 专利 一种基于语言重建和图机制的视频段落定位方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:45:58上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。