(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210412956.7 (22)申请日 2022.04.20 (65)同一申请的已公布的文献号 申请公布号 CN 114511813 A (43)申请公布日 2022.05.17 (73)专利权人 天津市城市规划设计 研究总院有 限公司 地址 300190 天津市南 开区兰坪路18号 (72)发明人 王慧云 曹先 王辰阳 高旭  于鹏  (74)专利代理 机构 天津合正知识产权代理有限 公司 12229 专利代理师 吕琦 (51)Int.Cl. G06V 20/40(2022.01)G06N 3/08(2006.01) G06N 3/04(2006.01) G06F 40/30(2020.01) G06F 40/289(2020.01) G06V 10/774(2022.01) G06V 10/82(2022.01) (56)对比文件 CN 112004085 A,2020.1 1.27 US 201904320 3 A1,2019.02.07 审查员 杨欢 (54)发明名称 视频语义描述方法及装置 (57)摘要 本发明公开了一种视频语义描述方法及装 置。 方法包括: 获取图像序列, 并利用残差网络提 取每帧图像中图像特征, 基于卷积门控循环单元 根据当前帧图像和前一帧图像的图像特征提取 每帧图像的时间和空间关联性; 基于卷积门控循 环单元, 利用卷积门控循环单元中每帧图像对应 的隐藏状态和视频内容计算每帧图像中不同视 觉区域对不同词语的贡献度; 根据所述不同视觉 区域对不同词语的贡献度和对应的图像特征的 高度和宽度的集合进行编码, 形成视频帧的时空 特征; 重复将下一视频帧的时空特征、 对应的词 向量和隐藏状态输入至GRU中, 获取语义, 直至获 取的下一视频帧的语义为结束标志位; 将所有获 取的语义进行组合, 生成视频描述语句。 权利要求书4页 说明书10页 附图3页 CN 114511813 B 2022.06.28 CN 114511813 B 1.一种视频语义描述方法, 其特 征在于, 包括: 从视频中获取帧图像序列, 并利用深度残差网络提取所述帧图像序列每帧图像中图像 特征 , 其中H 、 W 和D 分别表示特 征的高度、 宽度和通道的数量; 基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧 图像序列中每帧图像的时间和空间关联性; 基于卷积门控循环单元, 利用卷积门控循环单元中每帧图像对应的隐藏状态 和视 频内容 计算每帧图像中不同视 觉区域对不同词语的贡献度; 根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合 进行编码, 形成视频帧的时空特 征; 将第二视频帧的时空特征、 预设语义字典的起始符词向量和初始对应的隐藏状态输入 到语义提取GRU神经模 型中, 获取第二时刻的语义, 并获取得到下一视频帧对应的词向量和 隐藏状态; 重复将下一视频帧的时空特征、 对应的词向量和隐藏状态输入至语义提取GRU神经模 型中, 获取下一视频帧的语义, 和对应的下一视频帧对应的词向量和隐藏状态, 直至获取的 下一视频帧的语义 为结束标志位; 将所有获取的语义进行组合, 生成视频描述语句; 所述基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提 取帧图像序列中每帧图像的时间和空间关联性包括: 对于卷积门控循环单 元进行如下配置: , , , ; 其中, 和 分别表示第 n 帧的视频特征和第 n ‑1 的计算输 出, 和表示2D卷积核, *表示卷积运算, 表示Sigmoid函数, 表示 元素级乘法, 分别表示GRU网络中的更新门和重 置门, 表示共享 参数; 所述基于卷积门控循环单元, 利用卷积门控循环单元中每帧图像对应的隐藏状态 和视频内容 计算每帧图像中不同视 觉区域对不同词语的贡献度, 包括: 对于卷积门控循环单 元进行如下配置:权 利 要 求 书 1/4 页 2 CN 114511813 B 2, , , , , ; 其中, 表示concat操作, 表示2D卷积核, 和 分别表 示GRU网络中的更新门和重 置门, 为共享参数; 所述根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的 集合进行编码, 形成视频帧的时空特 征, 包括: 利用如下 方式将第n个视频帧聚合成一个时空特 征 : , 表示第k个中心, 表示在位置 的点属于第k个中心的概率, 表示图像位置 的局部描述符, 为第t个视 频帧的时空表示。 2.根据权利要求1所述的方法, 其特征在于, 所述利用深度残差网络提取所述帧图像序 列每帧图像中图像特 征包括: 将 N个视频帧按照时间序列 输入ResNet ‑200深度残差网络中, 把所述ResNet ‑200深度 残差网络res5 c层的输出作为视频 特征。 3.根据权利要求1所述的方法, 其特征在于, 所述将下一视频帧的时空特征、 对应的词 向量和隐藏状态输入至 GRU神经模 型中, 获取下一视频帧的语义, 和对应的下一视频帧对应 的词向量和隐藏状态, 包括: 对所述语义 提取GRU神经模型进行如下配置: , , ,权 利 要 求 书 2/4 页 3 CN 114511813 B 3

.PDF文档 专利 视频语义描述方法及装置

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视频语义描述方法及装置 第 1 页 专利 视频语义描述方法及装置 第 2 页 专利 视频语义描述方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:52:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。