国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210412956.7 (22)申请日 2022.04.20 (65)同一申请的已公布的文献号 申请公布号 CN 114511813 A (43)申请公布日 2022.05.17 (73)专利权人 天津市城市规划设计 研究总院有 限公司 地址 300190 天津市南 开区兰坪路18号 (72)发明人 王慧云 曹先 王辰阳 高旭 于鹏 (74)专利代理 机构 天津合正知识产权代理有限 公司 12229 专利代理师 吕琦 (51)Int.Cl. G06V 20/40(2022.01)G06N 3/08(2006.01) G06N 3/04(2006.01) G06F 40/30(2020.01) G06F 40/289(2020.01) G06V 10/774(2022.01) G06V 10/82(2022.01) (56)对比文件 CN 112004085 A,2020.1 1.27 US 201904320 3 A1,2019.02.07 审查员 杨欢 (54)发明名称 视频语义描述方法及装置 (57)摘要 本发明公开了一种视频语义描述方法及装 置。 方法包括: 获取图像序列, 并利用残差网络提 取每帧图像中图像特征, 基于卷积门控循环单元 根据当前帧图像和前一帧图像的图像特征提取 每帧图像的时间和空间关联性; 基于卷积门控循 环单元, 利用卷积门控循环单元中每帧图像对应 的隐藏状态和视频内容计算每帧图像中不同视 觉区域对不同词语的贡献度; 根据所述不同视觉 区域对不同词语的贡献度和对应的图像特征的 高度和宽度的集合进行编码, 形成视频帧的时空 特征; 重复将下一视频帧的时空特征、 对应的词 向量和隐藏状态输入至GRU中, 获取语义, 直至获 取的下一视频帧的语义为结束标志位; 将所有获 取的语义进行组合, 生成视频描述语句。 权利要求书4页 说明书10页 附图3页 CN 114511813 B 2022.06.28 CN 114511813 B 1.一种视频语义描述方法, 其特 征在于, 包括: 从视频中获取帧图像序列, 并利用深度残差网络提取所述帧图像序列每帧图像中图像 特征 , 其中H 、 W 和D 分别表示特 征的高度、 宽度和通道的数量; 基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧 图像序列中每帧图像的时间和空间关联性; 基于卷积门控循环单元, 利用卷积门控循环单元中每帧图像对应的隐藏状态 和视 频内容 计算每帧图像中不同视 觉区域对不同词语的贡献度; 根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合 进行编码, 形成视频帧的时空特 征; 将第二视频帧的时空特征、 预设语义字典的起始符词向量和初始对应的隐藏状态输入 到语义提取GRU神经模 型中, 获取第二时刻的语义, 并获取得到下一视频帧对应的词向量和 隐藏状态; 重复将下一视频帧的时空特征、 对应的词向量和隐藏状态输入至语义提取GRU神经模 型中, 获取下一视频帧的语义, 和对应的下一视频帧对应的词向量和隐藏状态, 直至获取的 下一视频帧的语义 为结束标志位; 将所有获取的语义进行组合, 生成视频描述语句; 所述基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提 取帧图像序列中每帧图像的时间和空间关联性包括: 对于卷积门控循环单 元进行如下配置: , , , ; 其中, 和 分别表示第 n 帧的视频特征和第 n ‑1 的计算输 出, 和表示2D卷积核, *表示卷积运算, 表示Sigmoid函数, 表示 元素级乘法, 分别表示GRU网络中的更新门和重 置门, 表示共享 参数; 所述基于卷积门控循环单元, 利用卷积门控循环单元中每帧图像对应的隐藏状态 和视频内容 计算每帧图像中不同视 觉区域对不同词语的贡献度, 包括: 对于卷积门控循环单 元进行如下配置:权 利 要 求 书 1/4 页 2 CN 114511813 B 2, , , , , ; 其中, 表示concat操作, 表示2D卷积核, 和 分别表 示GRU网络中的更新门和重 置门, 为共享参数; 所述根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的 集合进行编码, 形成视频帧的时空特 征, 包括: 利用如下 方式将第n个视频帧聚合成一个时空特 征 : , 表示第k个中心, 表示在位置 的点属于第k个中心的概率, 表示图像位置 的局部描述符, 为第t个视 频帧的时空表示。 2.根据权利要求1所述的方法, 其特征在于, 所述利用深度残差网络提取所述帧图像序 列每帧图像中图像特 征包括: 将 N个视频帧按照时间序列 输入ResNet ‑200深度残差网络中, 把所述ResNet ‑200深度 残差网络res5 c层的输出作为视频 特征。 3.根据权利要求1所述的方法, 其特征在于, 所述将下一视频帧的时空特征、 对应的词 向量和隐藏状态输入至 GRU神经模 型中, 获取下一视频帧的语义, 和对应的下一视频帧对应 的词向量和隐藏状态, 包括: 对所述语义 提取GRU神经模型进行如下配置: , , ,权 利 要 求 书 2/4 页 3 CN 114511813 B 3
专利 视频语义描述方法及装置
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:52:16
上传分享
举报
下载
原文档
(843.3 KB)
分享
友情链接
T-WAPIA 045.3—2021 信息技术 系统间远程通信和信息交换 原子密钥建立与实体鉴别 第3部分:采用证书的原子密钥建立与实体鉴别.pdf
GB-T 10112-2019 术语工作 原则与方法.pdf
GB-T 42706.2-2023 电子元器件 半导体器件长期贮存 第2部分:退化机理.pdf
T-CACM 1065—2018 中药DNA分子鉴定试剂盒 定性 评价技术要求.pdf
GB-T 34610-2017 节水型企业 炼焦行业.pdf
DB2310-T 114-2023 地理标志产品 响水大米 牡丹江市.pdf
GB-T 41464-2022 高成长企业分类导引.pdf
GB-T 38485-2021 微生物痕量基因残留测定 微滴数字PCR法.pdf
GB-T 36456.3-2018 面向工程领域的共享信息模型 第3部分:测试方法.pdf
GB-T 42381.140-2023 数据质量 第140部分:主数据:特征数据交换:完整性.pdf
GB-T 28858-2012 电子元器件用酚醛包封料.pdf
GB-T 4893.3-2020 家具表面漆膜理化性能试验 第3部分:耐干热测定法.pdf
T-SHSPTA 004—2023 药品DTP 模式服务质量体系建设导则.pdf
GB-T 8487-2010 港口装卸术语.pdf
DB52-T 826-2013 硬阔二元立木材积表 贵州省.pdf
GB-T 3781.6-2019 乙炔炭黑 第6部分:视比容的测定.pdf
DB44-T 1769-2015 电动汽车用电子设备可靠性试验方法 广东省.pdf
OWASP AI大模型应用网络安全治理检查清单 LLM_AI_Security_and_Governance_Checklist 2024.pdf
DB34-T 3264-2018 公路泥岩路基施工及质量检验评定规范 安徽省.pdf
T-CESA 1121—2020 人工智能芯片 面向端侧的深度学习芯片测试指标与测试方法.pdf
1
/
3
18
评价文档
赞助2.5元 点击下载(843.3 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。