专利视频语义描述方法及装置 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210412956.7 (22)申请日 2022.04.20 (65)同一申请的已公布的文献号申请公布号 CN 114511813 A (43)申请公布日 2022.05.17 (73)专利权人天津市城市规划设计研究总院有限公司地址 300190 天津市南开区兰坪路18号 (72)发明人王慧云　曹先　王辰阳　高旭　于鹏　 (74)专利代理机构天津合正知识产权代理有限公司 12229 专利代理师吕琦 (51)Int.Cl. G06V 20/40(2022.01)G06N 3/08(2006.01) G06N 3/04(2006.01) G06F 40/30(2020.01) G06F 40/289(2020.01) G06V 10/774(2022.01) G06V 10/82(2022.01) (56)对比文件 CN 112004085 A,2020.1 1.27 US 201904320 3 A1,2019.02.07 审查员杨欢 (54)发明名称视频语义描述方法及装置 (57)摘要本发明公开了一种视频语义描述方法及装置。方法包括：获取图像序列，并利用残差网络提取每帧图像中图像特征，基于卷积门控循环单元根据当前帧图像和前一帧图像的图像特征提取每帧图像的时间和空间关联性；基于卷积门控循环单元，利用卷积门控循环单元中每帧图像对应的隐藏状态和视频内容计算每帧图像中不同视觉区域对不同词语的贡献度；根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码，形成视频帧的时空特征；重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至GRU中，获取语义，直至获取的下一视频帧的语义为结束标志位；将所有获取的语义进行组合，生成视频描述语句。权利要求书4页说明书10页附图3页 CN 114511813 B 2022.06.28 CN 114511813 B 1.一种视频语义描述方法，其特征在于，包括：从视频中获取帧图像序列，并利用深度残差网络提取所述帧图像序列每帧图像中图像特征，其中H 、 W 和D 分别表示特征的高度、宽度和通道的数量；基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性；基于卷积门控循环单元，利用卷积门控循环单元中每帧图像对应的隐藏状态和视频内容计算每帧图像中不同视觉区域对不同词语的贡献度；根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码，形成视频帧的时空特征；将第二视频帧的时空特征、预设语义字典的起始符词向量和初始对应的隐藏状态输入到语义提取GRU神经模型中，获取第二时刻的语义，并获取得到下一视频帧对应的词向量和隐藏状态；重复将下一视频帧的时空特征、对应的词向量和隐藏状态输入至语义提取GRU神经模型中，获取下一视频帧的语义，和对应的下一视频帧对应的词向量和隐藏状态，直至获取的下一视频帧的语义为结束标志位；将所有获取的语义进行组合，生成视频描述语句；所述基于卷积门控循环单元根据当前帧图像的图像特征和前一帧图像的图像特征提取帧图像序列中每帧图像的时间和空间关联性包括：对于卷积门控循环单元进行如下配置：，，，；其中，和分别表示第 n 帧的视频特征和第 n ‑1 的计算输出，和表示2D卷积核， *表示卷积运算，表示Sigmoid函数，表示元素级乘法，分别表示GRU网络中的更新门和重置门，表示共享参数；所述基于卷积门控循环单元，利用卷积门控循环单元中每帧图像对应的隐藏状态和视频内容计算每帧图像中不同视觉区域对不同词语的贡献度，包括：对于卷积门控循环单元进行如下配置：权　利　要　求　书 1/4 页 2 CN 114511813 B 2，，，，，；其中，表示concat操作，表示2D卷积核，和分别表示GRU网络中的更新门和重置门，为共享参数；所述根据所述不同视觉区域对不同词语的贡献度和对应的图像特征的高度和宽度的集合进行编码，形成视频帧的时空特征，包括：利用如下方式将第n个视频帧聚合成一个时空特征：，表示第k个中心，表示在位置的点属于第k个中心的概率，表示图像位置的局部描述符，为第t个视频帧的时空表示。 2.根据权利要求1所述的方法，其特征在于，所述利用深度残差网络提取所述帧图像序列每帧图像中图像特征包括：将 N个视频帧按照时间序列输入ResNet ‑200深度残差网络中，把所述ResNet ‑200深度残差网络res5 c层的输出作为视频特征。 3.根据权利要求1所述的方法，其特征在于，所述将下一视频帧的时空特征、对应的词向量和隐藏状态输入至 GRU神经模型中，获取下一视频帧的语义，和对应的下一视频帧对应的词向量和隐藏状态，包括：对所述语义提取GRU神经模型进行如下配置：，，，权　利　要　求　书 2/4 页 3 CN 114511813 B 3

专利 视频语义描述方法及装置

专利视频语义描述方法及装置