(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210787551.1 (22)申请日 2022.07.04 (71)申请人 西安邮电大 学 地址 710061 陕西省西安市长安 南路563号 (72)发明人 仝秋娟 何婵 黄路 韩欢  李一凡 李嘉琪 赵奕格 杨正元  (74)专利代理 机构 西安亚信智佳知识产权代理 事务所(普通 合伙) 61241 专利代理师 张西娟 (51)Int.Cl. G06V 10/77(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) (54)发明名称 基于层特征注意力的图像描述方法及装置 (57)摘要 本公开实施例是关于一种基于层特征注意 力的图像描述方法及装置。 该方法包括: 将维度 相同的每一层的特征输入卷积层; 将卷积层输出 的特征的维度进行变形; 对全 连接层输出的特征 进行批归一化处理; 使用激活函数对批归一化后 的特征进行映射。 本公开实施例将低层特征和中 层特征同高层特征一起进行处理, 使每个解码器 堆叠层都可以处理低中高等多层图像特征, 防止 图像描述时小目标信息的丢失, 提高图像描述语 义的准确性以及有效性。 权利要求书2页 说明书10页 附图6页 CN 115100482 A 2022.09.23 CN 115100482 A 1.一种基于层特 征注意力的图像描述方法, 其特 征在于, 包括以下步骤: 采集待描述图像; 对所述待 描述图像进行编码处 理, 得到多层特 征; 对所述多层特征进行维度转换处理, 以将中层特征和低层特征的维度转换为高层特征 的维度; 将维度转换处理后的多层特征输入解码器, 所述解码器对所述多层特征进行解码处 理, 得到相应的图像描述。 2.根据权利要求1所述基于层特征注意力的图像描述方法, 其特征在于, 所述将维度转 换处理后的多层特征输入解码器, 所述解码器对所述多层特征进行解码处理, 得到相 应的 图像描述, 包括: 将维度转换处 理后的多层特 征输入解码器; 所述解码器对所述多层特 征分配权 重后进行解码处 理, 得到相应的图像描述。 3.根据权利要求2所述基于层特征注意力的图像描述方法, 其特征在于, 将 维度转换处 理后的多层特 征输入解码器的过程 为: 将中层特 征、 低层特 征和高层特 征均输入解码器的每 个堆叠层中。 4.根据权利要求1所述基于层特征注意力的图像描述方法, 其特征在于, 所述对所述多 层特征进行维度转换处理, 以将中层特征和低层特征 的维度转换为高层特征 的维度, 之后 还包括: 将维度相同的每一层的特 征输入卷积层; 将卷积层输出的特 征的维度进行变形; 对全连接层输出的特 征进行批归一 化处理; 使用激活函数对批归一 化后的特 征进行映射。 5.根据权利要求4所述基于层特征注意力的图像描述方法, 其特征在于, 所述使用激活 函数对批归一 化后的特 征进行映射, 之后还 包括: 利用全局平均池化对映射后的特 征进行数据压缩; 对压缩数据进行减小过拟合处 理。 6.根据权利要求2所述基于层特征注意力的图像描述方法, 其特征在于, 所述解码器通 过将多层特 征与标准语句进行对比, 然后对所述多层特 征分配权 重后进行解码处 理。 7.根据权利要求6所述基于层特征注意力的图像描述方法, 其特征在于, 第i层图像特 征对应的交叉注意力所对应的权 重为: αi=Sigmoid(Wi([X; cros s_atti])) 其中, i为图像特征的层数, Wi表示第i层图像 特征对应的可训练权重矩阵; X表示序列信 息矩阵; [; ]表示将两个矩阵连接起来, cross_atti表示第i层图像特征对应的交叉注意力 的输出。 8.根据权利要求6所述基于层特征注意力的图像描述方法, 其特征在于, 采用以下公式 进行分配权 重: lay_att=∑iαicross_atti。 9.根据权利要求1所述基于层特征注意力的图像描述方法, 其特征在于, 所述解码器为 Transformer解码器。权 利 要 求 书 1/2 页 2 CN 115100482 A 210.一种基于层特 征注意力的图像描述装置, 其特 征在于, 包括: 图像采集模块, 用于采集待 描述图像; 编码模块, 用于对所述待 描述图像进行编码处 理, 得到多层特 征; 特征转换模块, 用于对所述多层特征进行维度转换处理, 以将中层特征和低层特征的 维度转换为高层特 征的维度; 解码模块, 用于对所述多层特 征进行解码处 理, 得到相应的图像描述; 其中, 所述解码模块包括层特征注意力模块, 用于利用 层特征注意力对层特征分配权 重。权 利 要 求 书 2/2 页 3 CN 115100482 A 3

.PDF文档 专利 基于层特征注意力的图像描述方法及装置

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于层特征注意力的图像描述方法及装置 第 1 页 专利 基于层特征注意力的图像描述方法及装置 第 2 页 专利 基于层特征注意力的图像描述方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:30:03上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。