(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210232789.8 (22)申请日 2022.03.09 (71)申请人 华南理工大 学 地址 511458 广东省广州市南沙区环市大 道南路25号 华工大广州产研院 (72)发明人 谢剑青 张艳青  (74)专利代理 机构 广州市华学知识产权代理有 限公司 4 4245 专利代理师 王东东 (51)Int.Cl. G06V 20/62(2022.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/82(2022.01) (54)发明名称 基于对比学习和自适应注意力的图像描述 生成方法及 介质 (57)摘要 本发明公开了基于对比学习和自适应注意 力的图像描述生成方法及介质, 包括提取图像的 网格特征、 对象特征和文本特征作为输入, 并采 用不同的注 意力机制生成相应的注 意力特征, 将 不同层次的特征投影到一个统一的目标空间中, 探索不同层次的特征空间之间的内在关系, 并引 入了上下文门控机制, 以平衡低级上下文和高级 上下文的贡献, 将图像描述文本编码向量输入到 预训练好的语言模型中, 得到语言特征信号, 将 当前预测词的隐藏状态表示、 图像的最终视觉特 征表示和语言特征信号作为自适应注意力模型 的输入, 从而动态生成视觉词和非视觉词; 并通 过对比学习的训练方式, 提升图像描述的辨识 度。 权利要求书2页 说明书6页 附图1页 CN 114612891 A 2022.06.10 CN 114612891 A 1.一种基于对比学习和自适应注意力的图像描述 生成方法, 其特 征在于, 包括: 给定一张图片, 提取全局特征表示、 网格特征表示、 区域对象特征表示及文本特征表 示; 将全局特征表示分别与其它三个层次特征构建三个独立的自注意力网络模块, 并分别 得到网格注意力特 征、 区域对象注意力特 征及文本注意力特 征; 通过多模态双线性策略将图像区域注意力特征整合到网格注意力特征和文本注意力 特征中, 分别获得该图像的低层特征和高层特征, 并利用门控机制生成图像的最终视觉特 征表示; 将图像的最终视觉特征表示和之前已生成的单词序列输入到解码器中, 得到当前预测 词的隐藏状态 表示; 将图像描述文本编码向量输入到预训练好的语言模型中, 得到语言特 征信号; 将当前预测词的隐藏状态表示、 图像的最终视觉特征表示和语言特征信号作为自适应 注意力模型 的输入, 用以度量视觉信息和语言信息对当前词 预测的贡献, 从而动态生成视 觉词和非视 觉词; 并通过对比学习的训练方式, 提升图像描述的辨识度。 2.根据权利要求1所述的图像描述生成方法, 其特征在于, 所述获得该图像的高层特征 和低层特 征, 并利用门控机制生成图像的最终视 觉特征表示, 具体步骤如下: 通过分别将区域对象注意力特征输入文本注意力特征和网格注意力特征, 并通过多模 态双线性策略来探究图像不同层次特 征之间的内在关系; 构建两个独立的残差网络, 并分别将文本注意力特征和网格注意力特征及其与区域对 象注意力特征之间的内在关系投影到统一的对象空间, 形成图像的高层内容特征和低层位 置信息; 通过门控机制有选择性的整合图像的高层特征和低层特征, 生成图像的最终视觉特征 表示。 3.根据权利要求1所述的图像描述生成方法, 其特征在于, 所述将图像的最终视觉特征 表示作为视觉信号, 将预训练Bert模型的输出作为文本信号, 度量视觉信息和 语言信息对 当前词预测的贡献, 从而动态生成视 觉词和非视 觉词。 4.根据权利要求3所述的图像描述生成方法, 其特征在于, 将图像描述文本用预训练好 的Bert模 型进行处理, 得到文本信号, 并加入Masked注 意力模块, 以自回归的方式加入到 当 前词的预测过程中。 5.根据权利要求1所述的图像描述生成方法, 其特征在于, 所述自适应注意力模型为一 个多头自注意力模块。 6.根据权利要求1所述的图像描述生成方法, 其特征在于, 三个独立的自注意力网络模 型的为相同结构, 注意力特 征获取流 程具体如下: 权 利 要 求 书 1/2 页 2 CN 114612891 A 2其中, 其中, Ao,Ap,At分别表示区域注意特征、 网格注 意特征和文本注 意特征, 是上 一时刻解码器的隐藏状态, Wt是当前时间步 的预测词, E是将one ‑hot表示映射到嵌入空间 的嵌入函数。 7.根据权利要求1 ‑6任一项所述的图像描述生成方法, 其特征在于, 所述对比学习, 具 体步骤为: 构建正样本和负样本 图像文本对, 利用本模型自动生成正负样本描述的单词序列, 计 算生成的文本描述与图片原始描述语句之间的余弦相似度, 并最大化图文对匹配的相似 度, 最小化图文对不匹配的相似度。 8.根据权利要求7所述的图像描述生成方法, 其特征在于, 采用对称的交叉熵损失函数 对余弦相似度分数进行训练。 9.根据权利 要求1所述的图像描述生成方法, 其特征在于, 使用在ImageNet上预训练的 Resnet101的最后一个卷积层提取图像 的全局特征表示Vg和网格特征表示Vp, 使用Faster   R‑CNN提取图像的区域对象特征表示Vo, 采用以ResNet101为主干的文本分类预测器提取图 像的文本语义特 征Vt。 10.一种存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处理器执 行时实现权利要求1 ‑9任一项所述的图像描述 生成方法。权 利 要 求 书 2/2 页 3 CN 114612891 A 3

.PDF文档 专利 基于对比学习和自适应注意力的图像描述生成方法及介质

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于对比学习和自适应注意力的图像描述生成方法及介质 第 1 页 专利 基于对比学习和自适应注意力的图像描述生成方法及介质 第 2 页 专利 基于对比学习和自适应注意力的图像描述生成方法及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:49:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。