国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210232789.8 (22)申请日 2022.03.09 (71)申请人 华南理工大 学 地址 511458 广东省广州市南沙区环市大 道南路25号 华工大广州产研院 (72)发明人 谢剑青 张艳青 (74)专利代理 机构 广州市华学知识产权代理有 限公司 4 4245 专利代理师 王东东 (51)Int.Cl. G06V 20/62(2022.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/82(2022.01) (54)发明名称 基于对比学习和自适应注意力的图像描述 生成方法及 介质 (57)摘要 本发明公开了基于对比学习和自适应注意 力的图像描述生成方法及介质, 包括提取图像的 网格特征、 对象特征和文本特征作为输入, 并采 用不同的注 意力机制生成相应的注 意力特征, 将 不同层次的特征投影到一个统一的目标空间中, 探索不同层次的特征空间之间的内在关系, 并引 入了上下文门控机制, 以平衡低级上下文和高级 上下文的贡献, 将图像描述文本编码向量输入到 预训练好的语言模型中, 得到语言特征信号, 将 当前预测词的隐藏状态表示、 图像的最终视觉特 征表示和语言特征信号作为自适应注意力模型 的输入, 从而动态生成视觉词和非视觉词; 并通 过对比学习的训练方式, 提升图像描述的辨识 度。 权利要求书2页 说明书6页 附图1页 CN 114612891 A 2022.06.10 CN 114612891 A 1.一种基于对比学习和自适应注意力的图像描述 生成方法, 其特 征在于, 包括: 给定一张图片, 提取全局特征表示、 网格特征表示、 区域对象特征表示及文本特征表 示; 将全局特征表示分别与其它三个层次特征构建三个独立的自注意力网络模块, 并分别 得到网格注意力特 征、 区域对象注意力特 征及文本注意力特 征; 通过多模态双线性策略将图像区域注意力特征整合到网格注意力特征和文本注意力 特征中, 分别获得该图像的低层特征和高层特征, 并利用门控机制生成图像的最终视觉特 征表示; 将图像的最终视觉特征表示和之前已生成的单词序列输入到解码器中, 得到当前预测 词的隐藏状态 表示; 将图像描述文本编码向量输入到预训练好的语言模型中, 得到语言特 征信号; 将当前预测词的隐藏状态表示、 图像的最终视觉特征表示和语言特征信号作为自适应 注意力模型 的输入, 用以度量视觉信息和语言信息对当前词 预测的贡献, 从而动态生成视 觉词和非视 觉词; 并通过对比学习的训练方式, 提升图像描述的辨识度。 2.根据权利要求1所述的图像描述生成方法, 其特征在于, 所述获得该图像的高层特征 和低层特 征, 并利用门控机制生成图像的最终视 觉特征表示, 具体步骤如下: 通过分别将区域对象注意力特征输入文本注意力特征和网格注意力特征, 并通过多模 态双线性策略来探究图像不同层次特 征之间的内在关系; 构建两个独立的残差网络, 并分别将文本注意力特征和网格注意力特征及其与区域对 象注意力特征之间的内在关系投影到统一的对象空间, 形成图像的高层内容特征和低层位 置信息; 通过门控机制有选择性的整合图像的高层特征和低层特征, 生成图像的最终视觉特征 表示。 3.根据权利要求1所述的图像描述生成方法, 其特征在于, 所述将图像的最终视觉特征 表示作为视觉信号, 将预训练Bert模型的输出作为文本信号, 度量视觉信息和 语言信息对 当前词预测的贡献, 从而动态生成视 觉词和非视 觉词。 4.根据权利要求3所述的图像描述生成方法, 其特征在于, 将图像描述文本用预训练好 的Bert模 型进行处理, 得到文本信号, 并加入Masked注 意力模块, 以自回归的方式加入到 当 前词的预测过程中。 5.根据权利要求1所述的图像描述生成方法, 其特征在于, 所述自适应注意力模型为一 个多头自注意力模块。 6.根据权利要求1所述的图像描述生成方法, 其特征在于, 三个独立的自注意力网络模 型的为相同结构, 注意力特 征获取流 程具体如下: 权 利 要 求 书 1/2 页 2 CN 114612891 A 2其中, 其中, Ao,Ap,At分别表示区域注意特征、 网格注 意特征和文本注 意特征, 是上 一时刻解码器的隐藏状态, Wt是当前时间步 的预测词, E是将one ‑hot表示映射到嵌入空间 的嵌入函数。 7.根据权利要求1 ‑6任一项所述的图像描述生成方法, 其特征在于, 所述对比学习, 具 体步骤为: 构建正样本和负样本 图像文本对, 利用本模型自动生成正负样本描述的单词序列, 计 算生成的文本描述与图片原始描述语句之间的余弦相似度, 并最大化图文对匹配的相似 度, 最小化图文对不匹配的相似度。 8.根据权利要求7所述的图像描述生成方法, 其特征在于, 采用对称的交叉熵损失函数 对余弦相似度分数进行训练。 9.根据权利 要求1所述的图像描述生成方法, 其特征在于, 使用在ImageNet上预训练的 Resnet101的最后一个卷积层提取图像 的全局特征表示Vg和网格特征表示Vp, 使用Faster R‑CNN提取图像的区域对象特征表示Vo, 采用以ResNet101为主干的文本分类预测器提取图 像的文本语义特 征Vt。 10.一种存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处理器执 行时实现权利要求1 ‑9任一项所述的图像描述 生成方法。权 利 要 求 书 2/2 页 3 CN 114612891 A 3
专利 基于对比学习和自适应注意力的图像描述生成方法及介质
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:49:19
上传分享
举报
下载
原文档
(426.4 KB)
分享
友情链接
GB-T 41665-2022 制造执行系统模块化框架.pdf
GB 12676-2014 商用车辆和挂车制动系统技术要求及试验方法.pdf
GB-T 17872-2009 江海直达货船船型尺度系列.pdf
GB-T 26837-2011 无损检测仪器 固定式和移动式工业X射线探伤机.pdf
KSME2001_Adaptive compensation control of vehicle automatic transmissions for smooth shift transients based on intelligent supervisor.pdf
T-BJQC 201905-2023 智能网联汽车信息安全测试方法和判定准则.pdf
NY-T 4205-2022 农作物品种数字化管理数据描述规范.pdf
GB-T 34953.4-2020 信息技术 安全技术 匿名实体鉴别 第4部分:基于弱秘密的机制.pdf
ISO IEC 27000-2020.pdf
GB-T 37550-2019 电子商务数据资产评价指标体系.pdf
GB-T 34618-2017 蒸汽疏水系统在线阀门内漏温度检测方法.pdf
T-WAPIA 045.1—2021 信息技术 系统间远程通信和信息交换 原子密钥建立与实体鉴别 第1部分:服务和协议.pdf
DB15-T 2675—2022 盐碱地改良水盐动态监测与评价导则 内蒙古自治区.pdf
GB-T 24425.1-2009 普通型钢丝螺套.pdf
GB-T 14264-2009 半导体材料术语.pdf
DB53-T 1088-2022 鳄梨(牛油果)果品质量等级 云南省.pdf
DB15-T 839—2022 高速公路养护工程预算编制办法及定额 内蒙古自治区.pdf
GB-T 2428-1998 成年人头面部尺寸.pdf
GB-T 16814-2008 同步数字体系 (SDH) 光缆线路系统测试方法.pdf
JRT 0214-2021 金融网络安全 网络安全众测实施指南.pdf
1
/
3
10
评价文档
赞助2.5元 点击下载(426.4 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。