专利基于对比学习和自适应注意力的图像描述生成方法及介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210232789.8 (22)申请日 2022.03.09 (71)申请人华南理工大学地址 511458 广东省广州市南沙区环市大道南路25号华工大广州产研院 (72)发明人谢剑青　张艳青　 (74)专利代理机构广州市华学知识产权代理有限公司 4 4245 专利代理师王东东 (51)Int.Cl. G06V 20/62(2022.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/82(2022.01) (54)发明名称基于对比学习和自适应注意力的图像描述生成方法及介质 (57)摘要本发明公开了基于对比学习和自适应注意力的图像描述生成方法及介质，包括提取图像的网格特征、对象特征和文本特征作为输入，并采用不同的注意力机制生成相应的注意力特征，将不同层次的特征投影到一个统一的目标空间中，探索不同层次的特征空间之间的内在关系，并引入了上下文门控机制，以平衡低级上下文和高级上下文的贡献，将图像描述文本编码向量输入到预训练好的语言模型中，得到语言特征信号，将当前预测词的隐藏状态表示、图像的最终视觉特征表示和语言特征信号作为自适应注意力模型的输入，从而动态生成视觉词和非视觉词；并通过对比学习的训练方式，提升图像描述的辨识度。权利要求书2页说明书6页附图1页 CN 114612891 A 2022.06.10 CN 114612891 A 1.一种基于对比学习和自适应注意力的图像描述生成方法，其特征在于，包括：给定一张图片，提取全局特征表示、网格特征表示、区域对象特征表示及文本特征表示；将全局特征表示分别与其它三个层次特征构建三个独立的自注意力网络模块，并分别得到网格注意力特征、区域对象注意力特征及文本注意力特征；通过多模态双线性策略将图像区域注意力特征整合到网格注意力特征和文本注意力特征中，分别获得该图像的低层特征和高层特征，并利用门控机制生成图像的最终视觉特征表示；将图像的最终视觉特征表示和之前已生成的单词序列输入到解码器中，得到当前预测词的隐藏状态表示；将图像描述文本编码向量输入到预训练好的语言模型中，得到语言特征信号；将当前预测词的隐藏状态表示、图像的最终视觉特征表示和语言特征信号作为自适应注意力模型的输入，用以度量视觉信息和语言信息对当前词预测的贡献，从而动态生成视觉词和非视觉词；并通过对比学习的训练方式，提升图像描述的辨识度。 2.根据权利要求1所述的图像描述生成方法，其特征在于，所述获得该图像的高层特征和低层特征，并利用门控机制生成图像的最终视觉特征表示，具体步骤如下：通过分别将区域对象注意力特征输入文本注意力特征和网格注意力特征，并通过多模态双线性策略来探究图像不同层次特征之间的内在关系；构建两个独立的残差网络，并分别将文本注意力特征和网格注意力特征及其与区域对象注意力特征之间的内在关系投影到统一的对象空间，形成图像的高层内容特征和低层位置信息；通过门控机制有选择性的整合图像的高层特征和低层特征，生成图像的最终视觉特征表示。 3.根据权利要求1所述的图像描述生成方法，其特征在于，所述将图像的最终视觉特征表示作为视觉信号，将预训练Bert模型的输出作为文本信号，度量视觉信息和语言信息对当前词预测的贡献，从而动态生成视觉词和非视觉词。 4.根据权利要求3所述的图像描述生成方法，其特征在于，将图像描述文本用预训练好的Bert模型进行处理，得到文本信号，并加入Masked注意力模块，以自回归的方式加入到当前词的预测过程中。 5.根据权利要求1所述的图像描述生成方法，其特征在于，所述自适应注意力模型为一个多头自注意力模块。 6.根据权利要求1所述的图像描述生成方法，其特征在于，三个独立的自注意力网络模型的为相同结构，注意力特征获取流程具体如下：权　利　要　求　书 1/2 页 2 CN 114612891 A 2其中，其中， Ao,Ap,At分别表示区域注意特征、网格注意特征和文本注意特征，是上一时刻解码器的隐藏状态， Wt是当前时间步的预测词， E是将one ‑hot表示映射到嵌入空间的嵌入函数。 7.根据权利要求1 ‑6任一项所述的图像描述生成方法，其特征在于，所述对比学习，具体步骤为：构建正样本和负样本图像文本对，利用本模型自动生成正负样本描述的单词序列，计算生成的文本描述与图片原始描述语句之间的余弦相似度，并最大化图文对匹配的相似度，最小化图文对不匹配的相似度。 8.根据权利要求7所述的图像描述生成方法，其特征在于，采用对称的交叉熵损失函数对余弦相似度分数进行训练。 9.根据权利要求1所述的图像描述生成方法，其特征在于，使用在ImageNet上预训练的 Resnet101的最后一个卷积层提取图像的全局特征表示Vg和网格特征表示Vp，使用Faster R‑CNN提取图像的区域对象特征表示Vo，采用以ResNet101为主干的文本分类预测器提取图像的文本语义特征Vt。 10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1 ‑9任一项所述的图像描述生成方法。权　利　要　求　书 2/2 页 3 CN 114612891 A 3

专利 基于对比学习和自适应注意力的图像描述生成方法及介质

专利基于对比学习和自适应注意力的图像描述生成方法及介质