专利基于编码-解码端的图像对差异描述方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210248468.7 (22)申请日 2022.03.14 (71)申请人昆明理工大学地址 650500 云南省昆明市呈贡区景明南路727号 (72)发明人高盛祥　岳圣斌　余正涛　 (74)专利代理机构昆明隆合知识产权代理事务所(普通合伙) 53220 专利代理师何娇 (51)Int.Cl. G06V 10/75(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06T 9/00(2006.01) G06T 7/70(2017.01) G06F 40/30(2020.01) (54)发明名称基于编码-解码端的图像对差异描述方法 (57)摘要本发明涉及基于解码 ‑编码端的图像对差异描述方法。本发明包括： 1)首先从预训练好的特征提取器中提取出图像的视觉特征； 2)然后对这些特征语意之间的交互和位置关系进行建模来获取图像的细粒度信息； 3)通过图片间分层交互匹配模块来精准地表征图像间的差异，排除视角/光照变化带来的干扰。 4)最后通过基于从上到下的LSTM来对齐视觉和文本特征，然后解码出能够描述出图像间差异的句子。本发明具有强大的鲁棒性，能在存在视角、光照等干扰因素下准确的描述两张图像之间的差异，在该领域所提供的公共数据集的实验中，本发明的评价指标超过了目前最先进的模型，达到国际领先水平。权利要求书1页说明书9页附图4页 CN 114581690 A 2022.06.03 CN 114581690 A 1.基于编码 ‑解码端的图像对差异描述方法，其特征在于：所述方法的具体步骤如下： Step1、利用预训练好的卷积神经网络作为特征提取器，将变化前/后的图像送入特征提取器中获得两张图像的视觉特征； Step2、通过语意 ‑位置提纯器来对每张图像内语意交互和位置关系的建模，从而深度理解图像的细粒度信息； Step3、获取图像间的差异表征：利用分层匹配机制区分出是真实变化还是视觉/光照变化并且捕获细小的变化过程，获得准确的差异表征； Step4、将差异表征送入解码器中，解码出能够描述两张图像之间的差异的自然语言句子。 2.根据权利要求1所述的基于编码 ‑解码端的图像对差异描述方法，其特征在于：所述 Step1中包括：为了得到视觉特征，使用预训练好的ResNet ‑101作为特征提取器来获取图像的网格特征。 3.根据权利要求1所述的基于编码 ‑解码端的图像对差异描述方法，其特征在于：所述 Step2的具体步骤： Step2.1、对图片中特征之间的相对位置进行编码：对图像的相对左上角和右下角的坐标进行编码得到特征的相对位置坐标； Step2.2、通过在原始图像特征中注入绝对位置信息，物体的变化被敏感地分辨出来；对图像中的每个特征分配了一个有顺序的固定值来表示每个特征的绝对位置； Step2.3、基于自注意力机制，整合位置和语意关系得到细粒度信息，这种信息能成为区分真实变化和视觉/光照变化的先验知识。 4.根据权利要求3所述的基于编码 ‑解码端的图像对差异描述方法，其特征在于：所述 Step2.2中，具体来说使用不同频率的正弦和余弦函数来编码绝对位置。 5.根据权利要求1所述的基于编码 ‑解码端的图像对差异描述方法，其特征在于：所述 Step3的具体步骤为： Step3.1、首先匹配变化前和后图像的共同特征，即通过前/后图像扫描后/前图像以获得共同特征； Step3.2、利用检查再匹配模块将变化前/后的图像视为参照源，通过细化共同特征使微小的变化变得突出。 6.根据权利要求1所述的基于编码 ‑解码端的图像对差异描述方法，其特征在于：所述 Step4的具体步骤为： Step4.1、空间注意力定位变化前和后图像中的差异，并将其输出送入基于从上往下的 LSTM句子解码器，生成能够描述变化的自然语言； Step4.2、通过最小化得到的单词序列的负可能性来联合训练编码和解码器。权　利　要　求　书 1/1 页 2 CN 114581690 A 2基于编码 ‑解码端的图像对差异描述方法技术领域 [0001]本发明涉及基于编码 ‑解码端的图像对差异描述方法，属于跨自然语言处理和计算机视觉领域的多模态技术领域。背景技术 [0002]本发明生活在一个瞬息万变的世界中，事物的变化在日常生活中无处不在。作为人类，本发明可以从动态任务环境中检测到的变化并从中推断出底层信息。例如，一个良好的神经网络内科医生除了定位病变外，还可以通过比较不同时间捕获的CT图像来更好地判断患者病情的发展。但是对于计算机来说，理解图像并且在检测到的差异时能自动生成报告就是一件非常困难的事。因而，在损害检测，视频监控，航空摄影，医学影像，卫星影像等许多的应用中，如何准确地发现图像对中差异并自动生成报告，是急需解决的关键问题。 [0003]近年来,结合图像和文本的跨模态研究越来越多地引起自然语言处理和机器视觉领域学者的关注。主流的任务包括图像描述生成、机器视觉问答、视觉对话生成、视觉推理以及从文本到图像的自动生成等。用自然语言描述图像内容(图像描述生成)是人工智能研究中一个热门领域，目前已经提出了许多用于图像差异描述的方法。当前的图像差异分析与理解技术只能分析与识别特定有限的图片对信息，只能简单的差异描述，无法在有干扰因素(光照/视角变化)的条件下对图像差异进行精准的描述。所以，本发明需要一种的新差异描述技术，能够使计算机准确识别图像中的复杂语义信息，发现图像对之间的不同，并利用自然语言处理技术生成更符合人类语言习惯的语句级别的文字描述。发明内容 [0004]本发明提供了基于编码 ‑解码端的图像对差异描述方法，以用于解决在存在视觉/ 光照等干扰因素存在的情况下，差异定位不准确、描述错误等问题，提升模型的鲁棒性。 [0005]本发明的技术方案是：基于编码 ‑解码端的图像对差异描述方法，所述方法的具体步骤如下： [0006]Step1、利用预训练好的卷积神经网络作为特征提取器，将变化前/后的图像送入特征提取器中获得两张图像的视觉特征； [0007]Step2、通过语意 ‑位置提纯器来对每张图像内语意交互和位置关系的建模，从而深度理解图像的细粒度信息，这是获的精准差异表征的基础； [0008]Step3、获取图像间的差异表征：经过上述操作获得图像的细粒度理解的前提下，利用分层匹配机制区分出是真实变化还是视觉/光照变化并且捕获细小的变化过程，获得准确的差异表征；分层匹配机制包含了两个部分：语意匹配模块和检查再匹配模块； [0009]Step4、将差异表征送入解码器中，解码出能够描述两张图像之间的差异的自然语言句子； [0010]Step5、使用5种评价指标来全面、客观的评估本发明模型的性能。 [0011]作为本发明的进一步方案，所述Step1中包括：为了得到视觉特征，在ImageNet上说　明　书 1/9 页 3 CN 114581690 A 3

专利 基于编码-解码端的图像对差异描述方法

专利基于编码-解码端的图像对差异描述方法