(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210248468.7
(22)申请日 2022.03.14
(71)申请人 昆明理工大 学
地址 650500 云南省昆明市呈贡区景明南
路727号
(72)发明人 高盛祥 岳圣斌 余正涛
(74)专利代理 机构 昆明隆合知识产权代理事务
所(普通合伙) 53220
专利代理师 何娇
(51)Int.Cl.
G06V 10/75(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06T 9/00(2006.01)
G06T 7/70(2017.01)
G06F 40/30(2020.01)
(54)发明名称
基于编码-解码端的图像对差异描述方法
(57)摘要
本发明涉及基于解码 ‑编码端的图像对差异
描述方法。 本发明包括: 1)首先从预训练好的特
征提取器中提取出图像的视觉 特征; 2)然后对这
些特征语意之间的交互和位置关系进行建模来
获取图像的细粒度信息; 3)通过图片间分层交互
匹配模块来精准地表征图像间的差异, 排除视
角/光照变化带来的干扰。 4)最后通过基于从上
到下的LSTM来对齐视觉和文本特征, 然后解码出
能够描述出图像间差异的句子。 本发 明具有强大
的鲁棒性, 能在存在视角、 光照等干扰因素下准
确的描述两张图像 之间的差异, 在该领域所提供
的公共数据集的实验中, 本发明的评价指标超 过
了目前最先进的模型, 达 到国际领 先水平。
权利要求书1页 说明书9页 附图4页
CN 114581690 A
2022.06.03
CN 114581690 A
1.基于编码 ‑解码端的图像对差异描述方法, 其特 征在于: 所述方法的具体步骤如下:
Step1、 利用预训练好的卷积神经网络作为特征提取器, 将变化前/后的图像送入特征
提取器中获得两张图像的视 觉特征;
Step2、 通过语意 ‑位置提纯器来对每张图像内语意交互和位置关系的建模, 从而深度
理解图像的细粒度信息;
Step3、 获取图像间的差异表征: 利用分层匹配机制区分出是真实变化还是视觉/光照
变化并且捕获细小的变化过程, 获得准确的差异 表征;
Step4、 将差异表征送入解码器 中, 解码出能够描述两 张图像之间的差异的自然语言句
子。
2.根据权利要求1所述的基于编码 ‑解码端的图像对差异描述方法, 其特征在于: 所述
Step1中包括: 为了得到视觉特征, 使用预训练好的ResNet ‑101作为特征提取器来获取图像
的网格特 征。
3.根据权利要求1所述的基于编码 ‑解码端的图像对差异描述方法, 其特征在于: 所述
Step2的具体步骤:
Step2.1、 对图片中特征之间的相对位置进行编码: 对图像的相对左上角和右下角的坐
标进行编码得到特 征的相对位置坐标;
Step2.2、 通过在原始图像特征中注入绝对位置信息, 物体的变化被敏感地分辨出来;
对图像中的每 个特征分配了一个有顺序的固定值 来表示每 个特征的绝对位置;
Step2.3、 基于自注意力机制, 整合位置和语意关系得到细粒度信息, 这种信息能成为
区分真实变化和视 觉/光照变化的先验知识。
4.根据权利要求3所述的基于编码 ‑解码端的图像对差异描述方法, 其特征在于: 所述
Step2.2中, 具体来说使用不同频率的正弦和余弦函数来编码绝对位置 。
5.根据权利要求1所述的基于编码 ‑解码端的图像对差异描述方法, 其特征在于: 所述
Step3的具体步骤为:
Step3.1、 首先匹配变化前和后图像的共同特征, 即通过前/后图像扫 描后/前图像以获
得共同特 征;
Step3.2、 利用检查再匹配模块将变化前/后的图像视为参照源, 通过细化共同特征使
微小的变化变得突出。
6.根据权利要求1所述的基于编码 ‑解码端的图像对差异描述方法, 其特征在于: 所述
Step4的具体步骤为:
Step4.1、 空间注意力定位变化前和后图像中的差异, 并将其输出送入基于从上往下的
LSTM句子解码器, 生成能够描述变化的自然语言;
Step4.2、 通过最小化得到的单词序列的负可能性 来联合训练编码和解码器。权 利 要 求 书 1/1 页
2
CN 114581690 A
2基于编码 ‑解码端的图像对差异 描述方法
技术领域
[0001]本发明涉及基于编码 ‑解码端的图像对差异描述方法, 属于跨自然语言处理和计
算机视觉领域的多模态技 术领域。
背景技术
[0002]本发明生活在一个瞬息万变 的世界中, 事物的变化在日常生活中无处不在。 作为
人类, 本发 明可以从动态任务环境中检测到的变化并从 中推断出底层信息。 例如, 一个良好
的神经网络内科医生除了定位病变外, 还可以通过比较不同时间捕获的CT图像来更好地判
断患者病情的发展。 但是对于计算机来说, 理解图像并且在检测到的差异 时能自动生成报
告就是一件非常困难的事。 因而, 在损害检测, 视频监控, 航空摄影, 医学影像, 卫星影像等
许多的应用中, 如何准确地发现图像对中差异并自动生成报告, 是急需解决的关键问题。
[0003]近年来,结合图像和文本的跨模态研究越来越多地引起自然语言处理和机器视觉
领域学者的关注。 主流的任务包括图像描述生成、 机器视觉问答、 视觉对话生成、 视觉推理
以及从文本到图像的自动生 成等。 用自然语言描述图像内容(图像描述生成)是人工智能研
究中一个热门领域, 目前已经提出了许多用于图像差异描述的方法。 当前 的图像差异分析
与理解技术只能分析与识别特定有限的图片对信息, 只能简单的差异描述, 无法在有干扰
因素(光照/视角变化)的条件下对图像差异进 行精准的描述。 所以, 本发 明需要一种的新差
异描述技术, 能够使计算机准确识别图像中的复杂语义信息, 发现图像对之 间的不同, 并利
用自然语言处 理技术生成更符合人类 语言习惯的语句级别的文字描述。
发明内容
[0004]本发明提供了基于编码 ‑解码端的图像对差异描述方法, 以用于解决在存在视觉/
光照等干扰因素存在的情况 下, 差异定位 不准确、 描述 错误等问题, 提升模型的鲁棒 性。
[0005]本发明的技术方案是: 基于编码 ‑解码端的图像对差异描述方法, 所述方法的具体
步骤如下:
[0006]Step1、 利用预训练好 的卷积神 经网络作为特征提取器, 将变化前/后的图像送入
特征提取器中获得两张图像的视 觉特征;
[0007]Step2、 通过语意 ‑位置提纯器来对每张图像内语意交互和位置关系的建模, 从而
深度理解图像的细粒度信息, 这是获的精准差异 表征的基础;
[0008]Step3、 获取图像间的差异表征: 经过上述操作获得图像的细粒度理解 的前提下,
利用分层 匹配机制区分出是真实变化还是视觉/光照变化并且捕获细小的变化过程, 获得
准确的差异 表征; 分层匹配机制包 含了两个部分: 语意匹配模块和检查再匹配模块;
[0009]Step4、 将差异表征送入解码器中, 解码出能够描述两张图像之间的差异的自然语
言句子;
[0010]Step5、 使用5种评价指标来全面、 客观的评估本发明模型的性能。
[0011]作为本发明的进一步方案, 所述Step1中包括: 为了得到视觉特征, 在ImageNet上说 明 书 1/9 页
3
CN 114581690 A
3
专利 基于编码-解码端的图像对差异描述方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:49:43上传分享