(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210401296.2
(22)申请日 2022.04.18
(65)同一申请的已公布的文献号
申请公布号 CN 114511043 A
(43)申请公布日 2022.05.17
(73)专利权人 苏州浪潮智能科技有限公司
地址 215100 江苏省苏州市吴中经济开发
区郭巷街道官浦路1号9幢
(72)发明人 郭振华 刘璐 李仁刚 赵雅倩
闫瑞栋 徐聪 金良
(74)专利代理 机构 北京集佳知识产权代理有限
公司 11227
专利代理师 柳虹
(51)Int.Cl.
G06K 9/62(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06F 40/30(2020.01)
G06V 10/774(2022.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)
(56)对比文件
CN 113792113 A,2021.12.14
CN 114067321 A,202 2.02.18
CN 113792112 A,2021.12.14
审查员 顾明海
(54)发明名称
图像理解方法、 装置、 设备及 介质
(57)摘要
本申请公开了一种图像理解方法、 装置、 设
备及介质, 涉及人工智能领域, 包括: 基于训练图
像对应的原始文本数据构建与训练图像对应的
第一文本 数据, 利用简单视觉语言模 型得到第二
文本数据; 基于训练图像、 第一文本数据和第二
文本数据构建图像文本对集, 初始化图像理解模
型; 从图像文本对集中选取用作训练数据的图像
文本对, 利用当前的图像理解模 型计算训练数据
对应的模型总体损失函数值, 对图像理解模型中
的参数进行更新; 判断当前是否满足结束条件,
若否则跳转至从图像文本对集中选取用作训练
数据的图像文本对的步骤, 直到满足结束条件,
利用当前输出的图像理解模型获取与待检测图
像对应的目标文本数据。 实现了能更加贴近真实
应用场景的图像理解。
权利要求书3页 说明书11页 附图6页
CN 114511043 B
2022.07.08
CN 114511043 B
1.一种图像理解方法, 其特 征在于, 包括:
基于训练图像对应的原始文本数据构建与 所述训练图像对应的第 一文本数据, 并利用
简单视觉语言模型对所述训练图像进行处理, 以得到与所述训练图像对应的第二文本数
据;
基于所述训练图像、 所述第一文本数据和所述第二文本数据构建图像文本对, 以得到
相应的图像文本对集, 并初始化图像理解模型;
从所述图像文本对集中选取用作训练数据的所述图像文本对, 并利用当前的所述图像
理解模型计算所述训练数据对应的模型总体损失函数值, 然后基于所述模 型总体损失函数
值对所述图像理解模型中的参数进行 更新;
判断当前是否满足预设迭代结束条件, 如果否则 重新跳转至所述从所述图像文本对集
中选取用作训练数据的所述图像文本对的步骤, 直到满足所述预设迭代结束条件, 并将当
前输出的所述图像理解模型作为目标图像理解模型;
利用所述目标图像理解模型获取与待检测图像对应的目标文本数据;
其中, 所述利用当前的所述图像理解模型计算所述训练数据对应的模型总体损失函数
值, 包括:
利用当前的所述图像理解模型计算所述图像文本对的像素文本匹配损 失函数值和文
本距离损失函数值, 并基于所述像素文本匹配损失函数值以及所述文本距离损失函数值确
定模型总体损失函数值;
并且, 所述利用当前的所述图像理解模型计算所述图像文本对的像素文本匹配损失函
数值和文本距离损失函数值, 包括:
通过当前的所述图像理解模型中的图像编码器计算与所述图像文本对中所述训练图
像对应的浅层特征; 基于所述浅层特征、 所述图像文本对中所述第一文本数据的第一文本
特征以及所述第二文本数据的第二文本特征, 并利用所述图像理解模型计算所述图像文本
对的所述像素文本匹配损失函数值和所述文本距离损失函数值。
2.根据权利要求1所述的图像理解方法, 其特征在于, 所述基于训练图像对应的原始文
本数据构建与所述训练图像对应的第一文本数据, 包括:
获取训练图像以及与所述训练图像对应的原 始文本数据;
提取所述原始文本数据的原始文本特征, 并计算所述训练图像和所述原始文本数据之
间的关联向量;
利用所述关联向量对所述原 始文本特 征进行更新, 以得到所述第一文本数据。
3.根据权利要求2所述的图像理解方法, 其特征在于, 所述计算所述训练图像和所述原
始文本数据之间的关联向量, 包括:
利用所述图像理解模型中的图像编码器计算出与所述训练图像对应的全局特征和浅
层特征;
基于所述全局特征和所述浅层特征, 并利用所述图像理解模型中的深度模型的解码器
计算出所述训练图像和所述原 始文本数据之间的关联向量。
4.根据权利要求1所述的图像理解方法, 其特征在于, 所述基于所述浅层特征、 所述图
像文本对中所述第一文本数据的第一文本特征以及所述第二文本数据的第二文本特征, 并
利用所述图像理解模型计算所述图像文本对的所述像素文本匹配损失函数值和所述文本权 利 要 求 书 1/3 页
2
CN 114511043 B
2距离损失函数值, 包括:
利用所述图像理解模型确定经过正则化处理的所述第一文本特征以及经过正则化处
理的所述第二文本特 征;
通过所述浅层特征、 经过正则化处理 的所述第 一文本特征和经过正则化处理 的所述第
二文本特征计算出所述图像文本对的所述像素文本匹配损失函数值, 并利用经过正则化处
理的所述第一文本特征和经过正则化处理的所述第二文本特征计算出所述图像文本对的
所述文本距离损失函数值。
5.根据权利要求1至4任一项所述的图像理解方法, 其特征在于, 所述基于所述模型总
体损失函数值对所述图像理解模型中的参数进行 更新, 包括:
基于所述模型总体损失函数值和自适应矩估计优化器, 并利用梯度下降优化算法对所
述图像理解模型的参数进行 更新。
6.一种图像理解装置, 其特 征在于, 包括:
图文数据获取模块, 用于基于训练图像对应的原始文本数据构建与 所述训练图像对应
的第一文本数据, 并利用简单视觉语言模型对所述训练图像进行处理, 以得到与所述训练
图像对应的第二文本数据;
模型初始化模块, 用于基于所述训练图像、 所述第一文本数据和所述第二文本数据构
建图像文本对, 以得到相应的图像文本对集, 并初始化图像理解模型;
模型参数更新模块, 用于从所述图像文本对集中选取用作训练数据的所述图像文本
对, 并利用当前 的所述图像理解模型计算所述训练数据对应的模型总体损失函数值, 然后
基于所述模型总体损失函数值对所述图像理解模型中的参数进行 更新;
模型确定模块, 用于判断当前是否满足预设迭代结束条件, 如果否则重新跳转至所述
从所述图像文本对集中选取用作训练数据的所述图像文本对的步骤, 直到满足所述预设迭
代结束条件, 并将当前输出的所述图像理解模型作为目标图像理解模型;
图像理解模块, 用于利用所述目标图像理解模型获取与待检测图像对应的目标文本数
据;
其中, 所述模型参数 更新模块, 具体用于:
利用当前的所述图像理解模型计算所述图像文本对的像素文本匹配损 失函数值和文
本距离损失函数值, 并基于所述像素文本匹配损失函数值以及所述文本距离损失函数值确
定模型总体损失函数值;
并且, 所述模型参数 更新模块的过程, 具体用于:
通过当前的所述图像理解模型中的图像编码器计算与所述图像文本对中所述训练图
像对应的浅层特征; 基于所述浅层特征、 所述图像文本对中所述第一文本数据的第一文本
特征以及所述第二文本数据的第二文本特征, 并利用所述图像理解模型计算所述图像文本
对的所述像素文本匹配损失函数值和所述文本距离损失函数值。
7.一种电子设备, 其特 征在于, 包括:
存储器, 用于保存计算机程序;
处理器, 用于执行所述计算机程序, 以实现如权利要求1至5任一项所述的图像理解方
法的步骤。
8.一种计算机可读存储介质, 其特征在于, 用于存储计算机程序; 其中, 所述计算机程权 利 要 求 书 2/3 页
3
CN 114511043 B
3
专利 图像理解方法、装置、设备及介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:48:29上传分享