专利图像理解方法、装置、设备及介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210401296.2 (22)申请日 2022.04.18 (65)同一申请的已公布的文献号申请公布号 CN 114511043 A (43)申请公布日 2022.05.17 (73)专利权人苏州浪潮智能科技有限公司地址 215100 江苏省苏州市吴中经济开发区郭巷街道官浦路1号9幢 (72)发明人郭振华　刘璐　李仁刚　赵雅倩　闫瑞栋　徐聪　金良　 (74)专利代理机构北京集佳知识产权代理有限公司 11227 专利代理师柳虹 (51)Int.Cl. G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 40/30(2020.01) G06V 10/774(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) (56)对比文件 CN 113792113 A,2021.12.14 CN 114067321 A,202 2.02.18 CN 113792112 A,2021.12.14 审查员顾明海 (54)发明名称图像理解方法、装置、设备及介质 (57)摘要本申请公开了一种图像理解方法、装置、设备及介质，涉及人工智能领域，包括：基于训练图像对应的原始文本数据构建与训练图像对应的第一文本数据，利用简单视觉语言模型得到第二文本数据；基于训练图像、第一文本数据和第二文本数据构建图像文本对集，初始化图像理解模型；从图像文本对集中选取用作训练数据的图像文本对，利用当前的图像理解模型计算训练数据对应的模型总体损失函数值，对图像理解模型中的参数进行更新；判断当前是否满足结束条件，若否则跳转至从图像文本对集中选取用作训练数据的图像文本对的步骤，直到满足结束条件，利用当前输出的图像理解模型获取与待检测图像对应的目标文本数据。实现了能更加贴近真实应用场景的图像理解。权利要求书3页说明书11页附图6页 CN 114511043 B 2022.07.08 CN 114511043 B 1.一种图像理解方法，其特征在于，包括：基于训练图像对应的原始文本数据构建与所述训练图像对应的第一文本数据，并利用简单视觉语言模型对所述训练图像进行处理，以得到与所述训练图像对应的第二文本数据；基于所述训练图像、所述第一文本数据和所述第二文本数据构建图像文本对，以得到相应的图像文本对集，并初始化图像理解模型；从所述图像文本对集中选取用作训练数据的所述图像文本对，并利用当前的所述图像理解模型计算所述训练数据对应的模型总体损失函数值，然后基于所述模型总体损失函数值对所述图像理解模型中的参数进行更新；判断当前是否满足预设迭代结束条件，如果否则重新跳转至所述从所述图像文本对集中选取用作训练数据的所述图像文本对的步骤，直到满足所述预设迭代结束条件，并将当前输出的所述图像理解模型作为目标图像理解模型；利用所述目标图像理解模型获取与待检测图像对应的目标文本数据；其中，所述利用当前的所述图像理解模型计算所述训练数据对应的模型总体损失函数值，包括：利用当前的所述图像理解模型计算所述图像文本对的像素文本匹配损失函数值和文本距离损失函数值，并基于所述像素文本匹配损失函数值以及所述文本距离损失函数值确定模型总体损失函数值；并且，所述利用当前的所述图像理解模型计算所述图像文本对的像素文本匹配损失函数值和文本距离损失函数值，包括：通过当前的所述图像理解模型中的图像编码器计算与所述图像文本对中所述训练图像对应的浅层特征；基于所述浅层特征、所述图像文本对中所述第一文本数据的第一文本特征以及所述第二文本数据的第二文本特征，并利用所述图像理解模型计算所述图像文本对的所述像素文本匹配损失函数值和所述文本距离损失函数值。 2.根据权利要求1所述的图像理解方法，其特征在于，所述基于训练图像对应的原始文本数据构建与所述训练图像对应的第一文本数据，包括：获取训练图像以及与所述训练图像对应的原始文本数据；提取所述原始文本数据的原始文本特征，并计算所述训练图像和所述原始文本数据之间的关联向量；利用所述关联向量对所述原始文本特征进行更新，以得到所述第一文本数据。 3.根据权利要求2所述的图像理解方法，其特征在于，所述计算所述训练图像和所述原始文本数据之间的关联向量，包括：利用所述图像理解模型中的图像编码器计算出与所述训练图像对应的全局特征和浅层特征；基于所述全局特征和所述浅层特征，并利用所述图像理解模型中的深度模型的解码器计算出所述训练图像和所述原始文本数据之间的关联向量。 4.根据权利要求1所述的图像理解方法，其特征在于，所述基于所述浅层特征、所述图像文本对中所述第一文本数据的第一文本特征以及所述第二文本数据的第二文本特征，并利用所述图像理解模型计算所述图像文本对的所述像素文本匹配损失函数值和所述文本权　利　要　求　书 1/3 页 2 CN 114511043 B 2距离损失函数值，包括：利用所述图像理解模型确定经过正则化处理的所述第一文本特征以及经过正则化处理的所述第二文本特征；通过所述浅层特征、经过正则化处理的所述第一文本特征和经过正则化处理的所述第二文本特征计算出所述图像文本对的所述像素文本匹配损失函数值，并利用经过正则化处理的所述第一文本特征和经过正则化处理的所述第二文本特征计算出所述图像文本对的所述文本距离损失函数值。 5.根据权利要求1至4任一项所述的图像理解方法，其特征在于，所述基于所述模型总体损失函数值对所述图像理解模型中的参数进行更新，包括：基于所述模型总体损失函数值和自适应矩估计优化器，并利用梯度下降优化算法对所述图像理解模型的参数进行更新。 6.一种图像理解装置，其特征在于，包括：图文数据获取模块，用于基于训练图像对应的原始文本数据构建与所述训练图像对应的第一文本数据，并利用简单视觉语言模型对所述训练图像进行处理，以得到与所述训练图像对应的第二文本数据；模型初始化模块，用于基于所述训练图像、所述第一文本数据和所述第二文本数据构建图像文本对，以得到相应的图像文本对集，并初始化图像理解模型；模型参数更新模块，用于从所述图像文本对集中选取用作训练数据的所述图像文本对，并利用当前的所述图像理解模型计算所述训练数据对应的模型总体损失函数值，然后基于所述模型总体损失函数值对所述图像理解模型中的参数进行更新；模型确定模块，用于判断当前是否满足预设迭代结束条件，如果否则重新跳转至所述从所述图像文本对集中选取用作训练数据的所述图像文本对的步骤，直到满足所述预设迭代结束条件，并将当前输出的所述图像理解模型作为目标图像理解模型；图像理解模块，用于利用所述目标图像理解模型获取与待检测图像对应的目标文本数据；其中，所述模型参数更新模块，具体用于：利用当前的所述图像理解模型计算所述图像文本对的像素文本匹配损失函数值和文本距离损失函数值，并基于所述像素文本匹配损失函数值以及所述文本距离损失函数值确定模型总体损失函数值；并且，所述模型参数更新模块的过程，具体用于：通过当前的所述图像理解模型中的图像编码器计算与所述图像文本对中所述训练图像对应的浅层特征；基于所述浅层特征、所述图像文本对中所述第一文本数据的第一文本特征以及所述第二文本数据的第二文本特征，并利用所述图像理解模型计算所述图像文本对的所述像素文本匹配损失函数值和所述文本距离损失函数值。 7.一种电子设备，其特征在于，包括：存储器，用于保存计算机程序；处理器，用于执行所述计算机程序，以实现如权利要求1至5任一项所述的图像理解方法的步骤。 8.一种计算机可读存储介质，其特征在于，用于存储计算机程序；其中，所述计算机程权　利　要　求　书 2/3 页 3 CN 114511043 B 3

专利 图像理解方法、装置、设备及介质

专利图像理解方法、装置、设备及介质