(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210200250.4
(22)申请日 2022.03.02
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 冯原 孙准 郑弘晖 辛颖 张滨
李超 王云浩 韩树民
(74)专利代理 机构 北京市铸成律师事务所
11313
专利代理师 翟姝红 皇甫韵啸
(51)Int.Cl.
G06V 10/74(2022.01)
G06V 10/764(2022.01)
G06V 10/774(2022.01)
G06K 9/62(2022.01)G06F 40/30(2020.01)
(54)发明名称
多目标图文匹配模型的训练方法、 图文检索
方法及装置
(57)摘要
本公开提供了一种多目标图文匹配模型的
训练方法、 图文检索方法及装置, 涉及人工智能
技术领域, 尤其涉及深度学习、 图像识别技术领
域。 方法包括: 获取多个训练样本, 训练样本包括
样本图像和样本文本组成的样 本对, 样本图像中
包括多个目标; 对于每一训练样本, 获取训练样
本中的样 本文本对应的热力图, 热力图表征样本
文本与样本图像中的目标对应的区域; 基于多个
样本文本和对应的热力图, 训练图文匹配模型,
得到多目标图文匹配模型。 本公开技术方案, 通
过样本文本和对应的热力图训练多目标图文匹
配模型, 可以解决图像中有多个目标时, 计算结
果不准确的问题。 将多目标图文匹配模型应用到
图文检索中, 可以提高检索结果的准确性。
权利要求书3页 说明书10页 附图5页
CN 114549874 A
2022.05.27
CN 114549874 A
1.一种多目标图文匹配模型的训练方法, 所述方法包括:
获取多个训练样本, 所述训练样本包括样本 图像和样本文本组成的样本对, 所述样本
图像中包括多个目标;
对于每一训练样本, 获取所述训练样本中的样本文本对应的热力图, 所述热力图表征
所述样本文本与所述样本图像中的目标对应的区域;
基于多个所述样本文本和对应的热力图, 训练图文匹配模型, 得到多目标图文匹配模
型。
2.根据权利要求1所述的方法, 其中, 所述对于每一训练样本, 获取所述训练样本中的
样本文本对应的热力图, 包括:
获取预先训练的图文匹配模型;
对于每一训练样本, 基于所述图文匹配模型和所述训练样本, 得到所述训练样本中的
样本文本对应的热力图。
3.根据权利要求2所述的方法, 其中, 所述对于每一训练样本, 基于所述图文匹配模型
和所述训练样本, 得到所述训练样本中的样本文本对应的热力图, 包括:
对于每一训练样本, 将所述训练样本输入所述图文匹配模型, 得到所述训练样本对应
的相似度和梯度; 基于所述训练样本对应的相似度和梯度, 对所述训练样本中的样本图像
进行处理, 得到所述训练样本中的样本文本对应的热力图。
4.根据权利要求1所述的方法, 其中, 所述基于多个所述样本文本和对应的热力图, 训
练图文匹配模型, 得到多目标图文匹配模型, 包括:
获取预先训练的图文匹配模型;
基于多个所述样本文本和对应的热力图, 调整所述图文匹配模型的模型参数, 得到多
目标图文匹配模型。
5.根据权利要求1所述的方法, 其中, 所述图文匹配模型包括预先训练 的文本编码模块
和图像编码模块。
6.一种图文检索方法, 所述方法包括:
获取检索文本和多个图像;
将所述检索文本和所述多个图像输入多目标图文 匹配模型, 得到所述检索文本和所述
多个图像的相似度;
根据所述检索文本和所述多个图像的相似度, 确定所述检索文本对应的目标图像;
其中, 所述多目标图文匹配模型 是根据权利要求1 ‑5任一项所述的方法训练得到的。
7.根据权利要求6所述的方法, 其中, 在获取多个图像之后, 还 包括:
通过所述多目标图文匹配模型的图像编码模块提取所述多个图像中各图像的图像特
征, 将各图像的图像特 征进行分类, 得到多个 类别的图像并存 储。
8.根据权利要求7所述的方法, 其中, 所述将所述检索文本和所述多个图像输入多目标
图文匹配模型, 得到所述检索文本和所述多个图像的相似度, 包括:
通过所述多目标图文匹配模型的文本编码模块 提取所述检索文本的文本特 征;
在所述多个 类别的图像中确定所述检索文本对应的目标类别的图像;
通过所述多目标图文 匹配模型的相似度确定模块, 得到所述检索文本和所述目标类别
的图像中各图像的相似度。权 利 要 求 书 1/3 页
2
CN 114549874 A
29.一种多目标图文匹配模型的训练装置, 所述装置包括:
第一获取模块, 用于获取多个训练样本, 所述训练样本包括样本 图像和样本文本组成
的样本对, 所述样本图像中包括多个目标;
第二获取模块, 用于对于每一训练样本, 获取所述训练样本中的样本文本对应的热力
图, 所述热力图表征 所述样本文本与所述样本图像中的目标对应的区域;
模型训练模块, 用于基于多个所述样本文本和对应的热力图, 训练图文 匹配模型, 得到
多目标图文匹配模型。
10.根据权利要求9所述的装置, 其中, 所述第二获取模块包括获取 单元和确定单元;
所述获取 单元, 用于获取 预先训练的图文匹配模型;
所述确定单元, 用于对于每一训练样本, 基于所述图文匹配模型和所述训练样本, 得到
所述训练样本中的样本文本对应的热力图。
11.根据权利要求10所述的装置, 其中, 所述确定单 元, 具体用于:
对于每一训练样本, 将所述训练样本输入所述图文匹配模型, 得到所述训练样本对应
的相似度和梯度; 基于所述训练样本对应的相似度和梯度, 对所述训练样本中的样本图像
进行处理, 得到所述训练样本中的样本文本对应的热力图。
12.根据权利要求9所述的装置, 其中, 所述模型训练模块, 具体用于:
获取预先训练的图文匹配模型;
基于多个所述样本文本和对应的热力图, 调整所述图文匹配模型的模型参数, 得到多
目标图文匹配模型。
13.根据权利要求9所述的装置, 其中, 所述图文匹配模型包括预先训练的文本编码模
块和图像编码模块。
14.一种图文检索装置, 所述装置包括:
获取模块, 用于获取检索文本和多个图像;
匹配模块, 用于将所述检索文本和所述多个图像输入多目标图文匹配模型, 得到所述
检索文本和所述多个图像的相似度;
确定模块, 用于根据所述检索文本和所述多个图像的相似度, 确定所述检索文本对应
的目标图像;
其中, 所述多目标图文匹配模型 是根据权利要求1 ‑5任一项所述的方法训练得到的。
15.根据权利要求14所述的装置, 其中, 还 包括分类模块, 用于:
通过所述多目标图文匹配模型的图像编码模块提取所述多个图像中各图像的图像特
征, 将各图像的图像特 征进行分类, 得到多个 类别的图像并存 储。
16.根据权利要求15所述的装置, 其中, 所述匹配模块, 用于:
通过所述多目标图文匹配模型的文本编码模块 提取所述检索文本的文本特 征;
在所述多个 类别的图像中确定所述检索文本对应的目标类别的图像;
通过所述多目标图文 匹配模型的相似度确定模块, 得到所述检索文本和所述目标类别
的图像中各图像的相似度。
17.一种电子设备, 其特 征在于, 包括:
至少一个处 理器; 以及
与所述至少一个处 理器通信连接的存 储器; 其中,权 利 要 求 书 2/3 页
3
CN 114549874 A
3
专利 多目标图文匹配模型的训练方法、图文检索方法及装置
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:50:07上传分享