(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210388248.4
(22)申请日 2022.04.13
(71)申请人 西安电子科技大 学
地址 710071 陕西省西安市太白南路2号
(72)发明人 高迪辉 盛立杰 苗启广
(74)专利代理 机构 陕西电子 工业专利中心
61205
专利代理师 田文英 王品华
(51)Int.Cl.
G06F 16/53(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06F 40/30(2020.01)
G06V 20/20(2022.01)
G06V 10/764(2022.01)G06V 30/19(2022.01)
G06V 10/74(2022.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)
(54)发明名称
基于联合特 征的图文跨模态检索方法
(57)摘要
本发明公开了一种基于联合特征的图像文
本互检索方法, 可用于自然图像和文本互相检
索。 本发明的实现步骤为: 1, 生成训练集, 2, 构建
深度学习 网络, 3, 训练深度学习网络, 4, 对待检
索的图像文本进行互检索。 本发 明采用基于注意
力机制的图像联合特征处理子网络重构图像全
局特征, 可以消除图像的全局特征中冗余信息带
来的影响, 更准确的构建图像与文本的特征。 本
发明联合图像和文本的全局特征与局部特征, 更
深层次地挖掘图像与文本的语义 关系, 使得本发
明的网络既可以充分利用细粒度的局部特征, 又
可以确保整体 语义不缺失。
权利要求书3页 说明书8页 附图1页
CN 114722224 A
2022.07.08
CN 114722224 A
1.一种基于联合特征的图文跨模态检索方法, 其特征在于, 利用注意力机制联合图像
和文本的全局特征与局部特征, 利用联合特征完成 图像文本互检索; 该方法的具体步骤包
括如下:
步骤1, 生成训练集:
步骤1.1, 选择至少10000 张自然图像和其对应描绘图像内容的文本, 每 张图像至少有5
句描绘图像内容的文本;
步骤1.2, 对每张自然图像的文本标记语义标签;
步骤1.3, 将所选的所有自然图像及其对应的语义标签组成训练集;
步骤2, 构建深度学习网络:
步骤2.1, 搭建一个图像局部特征处理子网络, 其结构依次为: 第一卷积层, 第二卷积
层, 第一全连接层, 第一自注意力层, 第二全连接层, 第二自注意力层, 第三自注意力层, 第
四自注意力层, 第五自注意力层;
将第一至第二卷积层的卷积核大小均设置为3 *3, 步长均设置为1;
将第一全连接层的输出节点个数设置为2048, 将第 二全连接层的输入节点和输出节点
的个数分别设置为2048和1024;
将第一自注意力层的输入节点的个数设置为2048, 第二至第五自注意力层的输入节点
的个数均设置为1024, 将第一至第五自注意力层的注意力头数均设置为8;
步骤2.2, 搭建一个图像全局特征处理子 网络, 其结构依次为: 第一卷积层, 第一ReLU激
活层, 池化层, 第二卷积层, 第二ReLU激活层, 全连接层;
将第一、 第二卷积层的卷积核个数分别设置为64、 32, 卷积核大小分别设置为5 *5、 3*3;
第一至第二ReLU激活层使用的函数均为max( ·,0);
池化层采用最大池化方式, 池化核大小设置为2*2, 池化 步长设置为2;
将全连接层的输出节点个数设置为2048;
步骤2.3, 搭建一个图像联合特征处理子网络, 其结构依次为: 第一全连接层, 第二全连
接层, ReLU激活层, 第三全连接层, Softmax激活层;
将第一至第三全连接层的输入节点和输出节点个数均设置为1024;
ReLU激活层使用函数max( ·,0)实现;
Softmax激活层使用函数
实现, 其中e·表示以自然常数e为底的指数操作, xi表示
第i个节点的输出值, xk表示第k个节点的输出值, n表示输出节点的个数;
步骤2.4, 搭建一个文本特征处理子网络, 其结构依次为: Bert层, 全连接层, 第一自注
意力层, 第二自注意力层; 所述Ber t层是由12个自注意力层串联组成的;
将Bert层中所有自注意力层的自注意力头数均设置为12, B ert层中的所有自注意力层
的输出节点的个数均设置为768;
将全连接层输入节点的个数和输出节点的个数分别设置为768和1024;
将第一、 第二自注意力层的输入节点的个数均设置为1024, 注意力头数均设置为8;
步骤2.5, 搭建一个全局特征分类子网络, 其结构依次为: 第一全连接层, Tanh激活层,
第二全连接层;权 利 要 求 书 1/3 页
2
CN 114722224 A
2将第一全连接层的输入节点个数和输出节点个数分别设置为1024和512, 将第二全连
接层的输入节点个数和输出节点个数分别设置为512和5 00;
Tanh激活层采用双曲正切函数实现;
步骤2.6, 将图像局部特征处理子网络与图像全局特征处理子网络并联后, 再与全局特
征分类子网络串联 组成图像子网络, 将文本特征处理子网络与全局分类特征子网络串联 组
成文本子网络; 将图像子网络与文本 子网络并联组成深度学习网络;
步骤3, 训练深度学习网络:
步骤3.1, 从训练集中随机 选择40个未选过的自然图像及其对应的语义标签;
步骤3.2, 将所选自然图像及其对应的语义标签输入到深度 学习网络中, 深度 学习网络
中的图像子网络和文本子网络, 分别输出每张图像的局部特征和全局特征以及每张图像对
应文本的局部特征和全局特征, 利用局部特征度量公式, 计算所选自然图像及其对应的语
义标签中每张图像局部特 征与其对应文本的局部特 征的相似度;
步骤3.3, 将每张图像局部特征与其对应文本的局部特征的相似度, 代入到局部特征损
失函数中, 得到每张图像与其对应文本的局部特 征的损失值;
步骤3.4, 将每张图像的全局特征与每个文本的全局特征以及对应的语义标签, 代入到
全局特征损失函数中, 得到每张图像的全局特 征与每个文本的全局特 征的损失值;
步骤3.5, 采用梯度 下降公式, 用每个图像和每个文本的局部特征损失值和全局特征损
失值, 计算深度学习网络各个节点的梯度, 通过梯度更新深度学习网络各个节点的权 重;
步骤3.6, 判断当前更新迭代后深度学习网络的损失值是否小于0.00001, 若是, 则得到
训练好的深度学习网络后执 行步骤4, 否则, 执 行步骤3.1;
所述深度 学习网络的损失值指的是, 所选样本 中每个图像与每个文本的局部特征损失
值和全局特 征损失值之和;
步骤4, 对待检索的图像文本进行互检索:
步骤4.1, 采用与步骤1.2相同的方法, 对待检索的图像文本进行处 理;
步骤4.2, 采用与步骤3.2相同的方法, 得到待检索的图像文本中每一张图像和每一个
文本的全局特 征与局部特 征, 以及每一张图像和每一个文本的局部特 征相似度;
步骤4.3, 使用全局特 征度量公式, 计算每 个图像和每 个文本的全局特 征相似度;
步骤4.4, 每张图像与每个文本的相似度是二者全局特征相似度和局部特征相似度之
和, 选择每张图像与其相似度最高的文本作为图像 ‑文本检索结果, 选择每个文本与其相似
度最高的图像作为文本 ‑图像检索结果。
2.根据权利要求1所述的基于联合特征的图文跨模态检索方法, 其特征在于, 步骤1.2
中所述的对每张自然图像的文本标记语义标签是通过如下方法得到的: 找出每张自然图像
每个文本中的名词, 将每个文本名词在所有自然图像中出现的次数 由高到低排序, 选择出
现次数最高的500个名词组成名词集合; 对样 本集中的每个文本, 定义语义标签, 当标签为 1
时, 表示该文本中含有名词集合中的名词, 当标签值为0时, 表示该文本中不包含名词集合
中的名词。
3.根据权利要求1所述的基于联合特征的图文跨模态检索方法, 其特征在于, 步骤3.2
中所述局部特 征度量公式如下:权 利 要 求 书 2/3 页
3
CN 114722224 A
3
专利 基于联合特征的图文跨模态检索方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:49:44上传分享