专利基于联合特征的图文跨模态检索方法 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210388248.4 (22)申请日 2022.04.13 (71)申请人西安电子科技大学地址 710071 陕西省西安市太白南路2号 (72)发明人高迪辉　盛立杰　苗启广　 (74)专利代理机构陕西电子工业专利中心 61205 专利代理师田文英　王品华 (51)Int.Cl. G06F 16/53(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 40/30(2020.01) G06V 20/20(2022.01) G06V 10/764(2022.01)G06V 30/19(2022.01) G06V 10/74(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) (54)发明名称基于联合特征的图文跨模态检索方法 (57)摘要本发明公开了一种基于联合特征的图像文本互检索方法，可用于自然图像和文本互相检索。本发明的实现步骤为： 1，生成训练集， 2，构建深度学习网络， 3，训练深度学习网络， 4，对待检索的图像文本进行互检索。本发明采用基于注意力机制的图像联合特征处理子网络重构图像全局特征，可以消除图像的全局特征中冗余信息带来的影响，更准确的构建图像与文本的特征。本发明联合图像和文本的全局特征与局部特征，更深层次地挖掘图像与文本的语义关系，使得本发明的网络既可以充分利用细粒度的局部特征，又可以确保整体语义不缺失。权利要求书3页说明书8页附图1页 CN 114722224 A 2022.07.08 CN 114722224 A 1.一种基于联合特征的图文跨模态检索方法，其特征在于，利用注意力机制联合图像和文本的全局特征与局部特征，利用联合特征完成图像文本互检索；该方法的具体步骤包括如下：步骤1，生成训练集：步骤1.1，选择至少10000 张自然图像和其对应描绘图像内容的文本，每张图像至少有5 句描绘图像内容的文本；步骤1.2，对每张自然图像的文本标记语义标签；步骤1.3，将所选的所有自然图像及其对应的语义标签组成训练集；步骤2，构建深度学习网络：步骤2.1，搭建一个图像局部特征处理子网络，其结构依次为：第一卷积层，第二卷积层，第一全连接层，第一自注意力层，第二全连接层，第二自注意力层，第三自注意力层，第四自注意力层，第五自注意力层；将第一至第二卷积层的卷积核大小均设置为3 *3，步长均设置为1；将第一全连接层的输出节点个数设置为2048，将第二全连接层的输入节点和输出节点的个数分别设置为2048和1024；将第一自注意力层的输入节点的个数设置为2048，第二至第五自注意力层的输入节点的个数均设置为1024，将第一至第五自注意力层的注意力头数均设置为8；步骤2.2，搭建一个图像全局特征处理子网络，其结构依次为：第一卷积层，第一ReLU激活层，池化层，第二卷积层，第二ReLU激活层，全连接层；将第一、第二卷积层的卷积核个数分别设置为64、 32，卷积核大小分别设置为5 *5、 3*3；第一至第二ReLU激活层使用的函数均为max( ·,0)；池化层采用最大池化方式，池化核大小设置为2*2，池化步长设置为2；将全连接层的输出节点个数设置为2048；步骤2.3，搭建一个图像联合特征处理子网络，其结构依次为：第一全连接层，第二全连接层， ReLU激活层，第三全连接层， Softmax激活层；将第一至第三全连接层的输入节点和输出节点个数均设置为1024； ReLU激活层使用函数max( ·,0)实现； Softmax激活层使用函数实现，其中e·表示以自然常数e为底的指数操作， xi表示第i个节点的输出值， xk表示第k个节点的输出值， n表示输出节点的个数；步骤2.4，搭建一个文本特征处理子网络，其结构依次为： Bert层，全连接层，第一自注意力层，第二自注意力层；所述Ber t层是由12个自注意力层串联组成的；将Bert层中所有自注意力层的自注意力头数均设置为12， B ert层中的所有自注意力层的输出节点的个数均设置为768；将全连接层输入节点的个数和输出节点的个数分别设置为768和1024；将第一、第二自注意力层的输入节点的个数均设置为1024，注意力头数均设置为8；步骤2.5，搭建一个全局特征分类子网络，其结构依次为：第一全连接层， Tanh激活层，第二全连接层；权　利　要　求　书 1/3 页 2 CN 114722224 A 2将第一全连接层的输入节点个数和输出节点个数分别设置为1024和512，将第二全连接层的输入节点个数和输出节点个数分别设置为512和5 00； Tanh激活层采用双曲正切函数实现；步骤2.6，将图像局部特征处理子网络与图像全局特征处理子网络并联后，再与全局特征分类子网络串联组成图像子网络，将文本特征处理子网络与全局分类特征子网络串联组成文本子网络；将图像子网络与文本子网络并联组成深度学习网络；步骤3，训练深度学习网络：步骤3.1，从训练集中随机选择40个未选过的自然图像及其对应的语义标签；步骤3.2，将所选自然图像及其对应的语义标签输入到深度学习网络中，深度学习网络中的图像子网络和文本子网络，分别输出每张图像的局部特征和全局特征以及每张图像对应文本的局部特征和全局特征，利用局部特征度量公式，计算所选自然图像及其对应的语义标签中每张图像局部特征与其对应文本的局部特征的相似度；步骤3.3，将每张图像局部特征与其对应文本的局部特征的相似度，代入到局部特征损失函数中，得到每张图像与其对应文本的局部特征的损失值；步骤3.4，将每张图像的全局特征与每个文本的全局特征以及对应的语义标签，代入到全局特征损失函数中，得到每张图像的全局特征与每个文本的全局特征的损失值；步骤3.5，采用梯度下降公式，用每个图像和每个文本的局部特征损失值和全局特征损失值，计算深度学习网络各个节点的梯度，通过梯度更新深度学习网络各个节点的权重；步骤3.6，判断当前更新迭代后深度学习网络的损失值是否小于0.00001，若是，则得到训练好的深度学习网络后执行步骤4，否则，执行步骤3.1；所述深度学习网络的损失值指的是，所选样本中每个图像与每个文本的局部特征损失值和全局特征损失值之和；步骤4，对待检索的图像文本进行互检索：步骤4.1，采用与步骤1.2相同的方法，对待检索的图像文本进行处理；步骤4.2，采用与步骤3.2相同的方法，得到待检索的图像文本中每一张图像和每一个文本的全局特征与局部特征，以及每一张图像和每一个文本的局部特征相似度；步骤4.3，使用全局特征度量公式，计算每个图像和每个文本的全局特征相似度；步骤4.4，每张图像与每个文本的相似度是二者全局特征相似度和局部特征相似度之和，选择每张图像与其相似度最高的文本作为图像 ‑文本检索结果，选择每个文本与其相似度最高的图像作为文本 ‑图像检索结果。 2.根据权利要求1所述的基于联合特征的图文跨模态检索方法，其特征在于，步骤1.2 中所述的对每张自然图像的文本标记语义标签是通过如下方法得到的：找出每张自然图像每个文本中的名词，将每个文本名词在所有自然图像中出现的次数由高到低排序，选择出现次数最高的500个名词组成名词集合；对样本集中的每个文本，定义语义标签，当标签为 1 时，表示该文本中含有名词集合中的名词，当标签值为0时，表示该文本中不包含名词集合中的名词。 3.根据权利要求1所述的基于联合特征的图文跨模态检索方法，其特征在于，步骤3.2 中所述局部特征度量公式如下：权　利　要　求　书 2/3 页 3 CN 114722224 A 3

专利 基于联合特征的图文跨模态检索方法

专利基于联合特征的图文跨模态检索方法