(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210787446.8 (22)申请日 2022.07.04 (71)申请人 福州大学 地址 350108 福建省福州市闽侯县福州大 学城乌龙江北 大道2号福州大 学 (72)发明人 柯逍 陈柏涛 蔡宇航  (74)专利代理 机构 福州元创专利商标代理有限 公司 35100 专利代理师 陈明鑫 蔡学俊 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/338(2019.01) G06F 16/53(2019.01) G06F 16/538(2019.01) G06V 10/40(2022.01)G06V 10/82(2022.01) G06V 10/80(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于模态特异自适应缩放与注意力网络的 跨模态检索方法 (57)摘要 本发明涉及一种基于模态特异自适应缩放 与注意力网络的跨模态检索方法。 首先对图像模 态采用带残差空间缩减的Transformer编码器, 对文本模态采用单词级特征注 意力模块, 分别进 行模态不变特征的提取。 然后使用模态嵌入级特 征注意力模块进行模态干扰特征的过滤。 接着采 用融合先验知识的自适应缩放网络将特征映射 到一个多模态公共子空间进行模态公共特征学 习。 最后利用表现最好的网络权重计算新的待查 询、 待检索数据的多模态公共子空间特征, 进行 类别级重排序, 返回最终的跨模态数据检索。 本 发明能够 有效的对多模态数据进行建模, 高效准 确地完成多 模态场景 下的跨模态检索任务。 权利要求书3页 说明书5页 附图1页 CN 115080699 A 2022.09.20 CN 115080699 A 1.一种基于模态特异自适应缩放与注意力网络的跨模态检索方法, 其特征在于, 包括 如下步骤: 步骤S1、 对图像模态采用带残差空间缩减的Transformer编码器, 对文本模态采用单词 级特征注意力模块, 分别进行模态不变特 征的提取; 步骤S2、 对使用步骤S1得到的模态不变特征采用结构相同但参数独立的模态嵌入级特 征注意力模块进行模态干扰特 征的过滤; 步骤S3、 采用融合先验知识的自适应缩放网络将由步骤S2得到的特征映射到一个多模 态公共子空间进行模态公共特 征学习; 步骤S4、 遵循步骤S1、 S2、 S3进行神经网络的训练, 保留表现最好的网络权重; 利用该组 网络权重计算新的待查询、 待检索数据的多模态公共子空间特 征, 进行跨模态数据检索。 2.根据权利要求1所述的基于模态特异自适应缩放与注意力网络的跨模态检索方法, 其特征在于, 所述 步骤S1具体实现如下: 步骤S11、 对于图像模态, 按照4行4列均匀地将输入的图片切分成N=16 张子图, 每张子 图的长宽均 为原图的1/4; 采用卷积操作 提取每个子图的块嵌入x0, x1..., xN‑1, 并额外加上 一个可学习的块嵌入 xextra; 按照公式(1 ‑1)和公式(1 ‑2)为每个块嵌入加上位置嵌入: 其中pos是块的位置, dim_i表示 位置嵌入的第dim_i个维度, d是块嵌入的维度为25 6; 将每个长度为256的块嵌入x0, x1..., xN‑1缩放为16 ×16的特征图, 并将所有块嵌入在通 道维度进行叠加, 得到一个N ×16×16的多通道特征图; 利用一个层归一化和N/2个5 ×5的 卷积核扩大特征图, 降低一半通道数; 同时通过一个平均池化和 零填充额外加上一个残差 连接; 再按照通道进 行切分, 将 每个通道的特征图重新映射为新的块嵌入; 由于序列长度发 生改变, 为新的块嵌入重新计算并添加位置嵌入来更新相对位置信息得到经过残差空间缩 减的块嵌入 x′0, x′1..., x′N‑1; 按照公式(1 ‑3)至公式(1 ‑6)计算图像模态 表示: z0=[xextra; x′0WP; x′1WP; ...; x′N‑1WP]+epos   (1‑3) z′l=MHA(LN(zl‑1))+zl‑1, l=1...L   (1‑4) zl=MLP(LN(z′l))+z′l, l=1...L   (1‑5) 其中, z0, z′l, zl是临时变量, L表示图像分块总个数, l表示第l个分块, WP表示可学习的 参数矩阵, xextra是额外加入的可学习的块嵌入, 它对应的输出 经过一个MLP运算后得到的 结果 被作为图像模态的表示zimg; epos表示加入的一维位置嵌入; LN表示层归一化; MHA 表示多头注意力, 它对输入数据进行多个自注意操作; MLP代表多层感知机, 包含线性投影 1、 GeLU激活函数、 线性投影2; 在模 型中, 使用一个额外的MLP头来 获得首个块 嵌入对应的输 出作为图像模态的表示; 步骤S12、 对于文本模态, 单词级特征注意力模块先使用Word2Vec方法, 将文本描述的 每个单词转化成一个300维的词嵌入, 然后对所有词嵌入采用一个共享权重的权重生成单权 利 要 求 书 1/3 页 2 CN 115080699 A 2元, 包括一个全连接层FC、 一个ReLU激活函数、 一个平均池化层Av gPooling和一个Sigmoid 层; 权重生成单元为每个词嵌入生 成一个权重, 进 行加权平均得到文本模态的表示; 具体来 说, 遵循以下公式 表示第n_i条文本数据的第n_j个单词对应的词嵌入, 是300维的临时变 量, 是 数值型的临时变量, 是权重向量, (en_i)′是词嵌入融合之后的文本表示。 3.根据权利要求1所述的基于模态特异自适应缩放与注意力网络的跨模态检索方法, 其特征在于, 所述 步骤S2具体实现如下: 步骤S21、 针对图像模态的特征, 采用分别由线性层1、 激活函数、 线性层2, NegSig函数 构成的模态嵌入级特征注意力模块捕获干扰特征 的位置; 为简单起见, 两个线性层的维度 和输入特征的维度保持一致; x表示线性层2的输出; 将NegSig函数的输出与原始的特征输 入进行点积运算, 得到负值的干扰特征; 再通过一个残差连接, 与原始输入特征相加, 屏蔽 原始输入特 征中的干扰; NegSig函数如公式(2 ‑1)所示: 其中Euler 表示欧拉数: 步骤S22、 针对文本模态单词级特征注意力模块的输出采取与步骤S21相似的操作, 不 同的是使用的模块 参数独立。 4.根据权利要求1所述的基于模态特异自适应缩放与注意力网络的跨模态检索方法, 其特征在于, 所述 步骤S3具体实现如下: 步骤S31、 每次训练开始前, 使用一个预分类网络对利用预训练骨干网络提取的各模态 特征进行初始化的分类, 分类准确率accmodal_i表示为第modal_i个模态的预分类准确率; 记 矩阵A=(ac c1...accm), 其中, m为模态的数量; 模态特异缩放因子smodal_i如下列公式所示: 其中, θ为训练过程中可学习的m维向量; 初始化时, 可结合 “越复杂的任务需要越大的 网络, 越简单的任务需要越小的网络这一共识 ”这一人工先验, 将上述函数初始 化为定义域 [0, 1]之间非负单调递减的随机函数; 将模态特异缩放因子smodal_i作为自适应缩放编码器 与解码器的缩放因子; 步骤S32、 如公式(3 ‑2)所示, 训练过程中最小化第modal_i个模态的缩放损失 其中acc包括第modal_i个模态的分类准确率accmodal_i和第modal_j个模态的分 类准确率ac cmodal_j是辅助分类 器的分类精度, m为模态的数量:权 利 要 求 书 2/3 页 3 CN 115080699 A 3

.PDF文档 专利 基于模态特异自适应缩放与注意力网络的跨模态检索方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于模态特异自适应缩放与注意力网络的跨模态检索方法 第 1 页 专利 基于模态特异自适应缩放与注意力网络的跨模态检索方法 第 2 页 专利 基于模态特异自适应缩放与注意力网络的跨模态检索方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:30:17上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。