(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210364577.5
(22)申请日 2022.04.08
(71)申请人 中国石油大 学 (华东)
地址 266580 山东省青岛市黄岛区长江西
路66号
(72)发明人 吴杰 吴春雷 宫法明 张立强
路静
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/583(2019.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于动态路由的跨模态注意力筛选网络的
跨模态匹配方法
(57)摘要
本发明公开了基于动态路由的跨模态注意
力筛选网络的跨模态匹配方法。 该任务在局部对
齐方面已取得显著的进展。 它们通常对每幅图像
检测置信度排名前36位的显著区域进行建模。 但
这些区域通 常包含不相关的冗余区域, 可能会 给
建模过程引入噪声干扰模型推理。 根据我们对该
任务中最广泛使用数据集的统计, 区域数量远大
于单词数量。 因此, 我们提出一种具有动态路由
的跨模态注 意力筛选网络, 为每个输入图像自动
配置适当数量的区域。 该网络具有区域数量决策
的能力, 能够根据不同的数据动态学习不同的激
活区域, 从而减少冗余计算。 此外, 设计了跨模态
筛选模块, 通过过滤无关信息 保留有意义的交互
特征, 抑制无意义对齐的干扰, 同时自适应调整
全局和局部依赖 。
权利要求书3页 说明书7页 附图4页
CN 114676228 A
2022.06.28
CN 114676228 A
1.基于动态路由的跨模态注意力筛选网络的跨模态匹配方法, 其特征在于, 所述方法
包括以下步骤:
S1.构建动态路由器, 根据图像的复杂程度选择相应的注意力区域块, 从而具有区域数
量决策的能力。
S2.结合S1中的动态路由器, 设计一个动态路由注意力模块, 通过对定义的注意力区域
数量构造不同的邻接掩码来 解决参数冗余和计算问题。
S3.构建跨模态筛选模块, 保留有意义的交互特征, 过滤不相关的信息, 抑制无意义的
图像‑文本对的干扰, 学习图像和文本之间的语义关系。
S4.结合S2中的模块和S3中的模块构建基于动态路由的跨模态注意力筛选网络的跨模
态匹配方法的整体架构。
S5.基于动态路由 的跨模态 注意力筛 选网络的跨模态匹配方法的训练。
2.根据权利要求1所述的基于动态路由的跨模态注意力筛选网络的跨模态匹配方法,
其特征在于, 所述S1的具体过程 为:
为了实现对每个图像的动态选择, 我们考虑了一个由多块结构组成的网络, 其中每个
块都配有不同设置的模块。 具体地说,给定图像特征V∈Rd×m, 路由空间可以定义为A=
[A0,...,Ab],b表示注意力区域块的数量, d是图像特征的维度,经过 路由后的特征可以定义
为:
其中α为路由器预测的选择概率, A为单元操作的集合。 在每个节点内设计一个基本单
元和相应的路由来选择特定的区域特征。 对于每幅图像, 我们设计了3种不同数量的候选区
域块, 分别选择置信度分数排名最高的前g个区域。 图像特征将用于单元内部和路线内部的
特征转换。
我们提出的软路由器可以看作是一个块决策过程。 根据图像的全局含义生成每条路径
的路由概率。 给定图像特征V∈Rd×m, 对每个注意力块的选择预测概率α∈Rb可以由下式得
到:
V*=softmax(FC2(V))V (2)
α =relu(tanh(FC1(V*))) (3)
其中, FC为全连接函数。
3.根据权利要求1所述的基于动态路由的跨模态注意力筛选网络的跨模态匹配方法,
其特征在于, 所述S2的具体过程 为:
在动态路由注意力模块中, 我们采用自注意力和身份映射作为每个单元的实现。 然而,
自我关注的点积操作会产生昂贵的计算和巨大 的内存占用。 在这种情况下, 减少大量的计
算量是至 关重要的。 因此, 我们调整了每个输入图像的注意区域数量, 这是与现有的基于自
我注意的方法的关键区别。 通过重新审视标准自我注意的定义, 可以得到区域注意力权 重:
权 利 要 求 书 1/3 页
2
CN 114676228 A
2其中, ηij测量第j个位置对第i个位置的影响。 m表示图像中区域的个数,
ηij可以看作是一个图像种不同区域间的完全连接图。
为了获得不同的关注区域的特点,我们需要限制每个输入图像的区域连接, 因此通过
引入一个邻接mask M∈Rm×m,可以得到新的区域注意力权 重:
M是二进制的值。 当它在目标元素的注意区域内时, 将其设置为1。 因此, 将注意力操作
限制在一定数量的图像区域内, 以探讨模内语义关系。 最后给出了 路由器注意模块的输出,
如下式所示:
其中,
这样, 图像中区域的数量就受到了限制。 这将大大
降低计算复杂度和数据冗余带来的误差 。
4.根据权利要求1所述的基于动态路由的跨模态注意力筛选网络的跨模态匹配方法,
其特征在于, 所述S3的具体过程 为:
为了更好地聚集共享语义, 弥合视觉和文本之间的语义鸿沟, 提出了一种跨模态筛选
模块来抑制无意义对齐的干扰, 从而进一步减少了整个模型的时间消耗。 特别地, 给定局部
和全局特 征表示, 我们可以由下式计算 一个新的合成特 征表示:
X*=cat((X,duplicate(Xg)),1) (7)
E*=cat((E,duplicate(Eg)),1) (8)
为了保证Xg(Eg)能与X(E)连接, 通过将 其复制到多行扩展到矩阵X °(E°)。 然后我们通过
余弦相似性 函数, 计算每一对之间共享语义表示, 如下式所示:
其中, sij表示第i个区域与第j个单词之间的相关性。 给定图像查询X*,对文本集执行每
个区域的注意权 重, 如下式所示:
其中, λ是控制注意力分配平滑度的因素。 文本注意力 特征Le是通过单词特征的加 权组
合得到的:
类似地, 给定一个文本查询, 对图像集执 行每个单词的注意力权 重:权 利 要 求 书 2/3 页
3
CN 114676228 A
3
专利 基于动态路由的跨模态注意力筛选网络的跨模态匹配方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:48:56上传分享