(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210364577.5 (22)申请日 2022.04.08 (71)申请人 中国石油大 学 (华东) 地址 266580 山东省青岛市黄岛区长江西 路66号 (72)发明人 吴杰 吴春雷 宫法明 张立强  路静  (51)Int.Cl. G06F 16/33(2019.01) G06F 16/583(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于动态路由的跨模态注意力筛选网络的 跨模态匹配方法 (57)摘要 本发明公开了基于动态路由的跨模态注意 力筛选网络的跨模态匹配方法。 该任务在局部对 齐方面已取得显著的进展。 它们通常对每幅图像 检测置信度排名前36位的显著区域进行建模。 但 这些区域通 常包含不相关的冗余区域, 可能会 给 建模过程引入噪声干扰模型推理。 根据我们对该 任务中最广泛使用数据集的统计, 区域数量远大 于单词数量。 因此, 我们提出一种具有动态路由 的跨模态注 意力筛选网络, 为每个输入图像自动 配置适当数量的区域。 该网络具有区域数量决策 的能力, 能够根据不同的数据动态学习不同的激 活区域, 从而减少冗余计算。 此外, 设计了跨模态 筛选模块, 通过过滤无关信息 保留有意义的交互 特征, 抑制无意义对齐的干扰, 同时自适应调整 全局和局部依赖 。 权利要求书3页 说明书7页 附图4页 CN 114676228 A 2022.06.28 CN 114676228 A 1.基于动态路由的跨模态注意力筛选网络的跨模态匹配方法, 其特征在于, 所述方法 包括以下步骤: S1.构建动态路由器, 根据图像的复杂程度选择相应的注意力区域块, 从而具有区域数 量决策的能力。 S2.结合S1中的动态路由器, 设计一个动态路由注意力模块, 通过对定义的注意力区域 数量构造不同的邻接掩码来 解决参数冗余和计算问题。 S3.构建跨模态筛选模块, 保留有意义的交互特征, 过滤不相关的信息, 抑制无意义的 图像‑文本对的干扰, 学习图像和文本之间的语义关系。 S4.结合S2中的模块和S3中的模块构建基于动态路由的跨模态注意力筛选网络的跨模 态匹配方法的整体架构。 S5.基于动态路由 的跨模态 注意力筛 选网络的跨模态匹配方法的训练。 2.根据权利要求1所述的基于动态路由的跨模态注意力筛选网络的跨模态匹配方法, 其特征在于, 所述S1的具体过程 为: 为了实现对每个图像的动态选择, 我们考虑了一个由多块结构组成的网络, 其中每个 块都配有不同设置的模块。 具体地说,给定图像特征V∈Rd×m, 路由空间可以定义为A= [A0,...,Ab],b表示注意力区域块的数量, d是图像特征的维度,经过 路由后的特征可以定义 为: 其中α为路由器预测的选择概率, A为单元操作的集合。 在每个节点内设计一个基本单 元和相应的路由来选择特定的区域特征。 对于每幅图像, 我们设计了3种不同数量的候选区 域块, 分别选择置信度分数排名最高的前g个区域。 图像特征将用于单元内部和路线内部的 特征转换。 我们提出的软路由器可以看作是一个块决策过程。 根据图像的全局含义生成每条路径 的路由概率。 给定图像特征V∈Rd×m, 对每个注意力块的选择预测概率α∈Rb可以由下式得 到: V*=softmax(FC2(V))V                      (2) α =relu(tanh(FC1(V*)))                       (3) 其中, FC为全连接函数。 3.根据权利要求1所述的基于动态路由的跨模态注意力筛选网络的跨模态匹配方法, 其特征在于, 所述S2的具体过程 为: 在动态路由注意力模块中, 我们采用自注意力和身份映射作为每个单元的实现。 然而, 自我关注的点积操作会产生昂贵的计算和巨大 的内存占用。 在这种情况下, 减少大量的计 算量是至 关重要的。 因此, 我们调整了每个输入图像的注意区域数量, 这是与现有的基于自 我注意的方法的关键区别。 通过重新审视标准自我注意的定义, 可以得到区域注意力权 重: 权 利 要 求 书 1/3 页 2 CN 114676228 A 2其中, ηij测量第j个位置对第i个位置的影响。 m表示图像中区域的个数, ηij可以看作是一个图像种不同区域间的完全连接图。 为了获得不同的关注区域的特点,我们需要限制每个输入图像的区域连接, 因此通过 引入一个邻接mask  M∈Rm×m,可以得到新的区域注意力权 重: M是二进制的值。 当它在目标元素的注意区域内时, 将其设置为1。 因此, 将注意力操作 限制在一定数量的图像区域内, 以探讨模内语义关系。 最后给出了 路由器注意模块的输出, 如下式所示: 其中, 这样, 图像中区域的数量就受到了限制。 这将大大 降低计算复杂度和数据冗余带来的误差 。 4.根据权利要求1所述的基于动态路由的跨模态注意力筛选网络的跨模态匹配方法, 其特征在于, 所述S3的具体过程 为: 为了更好地聚集共享语义, 弥合视觉和文本之间的语义鸿沟, 提出了一种跨模态筛选 模块来抑制无意义对齐的干扰, 从而进一步减少了整个模型的时间消耗。 特别地, 给定局部 和全局特 征表示, 我们可以由下式计算 一个新的合成特 征表示: X*=cat((X,duplicate(Xg)),1)                    (7) E*=cat((E,duplicate(Eg)),1)                   (8) 为了保证Xg(Eg)能与X(E)连接, 通过将 其复制到多行扩展到矩阵X °(E°)。 然后我们通过 余弦相似性 函数, 计算每一对之间共享语义表示, 如下式所示: 其中, sij表示第i个区域与第j个单词之间的相关性。 给定图像查询X*,对文本集执行每 个区域的注意权 重, 如下式所示: 其中, λ是控制注意力分配平滑度的因素。 文本注意力 特征Le是通过单词特征的加 权组 合得到的: 类似地, 给定一个文本查询, 对图像集执 行每个单词的注意力权 重:权 利 要 求 书 2/3 页 3 CN 114676228 A 3

.PDF文档 专利 基于动态路由的跨模态注意力筛选网络的跨模态匹配方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于动态路由的跨模态注意力筛选网络的跨模态匹配方法 第 1 页 专利 基于动态路由的跨模态注意力筛选网络的跨模态匹配方法 第 2 页 专利 基于动态路由的跨模态注意力筛选网络的跨模态匹配方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:48:56上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。