(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210839762.5 (22)申请日 2022.07.18 (65)同一申请的已公布的文献号 申请公布号 CN 114913403 A (43)申请公布日 2022.08.16 (73)专利权人 南京信息 工程大学 地址 210032 江苏省南京市江北新区宁六 路219号 (72)发明人 舒昕垚 陆振宇  (74)专利代理 机构 南京经纬专利商标代理有限 公司 32200 专利代理师 王慧 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) 审查员 唐进岭 (54)发明名称 基于度量学习的视 觉问答方法 (57)摘要 本发明公开了一种基于度量学习的视觉问 答方法, 采用自注意力编码器和交叉注意力模块 对自然语言问题特征与视觉图像特征在高维特 征空间中进行对齐与映射; 采用自监督的多模态 度量学习方法将自然语言问题特征与视觉图像 特征进行相似度度量, 并将视觉图像特征分为积 极视觉特征与消极视觉特征; 积极视觉特征与原 视觉特征通过与自然语言问题特征融合从而得 到正确的答案, 消极视觉特征与然语 言问题特征 融合不能获得正确的答案。 本发 明实现了在高维 特征空间中多模态特征的相似度度量, 并采用对 比的学习方式对度量出的积极视觉特征与消极 视觉特征对抗训练, 缓解了视觉问答中语义鸿沟 与语义偏 差问题, 提高了视觉问答模 型的性能与 鲁棒性。 权利要求书2页 说明书6页 附图5页 CN 114913403 B 2022.09.20 CN 114913403 B 1.一种基于度量学习的视 觉问答方法, 其特 征在于, 包括 步骤如下: S1, 收集数据集, 选取一张图像和一个与该图像相关的自然语言问题作为视觉问答模 型的输入; S2, 对视觉图像与自然语言问题进行预处理, 通过目标检测算法对视觉图像进行区域 特征提取, 提取物体目标特征以及边界框特征; 通过语言表征算法对自然语言问题进行特 征提取; S3, 将步骤S2中处理得到的视觉图像特征与自然语言问题特征组成多模态特征对, 并 采用编码器模块进行特征的融合与对齐; 所述编码器模块包含自注意力模块和交叉注意力 模块, 自注意力模块采用单一模态编码器, 交叉注意力模块采用多模态交叉编码器; S4, 采用注意力机制计算融合后的视觉图像特征与自然语言问题特征的相关性指数, 并根据相关性指数将融合后的视 觉图像特 征分成积极视 觉特征与消极视 觉特征; S5, 将积极视觉特征、 消极视觉特征和自然语言 问题特征组成三元组, 通过多模态三元 组损失函数计算自然语言问题特征与视觉图像特征之 间的关系, 筛选出与自然语言问题相 关的视觉图像特 征; S6, 将原视觉特征、 积极视觉特征和消极视觉特征分别与自然语言问题特征进行特征 融合; 所述特征融合采用交叉注意力编 码器模块, 最 终得到原融合特征、 积极融合特征与消 极融合特 征; S7, 将原融合特征、 积极融合特征与消极融合特征分别输入到答案预测模块预测答案, 并采用多标签的交叉熵损失函数分别计算原融合特征与积极融合特征通过答案预测模块 得到的答案与标准标签的损失、 消极融合特征通过答案预测模块得到的答案与 虚假标签的 损失; S8, 根据多模态三元组损失函数和多标签的交叉熵损失函数对视觉问答模型进行训 练, 满足训练条件后, 得到最终模型参数。 2.根据权利要求1所述的基于度量学习的视觉问答方法, 其特征在于, 所述步骤S3中, 在自注意力模块中, 建立两种 单一模态编码器, 分别是视觉对 象编码器和自然语言问题编 码器; 所述视觉对象编码器和自然语言问题编码器均 由自注意力层与前馈神经网络层组 成, 在自注意力层与前馈神经网络层中均加入残差连接; 在交叉注意力模块中, 建立两种多模态交叉编码器, 分别是视觉对象交叉编码器与自 然语言问题交叉编码器; 视觉对 象交叉编码器由交叉注意力层、 自注意力层与前馈神经网 络层组成, 并且在交叉注意力层、 自注意力层与前馈神经网络层中的每一层均加入残差连 接。 3.根据权利要求1所述的基于度量学习的视觉问答方法, 其特征在于, 所述步骤S4中, 所述注意力机制采用点积相似度计算视觉图像特征与自然语言问题特征之间的相关性指 数: 其中,  为16条中对齐与映射后的自然语言 问题 特征,  为36条中对齐与映射后的视觉图像特征,权 利 要 求 书 1/2 页 2 CN 114913403 B 2为余弦函数。 4.根据权利要求1所述的基于度量学习的视觉问答方法, 其特征在于, 所述步骤S5中, 所述多模态三元组损失函数为: 其中,  为欧氏距离, 为自然语言问题特征; 与  分别为视觉图像 特征的积极视觉特征与消极视觉特征; 为超参数, 表示特征之间的距离; 表示选择最大值。 5.根据权利要求1所述的基于度量学习的视觉问答方法, 其特征在于, 所述步骤S7中, 原融合特征与积极融合特征通过答案预测模块都能得到正确答案, 而消极融合特征通过答 案预测模块 不能得到正确的答案 。 6.根据权利要求1所述的基于度量学习的视觉问答方法, 其特征在于, 所述步骤S8中, 根据损失值对视觉 问答模型进行训练, 在验证集准确 率出现大幅下降时采用早停法, 停止 训练, 得到最终模型的参数。权 利 要 求 书 2/2 页 3 CN 114913403 B 3

.PDF文档 专利 基于度量学习的视觉问答方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于度量学习的视觉问答方法 第 1 页 专利 基于度量学习的视觉问答方法 第 2 页 专利 基于度量学习的视觉问答方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:30:04上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。