(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210688112.5
(22)申请日 2022.06.17
(71)申请人 平安科技 (深圳) 有限公司
地址 518048 广东省深圳市福田区福田街
道福安社区益田路5033号平 安金融中
心23楼
(72)发明人 王俊
(74)专利代理 机构 北京辰权知识产权代理有限
公司 11619
专利代理师 张洁
(51)Int.Cl.
G06F 16/332(2019.01)
G06F 16/35(2019.01)
G06F 16/33(2019.01)
G06F 16/583(2019.01)G06F 40/289(2020.01)
G06V 10/40(2022.01)
G06V 10/764(2022.01)
G06V 10/774(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
视觉问答的方法、 装置、 设备及 介质
(57)摘要
本发明涉及人工智能技术领域, 公开了一种
视觉问答的方法、 装置、 设备及介质, 包括: 获取
视觉问答任务对应的目标问句和目标图像; 对目
标问句进行特征提取得到目标问句对应的句向
量和词向量, 和, 对目标图像进行特征提取得到
目标图像对应的图像向量和图像块向量; 将句向
量和图像块向量同时输入视觉问答模型的多模
态交互学习部分, 得到目标问句对应的问句交互
向量; 和, 将图像向量和词向量同时输入视觉问
答模型的多模态交互学习部分, 得到目标图像对
应的图像交互向量; 通过视觉问答模 型的分类单
元, 根据图像交互向量和问句 交互向量, 得到视
觉问答任务的答案。 提升视觉问答任务的答案的
准确率。
权利要求书2页 说明书10页 附图5页
CN 114996425 A
2022.09.02
CN 114996425 A
1.一种视 觉问答的方法, 其特 征在于, 包括:
获取视觉问答任务对应的目标问句和目标图像;
通过预训练好的视觉问答模型的特征提取部分, 对所述目标问句进行特征提取得到所
述目标问句对应的句向量和词向量, 和, 对所述 目标图像进行特征提取得到所述 目标图像
对应的图像向量和图像块向量;
将所述句向量和所述图像块向量同时输入所述视觉问答模型的多模态 交互学习部分,
得到所述 目标问句对应的问句交互向量; 和, 将所述图像向量和所述词向量同时输入所述
视觉问答模型的多模态交 互学习部分, 得到所述目标图像对应的图像交 互向量;
通过所述视觉问答模型的分类单元, 根据所述图像交互向量和所述问句交互向量, 得
到所述视 觉问答任务的答案 。
2.如权利要求1所述的视觉问答的方法, 其特征在于, 所述特征提取部分包括
Transformer模块;
所述通过预训练好的视觉问答模型的特征提取部分, 对所述目标问句进行特征提取得
到所述目标问句对应的句向量和词向量, 包括:
将所述目标问句输入所述Transformer模块, 得到所述句向量;
对所述目标问句划分为多个分词, 将所述分词输入所述Transformer模块, 得到所述词
向量。
3.如权利要求1所述的视觉问答的方法, 其特征在于, 所述特征提取部分包括视觉
Transformer模块;
所述通过预训练好的视觉问答模型的特征提取部分, 对所述目标图像进行特征提取得
到所述目标图像对应的图像向量和图像块向量, 包括:
将所述目标图像输入所述视 觉Transformer模块, 得到所述图像向量;
将所述目标图像划 分为多个图像块, 将所述多个图像块输入所述视觉Transformer模
块, 得到所述图像块向量。
4.如权利要求1所述的视觉问答的方法, 其特征在于, 所述将所述句向量和所述图像块
向量同时输入所述视觉问答模型的多模态交互学习部分, 得到所述目标问句对应的问句交
互向量, 包括:
将所述句向量和所述图像块向量同时输入所述基于多头注意力机制的句子特征提取
模块, 根据所述图像块向量分配所述问句特征提取 的注意力权重, 得到所述 目标图像对应
的图像交 互向量。
5.如权利要求1所述的视觉问答的方法, 其特征在于, 所述多模态 交互学习部分包括基
于多头注意力机制的图像特 征提取模块;
将所述图像向量和所述词向量同时输入所述预训练好的多模态 交互模块, 得到所述目
标图像对应的图像交 互向量, 包括:
将图像向量和所述词向量同时输入所述视觉问答模型的多模态 交互学习部分, 根据 所
述词向量分配所述图像向量特征提取的注意力权重, 得到所述目标图像对应的图像交互向
量。
6.如权利要求1所述的视觉问答的方法, 其特征在于, 所述分类单元包括全连接层和入
全连接层和softmax层;权 利 要 求 书 1/2 页
2
CN 114996425 A
2所述通过所述视觉问答模型的分类单元, 根据所述图像交互向量和所述问句交互向
量, 得到所述视 觉问答任务的答案, 包括:
将所述图像交 互向量和所述问句交 互向量进行拼接得到拼接向量;
将所述拼接向量输入所述全连接层和所述softmax层, 得到所述视 觉问答任务的答案 。
7.如权利要求1所述的视觉问答的方法, 其特征在于, 所述将所述图像交互向量和所述
问句交互向量进行拼接, 包括:
将所述图像交 互向量和所述问句交 互向量按元 素一个一个相乘, 得到所述 拼接向量。
8.一种视 觉问答的装置, 其特 征在于, 包括:
获取单元, 用于获取视 觉问答任务对应的目标问句和目标图像;
特征提取单元, 用于通过预训练好的视觉问答模型的特征提取部分, 对所述目标问句
进行特征提取得到所述 目标问句对应的句向量和词向量, 和, 对所述 目标图像进行特征提
取得到所述目标图像对应的图像向量和图像块向量;
特征相互学习单元, 用于将所述句向量和所述图像块向量同时输入所述视觉问答模型
的多模态交互学习部 分, 得到所述目标问句对应的问句交互向量; 和, 将所述图像向量和所
述词向量同时输入所述视觉问答模型的多模态交互学习部 分, 得到所述目标图像对应的图
像交互向量;
结果输出单元, 用于通过所述视觉问答模型的分类单元, 根据所述图像交互向量和所
述问句交 互向量, 得到所述视 觉问答任务的答案 。
9.一种计算机设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理器
上运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求 1至
7任一项所述视 觉问答的方法的步骤。
10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在
于, 所述计算机程序被处理器执行时实现如权利要求 1至7任一项 所述视觉问答的方法的步
骤。权 利 要 求 书 2/2 页
3
CN 114996425 A
3
专利 视觉问答的方法、装置、设备及介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:31:45上传分享