专利视觉问答的方法、装置、设备及介质 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210688112.5 (22)申请日 2022.06.17 (71)申请人平安科技（深圳）有限公司地址 518048 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人王俊　 (74)专利代理机构北京辰权知识产权代理有限公司 11619 专利代理师张洁 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 16/33(2019.01) G06F 16/583(2019.01)G06F 40/289(2020.01) G06V 10/40(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称视觉问答的方法、装置、设备及介质 (57)摘要本发明涉及人工智能技术领域，公开了一种视觉问答的方法、装置、设备及介质，包括：获取视觉问答任务对应的目标问句和目标图像；对目标问句进行特征提取得到目标问句对应的句向量和词向量，和，对目标图像进行特征提取得到目标图像对应的图像向量和图像块向量；将句向量和图像块向量同时输入视觉问答模型的多模态交互学习部分，得到目标问句对应的问句交互向量；和，将图像向量和词向量同时输入视觉问答模型的多模态交互学习部分，得到目标图像对应的图像交互向量；通过视觉问答模型的分类单元，根据图像交互向量和问句交互向量，得到视觉问答任务的答案。提升视觉问答任务的答案的准确率。权利要求书2页说明书10页附图5页 CN 114996425 A 2022.09.02 CN 114996425 A 1.一种视觉问答的方法，其特征在于，包括：获取视觉问答任务对应的目标问句和目标图像；通过预训练好的视觉问答模型的特征提取部分，对所述目标问句进行特征提取得到所述目标问句对应的句向量和词向量，和，对所述目标图像进行特征提取得到所述目标图像对应的图像向量和图像块向量；将所述句向量和所述图像块向量同时输入所述视觉问答模型的多模态交互学习部分，得到所述目标问句对应的问句交互向量；和，将所述图像向量和所述词向量同时输入所述视觉问答模型的多模态交互学习部分，得到所述目标图像对应的图像交互向量；通过所述视觉问答模型的分类单元，根据所述图像交互向量和所述问句交互向量，得到所述视觉问答任务的答案。 2.如权利要求1所述的视觉问答的方法，其特征在于，所述特征提取部分包括 Transformer模块；所述通过预训练好的视觉问答模型的特征提取部分，对所述目标问句进行特征提取得到所述目标问句对应的句向量和词向量，包括：将所述目标问句输入所述Transformer模块，得到所述句向量；对所述目标问句划分为多个分词，将所述分词输入所述Transformer模块，得到所述词向量。 3.如权利要求1所述的视觉问答的方法，其特征在于，所述特征提取部分包括视觉 Transformer模块；所述通过预训练好的视觉问答模型的特征提取部分，对所述目标图像进行特征提取得到所述目标图像对应的图像向量和图像块向量，包括：将所述目标图像输入所述视觉Transformer模块，得到所述图像向量；将所述目标图像划分为多个图像块，将所述多个图像块输入所述视觉Transformer模块，得到所述图像块向量。 4.如权利要求1所述的视觉问答的方法，其特征在于，所述将所述句向量和所述图像块向量同时输入所述视觉问答模型的多模态交互学习部分，得到所述目标问句对应的问句交互向量，包括：将所述句向量和所述图像块向量同时输入所述基于多头注意力机制的句子特征提取模块，根据所述图像块向量分配所述问句特征提取的注意力权重，得到所述目标图像对应的图像交互向量。 5.如权利要求1所述的视觉问答的方法，其特征在于，所述多模态交互学习部分包括基于多头注意力机制的图像特征提取模块；将所述图像向量和所述词向量同时输入所述预训练好的多模态交互模块，得到所述目标图像对应的图像交互向量，包括：将图像向量和所述词向量同时输入所述视觉问答模型的多模态交互学习部分，根据所述词向量分配所述图像向量特征提取的注意力权重，得到所述目标图像对应的图像交互向量。 6.如权利要求1所述的视觉问答的方法，其特征在于，所述分类单元包括全连接层和入全连接层和softmax层；权　利　要　求　书 1/2 页 2 CN 114996425 A 2所述通过所述视觉问答模型的分类单元，根据所述图像交互向量和所述问句交互向量，得到所述视觉问答任务的答案，包括：将所述图像交互向量和所述问句交互向量进行拼接得到拼接向量；将所述拼接向量输入所述全连接层和所述softmax层，得到所述视觉问答任务的答案。 7.如权利要求1所述的视觉问答的方法，其特征在于，所述将所述图像交互向量和所述问句交互向量进行拼接，包括：将所述图像交互向量和所述问句交互向量按元素一个一个相乘，得到所述拼接向量。 8.一种视觉问答的装置，其特征在于，包括：获取单元，用于获取视觉问答任务对应的目标问句和目标图像；特征提取单元，用于通过预训练好的视觉问答模型的特征提取部分，对所述目标问句进行特征提取得到所述目标问句对应的句向量和词向量，和，对所述目标图像进行特征提取得到所述目标图像对应的图像向量和图像块向量；特征相互学习单元，用于将所述句向量和所述图像块向量同时输入所述视觉问答模型的多模态交互学习部分，得到所述目标问句对应的问句交互向量；和，将所述图像向量和所述词向量同时输入所述视觉问答模型的多模态交互学习部分，得到所述目标图像对应的图像交互向量；结果输出单元，用于通过所述视觉问答模型的分类单元，根据所述图像交互向量和所述问句交互向量，得到所述视觉问答任务的答案。 9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求 1至 7任一项所述视觉问答的方法的步骤。 10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求 1至7任一项所述视觉问答的方法的步骤。权　利　要　求　书 2/2 页 3 CN 114996425 A 3

专利 视觉问答的方法、装置、设备及介质

专利视觉问答的方法、装置、设备及介质