专利视觉问答模型的训练方法及装置、问答方法、介质、设备 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210686881.1 (22)申请日 2022.06.16 (71)申请人中国电信股份有限公司地址 100033 北京市西城区金融大街31号 (72)发明人王昊　 (74)专利代理机构北京律智知识产权代理有限公司 11438 专利代理师孙宝海 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/77(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称视觉问答模型的训练方法及装置、问答方法、介质、设备 (57)摘要本公开是关于一种视觉问答模型的训练方法及装置、问答方法、介质、设备，涉及机器学习技术领域，该方法包括：获取原始图像以及与原始图像对应的原始问题文本，并利用视觉特征提取模型提取原始图像中包括图像特征；利用自然语言特征处理模型提取原始问题文本中包括的第一文本特征，并利用信息融合模型对图像特征以及第一文本特征进行融合，得到第一预测结果；利用概率簇重校准模型对第一预测结果进行校准，得到第二预测结果，并根据第二预测结果以及与原始图像以及原始问题文本对应的特征标签，构建第一损失函数；基于第一损失函数对待训练的视觉问答模型进行训练，得到训练完成的视觉问答模型。本公开提高了训练完成的视觉问答模型的精确度。权利要求书4页说明书20页附图7页 CN 114972944 A 2022.08.30 CN 114972944 A 1.一种视觉问答模型的训练方法，其特征在于，包括：获取原始图像以及与原始图像对应的原始问题文本，并利用视觉特征提取模型提取所述原始图像中包括图像特征；利用自然语言特征处理模型提取所述原始问题文本中包括的第一文本特征，并利用信息融合模型对所述图像特征以及第一文本特征进行融合，得到第一预测结果；利用概率簇重校准模型对所述第一预测结果进行校准，得到第二预测结果，并根据所述第二预测结果以及与所述原始图像以及所述原始问题文本对应的特征标签，构建第一损失函数；基于所述第一损失函数对待训练的视觉问答模型进行训练，得到训练完成的视觉问答模型。 2.根据权利要求1所述的视觉问答模型的训练方法，其特征在于，所述视觉特征提取模型包括主干特征提取网络、颈部特征融合网络以及头部特征检测网络；其中，利用视觉特征提取模型提取所述原始图像中包括图像特征，包括：利用所述主干特征提取网络对所述原始图像进行下采样处理，得到第一局部特征；利用所述颈部特征融合网络对所述第一局部特征进行从深层到浅层、再从浅层到深层的双向融合，得到第一全局特征；利用所述头部特征检测网络对所述第一全局特征中包括的目标对象的类别信息以及位置信息进行检测，得到所述图像特征。 3.根据权利要求2所述的视觉问答模型的训练方法，其特征在于，所述主干特征提取网络中包括CBM模块以及多个CSP模块，所述多个CSP模块包括第一个CSP模块、第二个CSP模块、第三个CS P模块、第四个CS P模块以及第五个CS P模块；其中，利用所述主干特征提取网络对所述原始图像进行下采样处理，得到第一局部特征，包括：利用所述CBM模块对所述原始图像进行卷积归一化以及激活处理，得到第一卷积特征图；利用所述第一个CSP模块对所述第一卷积特征图进行第一次下采样处理，得到第一次下采样结果，并利用所述第二个CSP模块对第一次下采样结果进行下采样，得到第二次下采样结果；利用第三个CSP模块、第四个CSP模块以及第五个CSP模块重复采样步骤，依次得到第三次下采样结果、第四次下采样结果以及第五次下采样结果，并将第五次下采样结果作为所述第一局部特征。 4.根据权利要求3所述的视觉问答模型的训练方法，其特征在于，所述颈部特征融合网络包括SPP模块、多个CBL模块、多个上采样模块以及多个拼接模块，所述多个CBL模块包括第一个CBL模块、第二个CBL模块、 ……、第十二个CBL模块，所述多个上采样模块包括第一个上采样模块以及第二个上采样模块，所述多个拼接模块包括第一个拼接模块、第二个拼接模块、第三个拼接模块以及第四个拼接模块；其中，利用所述颈部特征融合网络对所述第一局部特征进行从深层到浅层、再从浅层到深层的双向融合，得到第一全局特征，包括：利用第一个CBL模块对所述第一局部特征进行卷积归一化以及激活处理，得到第二局权　利　要　求　书 1/4 页 2 CN 114972944 A 2部特征，并利用所述SPP模块对所述第二局部特征进行多尺度融合处理，得到所述第二局部特征的上下文特征；利用第二个CBL模块对所述上下特征进行卷积归一化以及激活处理，得到第三局部特征，并利用第三个CBL模块对第三局部特征进行卷积归一化以及激活处理，得到第四局部特征；利用所述第一个上采样模块对所述第四局部特征进行上采样处理得到第一次上采样结果，并利用第四个CBL模块对所述第四次下采样结果进行卷积归一化以及激活处理；利用第一个拼接模块对第一次上采样结果以及卷积归一化以及激活处理后的第四次下采样结果进行拼接处理，得到第一拼接结果，并利用第五个CBL模块对第一拼接结果进行卷积归一化以及激活处理，得到第二拼接结果；利用第六个CBL模块对第二拼接结果进行卷积归一化以及激活处理，得到第三拼接结果，并利用第二个上采样模块对所述第三拼接结果进行上采样处理，得到第二次上采样结果；利用第七个CBL模块对所述第三次下采样结果进行卷积归一化以及激活处理，并利用第二个拼接模块对第二次上采样结果以及卷积归一化以及激活处理后的第三次下采样结果进行拼接，得到第四拼接结果；利用第八个CBL模块对第四拼接结果进行卷积归一化以及激活处理，得到具有第一预设尺度的第一全局特征，并利用第九个CBL模块对具有第一预设尺度的第一全局特征进行卷积归一化以及激活处理；利用第三个拼接模块对卷积归一化以及激活处理后的具有第一预设尺度的第一全局特征以及第三拼接结果进行拼接，得到第五拼接结果，并利用第十个CBL模块对第五拼接结果进行卷积归一化以及激活处理，得到具有第二预设尺度的第一全局特征；利用第十一个CBL模块对具有第二预设尺度的第一全局特征进行卷积归一化以及计划处理，并利用第四个拼接模块对所述第三局部特征以及卷积归一化以及激活处理后的具有第二预设尺度的第一全局特征进行拼接，得到第六拼接结果；利用第十二个CBL模块对第六拼接结果进行卷积归一化以及激活处理，得到具有第三预设尺度的第一全局特征。 5.根据权利要求1所述的视觉问答模型的训练方法，其特征在于，所述自然语言特征处理模型包括词嵌入模型以及GRU模型；其中，利用自然语言特征处理模型提取所述原始文本中包括的第一文本特征，包括：利用词嵌入模型对所述原始文本进行词嵌入，得到第一文本向量，并利用所述GRU模型对所述第一文本向量进行序列编码，得到第二文本向量；根据所述第一文本向量以及第二文本向量，得到所述第一文本特征。 6.根据权利要求1所述的视觉问答模型的训练方法，其特征在于，所述信息融合模型包括特征降维模块、双线性融合模块、池化模块以及上下文分析模块；其中，利用信息融合模型对所述图像特征以及第一文本特征进行融合，得到第一预测结果，包括：利用所述特征降维模块对所述第一文本特征进行降维得到第二文本特征，并利用所述双线性融合模块对所述图像特征以及第二文本特征进行双线性融合；权　利　要　求　书 2/4 页 3 CN 114972944 A 3

专利 视觉问答模型的训练方法及装置、问答方法、介质、设备

专利视觉问答模型的训练方法及装置、问答方法、介质、设备