(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210686881.1
(22)申请日 2022.06.16
(71)申请人 中国电信股份有限公司
地址 100033 北京市西城区金融大街31号
(72)发明人 王昊
(74)专利代理 机构 北京律智知识产权代理有限
公司 11438
专利代理师 孙宝海
(51)Int.Cl.
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06V 10/77(2022.01)
G06V 10/774(2022.01)
G06V 10/764(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
视觉问答模型的训练方法及装置、 问答方
法、 介质、 设备
(57)摘要
本公开是关于一种视觉问答模型的训练方
法及装置、 问答方法、 介质、 设备, 涉及机器学习
技术领域, 该方法包括: 获取原始图像以及与原
始图像对应的原始问题文本, 并利用视觉特征提
取模型提取原始图像中包括图像特征; 利用自然
语言特征处理模型提取原始问题文本中包括的
第一文本 特征, 并利用信息融合模 型对图像特征
以及第一文本特征进行融合, 得到第一预测结
果; 利用概率簇重校准模型对第一预测结果进行
校准, 得到第二预测结果, 并根据第二预测结果
以及与原始 图像以及原始问题文本对应的特征
标签, 构建第一损失函数; 基于第一损失函数对
待训练的视觉问答模型进行训练, 得到训练完成
的视觉问答模 型。 本公开提高了训练完成的视觉
问答模型的精确度。
权利要求书4页 说明书20页 附图7页
CN 114972944 A
2022.08.30
CN 114972944 A
1.一种视 觉问答模型的训练方法, 其特 征在于, 包括:
获取原始图像以及与原始图像对应的原始问题文本, 并利用视觉特征提取模型提取所
述原始图像中包括图像特 征;
利用自然语言特征处理模型提取所述原始问题文本 中包括的第 一文本特征, 并利用信
息融合模型对所述图像特 征以及第一文本特 征进行融合, 得到第一预测结果;
利用概率簇重校准模型对所述第一预测结果进行校准, 得到第二预测结果, 并根据所
述第二预测结果以及与所述原始图像以及所述原始问题文本对应的特征标签, 构建第一损
失函数;
基于所述第 一损失函数对待训练的视觉问答模型进行训练, 得到训练完成的视觉问答
模型。
2.根据权利要求1所述的视觉问答模型的训练方法, 其特征在于, 所述视觉特征提取模
型包括主干特 征提取网络、 颈 部特征融合网络以及头 部特征检测网络;
其中, 利用视 觉特征提取模型提取 所述原始图像中包括图像特 征, 包括:
利用所述主干特 征提取网络对所述原 始图像进行 下采样处 理, 得到第一局部特 征;
利用所述颈部特征融合网络对所述第 一局部特征进行从深层到浅层、 再从浅层到深层
的双向融合, 得到第一全局特 征;
利用所述头部特征检测网络对所述第一全局特征中包括的目标对象的类别信息以及
位置信息进行检测, 得到所述图像特 征。
3.根据权利要求2所述的视觉问答模型的训练方法, 其特征在于, 所述主干特征提取网
络中包括CBM模块以及多个CSP模块, 所述多个CSP模块包括第一个CSP模块、 第二个CSP模
块、 第三个CS P模块、 第四个CS P模块以及第五个CS P模块;
其中, 利用所述主干特征提取网络对所述原始图像进行下采样处理, 得到第一局部特
征, 包括:
利用所述CBM模块对所述原始图像进行卷积归一化以及激活处理, 得到第一卷积特征
图;
利用所述第一个CSP模块对所述第一卷积特征图进行第一次下采样处理, 得到第一次
下采样结果, 并利用所述第二个CSP模块对第一次下采样结果进 行下采样, 得到第二次下采
样结果;
利用第三个CSP模块、 第四个CSP模块以及第五个CSP模块重 复采样步骤, 依次得到第三
次下采样结果、 第四次下采样结果以及第 五次下采样结果, 并将第 五次下采样结果作为所
述第一局部特 征。
4.根据权利要求3所述的视觉问答模型的训练方法, 其特征在于, 所述颈部特征融合网
络包括SPP模块、 多个CBL模块、 多个上采样模块以及多个拼接模块, 所述多个CBL模块包括
第一个CBL模块、 第二个CBL模块、 ……、 第十二个CBL模块, 所述多个上采样模块包括第一个
上采样模块以及第二个上采样模块, 所述多个拼接模块包括第一个拼接模块、 第二个拼接
模块、 第三个拼接模块以及第四个拼接模块;
其中, 利用所述颈部特征融合网络对所述第一局部特征进行从深层到浅层、 再从浅层
到深层的双向融合, 得到第一全局特 征, 包括:
利用第一个CBL模块对所述第一局部特征进行卷积归一化以及激活处理, 得到第二局权 利 要 求 书 1/4 页
2
CN 114972944 A
2部特征, 并利用所述SPP模块对所述第二局部特征进 行多尺度融合处理, 得到所述第二局部
特征的上下文特征;
利用第二个CBL模块对所述上下特征进行卷积归一化以及激活处理, 得到第三局部特
征, 并利用第三个CBL模块对第三局部特征进 行卷积归一化以及激活处理, 得到第四局部特
征;
利用所述第一个上采样模块对所述第四局部特征进行上采样处理得到第一次上采样
结果, 并利用第四个CBL模块对所述第四 次下采样结果进行 卷积归一 化以及激活 处理;
利用第一个拼接模块对第一次上采样结果以及卷积归一化以及激活处理后的第四次
下采样结果进 行拼接处理, 得到第一拼接结果, 并利用第五个CBL模块对第一拼接结果进 行
卷积归一 化以及激活 处理, 得到第二 拼接结果;
利用第六个CBL模块对第二拼接结果进行卷积归一化以及激活处理, 得到第三拼接结
果, 并利用第二个上采样模块对所述第三拼接结果进行上采样处理, 得到第二次上采样结
果;
利用第七个CBL模块对所述第三次下采样结果进行卷积归一化以及激活处理, 并利用
第二个拼接模块对第二次上采样结果以及卷积归一化以及激活处理后的第三次下采样结
果进行拼接, 得到第四拼接结果;
利用第八个CBL模块对第四拼接结果进行卷积归一化以及激活处理, 得到具有第一预
设尺度的第一全局特征, 并利用第九个CBL模块对具有第一预设尺度的第一全局特征进行
卷积归一 化以及激活 处理;
利用第三个拼接模块对卷积归一化以及激活处理后的具有第一预设尺度的第一全局
特征以及第三拼接结果进 行拼接, 得到第五拼接结果, 并利用第十个CBL模块对第五拼接结
果进行卷积归一 化以及激活 处理, 得到具有第二预设尺度的第一全局特 征;
利用第十一个CBL模块对具有第 二预设尺度的第 一全局特征进行卷积归一化以及计划
处理, 并利用第四个拼接模块对所述第三局部特征以及卷积归一化以及激活处理后的具有
第二预设尺度的第一全局特 征进行拼接, 得到第六拼接结果;
利用第十二个CBL模块对第六拼接结果进行卷积归一化以及激活处理, 得到具有第三
预设尺度的第一全局特 征。
5.根据权利要求1所述的视觉问答模型的训练方法, 其特征在于, 所述自然语言特征处
理模型包括词嵌入 模型以及GRU模型;
其中, 利用自然语言特 征处理模型提取 所述原始文本中包括的第一文本特 征, 包括:
利用词嵌入模型对所述原始文本进行词嵌入, 得到第一文本向量, 并利用所述GRU模型
对所述第一文本向量进行序列编码, 得到第二文本向量;
根据所述第一文本向量以及第二文本向量, 得到所述第一文本特 征。
6.根据权利要求1所述的视觉问答模型的训练方法, 其特征在于, 所述信 息融合模型包
括特征降维模块、 双线性融合模块、 池化模块以及上 下文分析模块;
其中, 利用信息融合模型对所述图像特征以及第一文本特征进行融合, 得到第一预测
结果, 包括:
利用所述特征降维模块对所述第 一文本特征进行降维得到第 二文本特征, 并利用所述
双线性融合模块对所述图像特 征以及第二文本特 征进行双线性融合;权 利 要 求 书 2/4 页
3
CN 114972944 A
3
专利 视觉问答模型的训练方法及装置、问答方法、介质、设备
文档预览
中文文档
32 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共32页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:31:44上传分享