(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210764213.6
(22)申请日 2022.06.29
(71)申请人 抖音视界 (北京) 有限公司
地址 100041 北京市石景山区实兴大街3 0
号院3号楼 2层B-0035房间
(72)发明人 边成 张志诚 李永会
(74)专利代理 机构 北京英创嘉友知识产权代理
事务所(普通 合伙) 11447
专利代理师 温易娜
(51)Int.Cl.
G06V 10/26(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
图像识别方法、 装置、 存储介质以及电子设
备
(57)摘要
本公开涉及一种图像识别方法、 装置、 存储
介质以及电子设备, 涉及图像技术领域, 该方法
将图像对输入 特征提取模型, 获得目标融合特征
向量, 并基于该目标融合特征向量确定图像识别
结果。 其中, 特征提取模型中的第一特征提取网
络从第一图像中提取到不同维度的第一图像特
征, 特征提取模 型中的第二特征提取网络从第二
图像中提取到不同维度的第二图像特征, 通过融
合层从第一图像特征以及第二图像特征中捕捉
多模态特征之间的互补性, 并且将不同层级的融
合特征向量进行整合, 使 得生成的目标融合特征
向量能够充分表达第一图像以及第二图像具有
的图像语义特征。 以使 得获得精细的图像识别结
果, 从而促进鲁棒的场景表示。
权利要求书3页 说明书14页 附图4页
CN 115115836 A
2022.09.27
CN 115115836 A
1.一种图像识别方法, 其特 征在于, 包括:
获取图像对, 其中, 所述图像对包括采用不同拍摄方式对 同一场景进行拍摄获得的第
一图像和第二图像;
将所述图像对输入训练好的特 征提取模型, 获得 所述图像对的目标融合特 征向量;
基于所述目标融合特 征向量, 获得图像识别结果;
其中, 所述特征提取模型包括用于提取所述第 一图像的第 一图像特征的第 一特征提取
网络以及用于提取所述第二图像的第二图像特征的第二特征提取网络, 且 所述第一特征提
取网络以及所述第二特征提取网络具有相同数量级的依次连接的特征提取层, 所述第一特
征提取网络以及所述第二特征提取网络中相同层级的所述特征提取层与同一个融合层连
接;
所述融合层用于根据与该融合层连接的两个所述特征提取层分别提取到的所述第一
图像特征、 所述第二图像特征以及该特征提取层的前一特征提取层 对应的融合层输出的特
征向量, 获得对应的融合特 征向量;
所述目标融合特 征向量为任一所述融合层输出的融合特 征向量。
2.根据权利要求1所述的方法, 其特 征在于, 所述融合层包括:
级联交互模块, 用于根据与 该融合层连接的两个所述特征提取层提取到的所述第 一图
像特征以及所述第二图像特 征, 获得初始融合特 征;
第一卷积模块, 用于将所述第一图像特征与所述初始融合特征进行融合, 获得第一融
合特征;
第二卷积模块, 用于将所述第二图像特征与所述初始融合特征进行融合, 获得第二融
合特征;
融合模块, 用于根据所述第一融合特征、 所述第二融合特征以及该特征提取层的前一
特征提取层对应的融合层输出的特 征向量, 获得对应的融合特 征向量。
3.根据权利要求2所述的方法, 其特征在于, 所述第 一图像为RGB图像, 所述级联交互模
块具体用于:
以所述第一图像特征为基准, 融合所述第二图像特征与所述第一图像特征, 获得所述
初始融合特 征。
4.根据权利要求3所述的方法, 其特 征在于, 所述级联交 互模块包括:
第一处理层, 用于对所述第一图像特征以及所述第二图像特征进行逐元素求和运算,
获得第一特 征向量;
第二处理层, 用于对所述第一图像特征以及所述第一特征向量进行卷积处理, 获得第
一卷积特征向量, 并对所述第一卷积特征向量以及所述第二图像特征进 行对位元素相乘运
算, 获得第二特 征向量;
第三处理层, 用于对所述第一图像特征以及所述第二特征向量进行卷积处理, 获得第
二卷积特征向量, 并对所述第一卷积特征向量以及所述第二图像特征进行特征串联运算,
获得第三特 征向量;
拼接层, 用于 融合所述第 一特征向量、 所述第 二特征向量、 所述第三特征向量以及所述
第一图像特 征, 获得所述初始融合特 征。
5.根据权利要求2所述的方法, 其特 征在于, 所述融合模块具体用于:权 利 要 求 书 1/3 页
2
CN 115115836 A
2对该特征提取层的前一特征提取层对应的融合层输出的特征向量进行双线性插值操
作, 获得插值结果;
对所述插值结果、 所述第一融合特征以及所述第二融合特征进行拼接, 获得对应的融
合特征向量。
6.根据权利要求1所述的方法, 其特征在于, 所述训练好的特征提取模型通过以下步骤
获得:
获取初始特 征提取模型;
获取训练样本, 其中, 所述训练样本包括样本图像对, 所述样本图像对包括携带有图像
语义标签的第一样本图像和第二样本图像, 所述第一样本图像和所述第二样本图像为采用
不同拍摄方式对同一场景进行拍摄获得的图像, 所述图像语义标签用于对 所述第一样本图
像和所述第二样本图像中的图像的所属类别进行 标记;
将所述训练样本输入所述初始特征提取模型, 获得所述初始特征提取模型中的每一层
所述融合层输出的融合特 征向量对应的预测结果;
针对所述初始特征提取模型中的每一层所述融合层, 基于加权交叉熵损失函数确定该
融合层对应的交叉熵损失值, 其中, 所述加权交叉熵损失函数用于根据该融合层对应的所
述预测结果、 所述图像语义标签以及所述训练样本中每一图像语义类别所占的比重, 确定
所述交叉熵损失值;
基于所述交叉熵损失值调 整所述初始特征提取模型的参数, 获得所述训练好的特征提
取模型。
7.根据权利要求1至6中任一项所述的方法, 其特征在于, 所述第一特征提取网络以及
所述第二特征提取网络中前一层的所述特征提取层的维度大于后一层的所述特征提取层
的维度。
8.一种图像识别装置, 其特 征在于, 包括:
获取模块, 配置为获取图像对, 其中, 所述图像对包括采用不同拍摄方式对同一场景进
行拍摄获得的第一图像和第二图像;
提取模块, 配置为将所述图像对输入训练好的特征提取模型, 获得所述图像对的目标
融合特征向量;
识别模块, 配置为基于所述目标融合特 征向量, 获得图像识别结果;
其中, 所述特征提取模型包括用于提取所述第 一图像的第 一图像特征的第 一特征提取
网络以及用于提取所述第二图像的第二图像特征的第二特征提取网络, 且 所述第一特征提
取网络以及所述第二特征提取网络具有相同数量级的依次连接的特征提取层, 所述第一特
征提取网络以及所述第二特征提取网络中相同层级的所述特征提取层与同一个融合层连
接;
所述融合层用于根据与该融合层连接的两个所述特征提取层分别提取到的所述第一
图像特征、 所述第二图像特征以及该特征提取层的前一特征提取层 对应的融合层输出的特
征向量, 获得对应的融合特 征向量;
所述目标融合特 征向量为任一所述融合层输出的融合特 征向量。
9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理装置
执行时实现权利要求1至7中任一项所述的方法的步骤。权 利 要 求 书 2/3 页
3
CN 115115836 A
3
专利 图像识别方法、装置、存储介质以及电子设备
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:29:06上传分享