专利图像识别方法、装置、存储介质以及电子设备 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210764213.6 (22)申请日 2022.06.29 (71)申请人抖音视界（北京）有限公司地址 100041 北京市石景山区实兴大街3 0 号院3号楼 2层B-0035房间 (72)发明人边成　张志诚　李永会　 (74)专利代理机构北京英创嘉友知识产权代理事务所(普通合伙) 11447 专利代理师温易娜 (51)Int.Cl. G06V 10/26(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称图像识别方法、装置、存储介质以及电子设备 (57)摘要本公开涉及一种图像识别方法、装置、存储介质以及电子设备，涉及图像技术领域，该方法将图像对输入特征提取模型，获得目标融合特征向量，并基于该目标融合特征向量确定图像识别结果。其中，特征提取模型中的第一特征提取网络从第一图像中提取到不同维度的第一图像特征，特征提取模型中的第二特征提取网络从第二图像中提取到不同维度的第二图像特征，通过融合层从第一图像特征以及第二图像特征中捕捉多模态特征之间的互补性，并且将不同层级的融合特征向量进行整合，使得生成的目标融合特征向量能够充分表达第一图像以及第二图像具有的图像语义特征。以使得获得精细的图像识别结果，从而促进鲁棒的场景表示。权利要求书3页说明书14页附图4页 CN 115115836 A 2022.09.27 CN 115115836 A 1.一种图像识别方法，其特征在于，包括：获取图像对，其中，所述图像对包括采用不同拍摄方式对同一场景进行拍摄获得的第一图像和第二图像；将所述图像对输入训练好的特征提取模型，获得所述图像对的目标融合特征向量；基于所述目标融合特征向量，获得图像识别结果；其中，所述特征提取模型包括用于提取所述第一图像的第一图像特征的第一特征提取网络以及用于提取所述第二图像的第二图像特征的第二特征提取网络，且所述第一特征提取网络以及所述第二特征提取网络具有相同数量级的依次连接的特征提取层，所述第一特征提取网络以及所述第二特征提取网络中相同层级的所述特征提取层与同一个融合层连接；所述融合层用于根据与该融合层连接的两个所述特征提取层分别提取到的所述第一图像特征、所述第二图像特征以及该特征提取层的前一特征提取层对应的融合层输出的特征向量，获得对应的融合特征向量；所述目标融合特征向量为任一所述融合层输出的融合特征向量。 2.根据权利要求1所述的方法，其特征在于，所述融合层包括：级联交互模块，用于根据与该融合层连接的两个所述特征提取层提取到的所述第一图像特征以及所述第二图像特征，获得初始融合特征；第一卷积模块，用于将所述第一图像特征与所述初始融合特征进行融合，获得第一融合特征；第二卷积模块，用于将所述第二图像特征与所述初始融合特征进行融合，获得第二融合特征；融合模块，用于根据所述第一融合特征、所述第二融合特征以及该特征提取层的前一特征提取层对应的融合层输出的特征向量，获得对应的融合特征向量。 3.根据权利要求2所述的方法，其特征在于，所述第一图像为RGB图像，所述级联交互模块具体用于：以所述第一图像特征为基准，融合所述第二图像特征与所述第一图像特征，获得所述初始融合特征。 4.根据权利要求3所述的方法，其特征在于，所述级联交互模块包括：第一处理层，用于对所述第一图像特征以及所述第二图像特征进行逐元素求和运算，获得第一特征向量；第二处理层，用于对所述第一图像特征以及所述第一特征向量进行卷积处理，获得第一卷积特征向量，并对所述第一卷积特征向量以及所述第二图像特征进行对位元素相乘运算，获得第二特征向量；第三处理层，用于对所述第一图像特征以及所述第二特征向量进行卷积处理，获得第二卷积特征向量，并对所述第一卷积特征向量以及所述第二图像特征进行特征串联运算，获得第三特征向量；拼接层，用于融合所述第一特征向量、所述第二特征向量、所述第三特征向量以及所述第一图像特征，获得所述初始融合特征。 5.根据权利要求2所述的方法，其特征在于，所述融合模块具体用于：权　利　要　求　书 1/3 页 2 CN 115115836 A 2对该特征提取层的前一特征提取层对应的融合层输出的特征向量进行双线性插值操作，获得插值结果；对所述插值结果、所述第一融合特征以及所述第二融合特征进行拼接，获得对应的融合特征向量。 6.根据权利要求1所述的方法，其特征在于，所述训练好的特征提取模型通过以下步骤获得：获取初始特征提取模型；获取训练样本，其中，所述训练样本包括样本图像对，所述样本图像对包括携带有图像语义标签的第一样本图像和第二样本图像，所述第一样本图像和所述第二样本图像为采用不同拍摄方式对同一场景进行拍摄获得的图像，所述图像语义标签用于对所述第一样本图像和所述第二样本图像中的图像的所属类别进行标记；将所述训练样本输入所述初始特征提取模型，获得所述初始特征提取模型中的每一层所述融合层输出的融合特征向量对应的预测结果；针对所述初始特征提取模型中的每一层所述融合层，基于加权交叉熵损失函数确定该融合层对应的交叉熵损失值，其中，所述加权交叉熵损失函数用于根据该融合层对应的所述预测结果、所述图像语义标签以及所述训练样本中每一图像语义类别所占的比重，确定所述交叉熵损失值；基于所述交叉熵损失值调整所述初始特征提取模型的参数，获得所述训练好的特征提取模型。 7.根据权利要求1至6中任一项所述的方法，其特征在于，所述第一特征提取网络以及所述第二特征提取网络中前一层的所述特征提取层的维度大于后一层的所述特征提取层的维度。 8.一种图像识别装置，其特征在于，包括：获取模块，配置为获取图像对，其中，所述图像对包括采用不同拍摄方式对同一场景进行拍摄获得的第一图像和第二图像；提取模块，配置为将所述图像对输入训练好的特征提取模型，获得所述图像对的目标融合特征向量；识别模块，配置为基于所述目标融合特征向量，获得图像识别结果；其中，所述特征提取模型包括用于提取所述第一图像的第一图像特征的第一特征提取网络以及用于提取所述第二图像的第二图像特征的第二特征提取网络，且所述第一特征提取网络以及所述第二特征提取网络具有相同数量级的依次连接的特征提取层，所述第一特征提取网络以及所述第二特征提取网络中相同层级的所述特征提取层与同一个融合层连接；所述融合层用于根据与该融合层连接的两个所述特征提取层分别提取到的所述第一图像特征、所述第二图像特征以及该特征提取层的前一特征提取层对应的融合层输出的特征向量，获得对应的融合特征向量；所述目标融合特征向量为任一所述融合层输出的融合特征向量。 9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现权利要求1至7中任一项所述的方法的步骤。权　利　要　求　书 2/3 页 3 CN 115115836 A 3

专利 图像识别方法、装置、存储介质以及电子设备

专利图像识别方法、装置、存储介质以及电子设备