(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210846758.1 (22)申请日 2022.07.05 (71)申请人 抖音视界有限公司 地址 100041 北京市石景山区实兴大街3 0 号院3号楼 2层B-0035房间 (72)发明人 边成 张志诚 李永会  (74)专利代理 机构 北京英创嘉友知识产权代理 事务所(普通 合伙) 11447 专利代理师 贺晓蕾 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/40(2022.01) G06V 10/774(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 多模态图像识别方法、 装置、 可读介质和电 子设备 (57)摘要 本公开涉及一种多模态图像识别方法、 装 置、 可读介质和电子设备, 涉及图像处理技术领 域, 该方法包括: 获取目标场景的彩色图像和热 红外图像, 提取彩色图像在 多种维度上的彩色特 征; 提取热红外图像在多种维度上的热红外特 征, 根据目标 维度对应的彩色特征、 热红外 特征, 确定第一互补特征和第二互补特征, 目标维度为 多种维度中的最高维度, 第一互补特征用于表征 热红外模态对彩色模态的补 充特征, 第二互补特 征用于表征彩色模态对热红外模态的补充特征, 根据多种维度对应的彩色特征、 多种维度对应的 热红外特征、 第一互补特征和第二互补特征, 确 定识别结果, 识别结果用于标识彩色图像中至少 一种指定对象所在的区域。 本公开能够提高图像 识别的准确度。 权利要求书4页 说明书19页 附图11页 CN 115240042 A 2022.10.25 CN 115240042 A 1.一种多模态图像识别方法, 其特 征在于, 所述方法包括: 获取目标场景的彩色图像和热红外图像; 提取所述彩色图像在多种维度 上的彩色特征; 提取所述热红外图像在所述多种维度 上 的热红外特 征; 根据目标维度对应的彩色特征、 热红外特征, 确定第 一互补特征和第 二互补特征, 所述 目标维度为所述多种维度中的最高维度, 所述第一互补特征用于表征热红外模态对彩色模 态的补充特 征, 所述第二互补特 征用于表征彩色模态对热红外模态的补充特 征; 根据所述多种维度对应的彩色特征、 所述多种维度对应的热红外特征、 所述第一互补 特征和所述第二互补特征, 确定识别结果, 所述识别结果用于标识所述彩色图像中至少一 种指定对象所在的区域。 2.根据权利要求1所述的方法, 其特征在于, 所述提取所述彩色图像在多种维度 上的彩 色特征, 包括: 将所述彩色图像输入彩色模型, 得到所述彩色模型输出的所述多种维度对应的彩色特 征; 所述提取所述热红外图像在所述多种维度上的热红外特 征, 包括: 将所述热红外图像输入热红外模型, 得到所述热红外模型输出的所述多种维度对应的 热红外色特 征; 所述根据目标维度对应的彩色特征、 热红外特征, 确定第 一互补特征和第 二互补特征, 包括: 将所述目标维度对应的彩色特征和热红外特征输入互补模型, 以得到所述互补模型输 出的所述第一互补特 征和所述第二互补特 征; 所述彩色模型、 所述热红外模型和所述互补模型根据多个训练图像组联合训练得到, 每个所述训练图像组包括 一个训练场景的彩色训练图像和热红外训练图像。 3.根据权利要求2所述的方法, 其特征在于, 所述将所述目标维度对应的彩色特征和热 红外特征输入互补 模型, 以得到所述互补 模型输出的所述第一互补特征和所述第二互补特 征, 包括: 根据所述目标维度对应的彩色特征, 利用所述互补模型中的第 一解码器确定彩色前景 特征, 根据所述目标维度对应的热红外特征, 利用所述互补模型中的第二解码器确定热红 外前景特征, 所述彩色前景特征用于表征所述彩色图像中全部所述指定对 象的区域, 所述 热红外前 景特征用于表征 所述热红外图像中全部所述指定对象的区域; 根据所述热红外前景特征, 利用所述互补模型中的第 一残差单元确定所述第 一互补特 征, 根据所述彩色前 景特征, 利用所述互补模型中的第二残差单 元确定所述第二互补特 征。 4.根据权利要求1所述的方法, 其特征在于, 所述根据所述多种维度对应的彩色特征、 所述多种维度对应的热红外特征、 所述第一互补特征和所述第二互补特征, 确定识别结果, 包括: 对所述目标维度对应的彩色特征、 热红外特征, 以及所述第一互补特征和所述第二互 补特征进行融合, 得到所述目标维度对应的融合特 征; 将按照由高到低的顺序所述目标维度的下一个维度作为当前维度; 对所述当前维度的上一个维度对应的融合特征, 和所述当前维度对应的彩色特征、 热权 利 要 求 书 1/4 页 2 CN 115240042 A 2红外特征进行融合, 得到所述当前维度对应的融合特 征; 根据所述当前维度的下一个维度更新所述当前维度; 重复执行所述对所述当前维度的上一个维度对应的融合特征, 和所述当前维度对应的 彩色特征、 热 红外特征进 行融合, 得到所述当前维度对应的融合特征, 至所述根据所述当前 维度的下一个维度更新所述当前维度的步骤, 直至得到起始维度对应的融合特征, 所述起 始维度为所述多种维度中的最低维度; 根据所述 起始维度对应的融合特 征, 确定所述识别结果。 5.根据权利要求2或3所述的方法, 其特征在于, 所述彩色模型、 所述热红外模型和所述 互补模型 是通过以下 方式联合训练得到的: 将每个所述训练图像组 的所述彩色训练图像输入所述彩色模型, 得到所述多种维度对 应的彩色训练特征, 将该训练图像组的所述热红外训练图像输入所述热红外模型, 得到所 述多种维度对应的热红外训练特 征; 将所述目标维度对应的彩色训练特征和热红外训练特征输入所述互补模型, 得到第 一 互补训练特 征和第二互补训练特 征; 根据所述多种维度对应的彩色训练特征、 所述多种维度对应的热红外训练特征、 所述 第一互补训练特 征和所述第二互补训练特 征, 确定预测结果; 根据所述目标维度对应的彩色训练特征、 热红外训练特征, 以及所述第一互补训练特 征、 所述第二互补训练特征、 所述预测结果和该训练图像组对应的监督识别结果, 联合训练 所述彩色模型、 所述热红外模型和所述互补模型, 所述监督识别结果用于标识该训练图像 组的所述彩色训练图像中每种所述指定对象所在的区域。 6.根据权利要求5所述的方法, 其特征在于, 所述将所述目标维度对应的彩色训练特征 和热红外训练特 征输入所述互补模型, 得到第一互补训练特 征和第二互补训练特 征, 包括: 根据所述目标维度对应的彩色训练特征, 利用所述互补模型中的第 一解码器确定彩色 前景训练特征, 根据所述 目标维度对应的热红外训练特征, 利用所述互补模型中的第二解 码器确定热红外前 景训练特 征; 根据所述热红外前景训练特征, 利用所述互补模型中的第 一残差单元确定所述第 一互 补训练特征, 根据所述彩色前景训练特征, 利用所述互补模型中的第二残差单元确定所述 第二互补训练特 征。 7.根据权利要求6所述的方法, 其特征在于, 所述根据所述目标维度对应的彩色训练特 征、 热红外训练特征, 以及所述第一互补训练特征、 所述第二互补训练特征、 所述预测结果 和该训练图像组对应的监督识别结果, 联合训练所述彩色模型、 所述热红外模型和所述互 补模型, 包括: 根据所述预测结果和该训练图像组对应的所述 监督识别结果, 确定整体交叉熵损失; 根据所述彩色前景训练特征确定第 一预测结果, 并根据 所述第一预测结果与 该训练图 像组对应的二值监督结果, 确定第一交叉熵损失, 所述二值监督结果用于标识该训练图像 组的所述彩色训练图像中全部所述指定对象所在的区域; 根据所述热红外前景训练特征确定第 二预测结果, 并根据 所述第二预测结果与该训练 图像组对应的所述 二值监督结果, 确定第二交叉熵损失; 根据所述第一互补训练特征与所述彩色前景训练特征的和, 确定第三预测结果, 并根权 利 要 求 书 2/4 页 3 CN 115240042 A 3

.PDF文档 专利 多模态图像识别方法、装置、可读介质和电子设备

文档预览
中文文档 35 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共35页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 多模态图像识别方法、装置、可读介质和电子设备 第 1 页 专利 多模态图像识别方法、装置、可读介质和电子设备 第 2 页 专利 多模态图像识别方法、装置、可读介质和电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:30:51上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。