(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210723314.9 (22)申请日 2022.06.21 (71)申请人 电子科技大 学 地址 611731 四川省成 都市高新区 (西区) 西源大道 2006号 (72)发明人 陈波 孙孟凡 李伟 冯莉尧  (74)专利代理 机构 成都先导云创知识产权代理 事务所(普通 合伙) 51321 专利代理师 李坤 (51)Int.Cl. G06V 20/70(2022.01) G06V 10/26(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 5/04(2006.01) (54)发明名称 面向复杂场景的不对称双分支实时语义分 割网络的方法 (57)摘要 本发明涉及计算机视觉理解领域, 尤其涉及 面向复杂场景的不对称双分支实时语义分割网 络的方法; 包括以下步骤: 基于特征共享的下采 样模块获取低分辨率图像; 基于更宽通道的轻量 级双分支模块提取高级语义特征和低级细节特 征; 使用特征指导融合模块多尺度融合两个分支 的语义和空间信息; 基于特征恢复模块得到最终 分割结果图。 本发明通过共享浅层信息和特征指 导的方式充分融合语义信息和空间信息, 并基于 不对称残差瓶颈模块作为语义分支的核心特征 提取单元, 最后结合多尺度信息完成密集特征的 提取, 解决了复杂场景中目标类别混淆、 形状不 规则和物体遮挡干扰, 以及大部分的语义分割网 络复杂度较高, 无法实时高效地应用到移动/嵌 入式平台 中的技术问题。 权利要求书2页 说明书7页 附图3页 CN 115082928 A 2022.09.20 CN 115082928 A 1.面向复杂场景的不对称双分支实时语义分割网络的方法, 其特征在于, 包括以下步 骤: 步骤1: 对原始输入图像进行预处理操作, 得到输入图像, 基于特征共享的下采样模块 对输入图像进行 下采样, 得到第三特 征图; 步骤2: 基于宽通道的轻量级双 分支模块提取步骤1得到的特征图的高级语义特征和低 级细节特 征; 步骤3: 使用特征指导融合模块对两个分支模块的语义信息和 空间信息进行多尺度融 合, 得到第十四特 征图; 步骤4: 基于步骤3中的第十四特 征图和特 征恢复模块得到最终分割结果图。 2.根据权利要求1所述的面向复杂场景的不对称双分支实时语义分割网络的方法, 其 特征在于, 所述 步骤1包括如下步骤: 步骤1.1: 对原 始输入图像进行 预处理操作, 得到大小为1024 ×2048的输入图像; 步骤1.2: 利用一个标准2D卷积对通道数为3, 大小为1024 ×2048的输入图像进行2倍的 下采样, 得到通道数为32, 分辨 率为512×1024的第一特 征图; 步骤1.3: 利用一个深度可分离卷积对第一特征图进行2倍的下采样, 得到通道数为48, 分辨率为256×512的第二特 征图; 步骤1.4: 利用一个深度可分离卷积对第二特征图进行2倍的下采样, 得到通道数为 384, 分辨 率为128×256的第三特 征图。 3.根据权利要求1所述的面向复杂场景的不对称双分支实时语义分割网络的方法, 其 特征在于, 所述 步骤2包括以下步骤: 步骤2.1: 利用双分支模块的细节分支单元对步骤1中得到的第三特征图进行通道降 维, 得到通道数为128, 分辨 率为128×256的第四特 征图; 步骤2.2: 利用第 一组不对称残差瓶颈模块对第 三特征图进行卷积, 第 一组不对称残差 瓶颈模块对第三特征图进 行2倍的下采样, 得到通道数为384, 图像尺 寸为64×128的第五特 征图; 步骤2.3: 利用第 二组不对称残差瓶颈模块对第五特征图进行卷积, 第 二组不对称残差 瓶颈模块对第五特征图进行2倍的下采样, 得到通道数为576, 图像尺寸为32 ×64的第六特 征图; 步骤2.4: 利用第三组不对称残差瓶颈模块对第六特征图进行卷积, 分辨率保持不变, 得到通道数为768, 图像尺寸 为32×64的第七特 征图; 步骤2.5: 利用轻量级空洞空间金字塔池化单元对第七特征图进行多尺度特征信息提 取, 分辨率保持不变, 得到通道数为128, 图像尺寸 为32×64的第八特 征图。 4.根据权利要求3所述的面向复杂场景的不对称双分支实时语义分割网络的方法, 其 特征在于, 所述 步骤3包括以下步骤: 步骤3.1: 采用一个下采样单元对第四特征图进行4倍的下采样, 得到通道数为128, 分 辨率为32×64的第九特 征图; 步骤3.2: 采用双线性差值方式对第八特征图进行4倍的上采样, 得到通道数为128, 分 辨率为128×256第十特征图; 步骤3.3: 基于Sigmoid函数得到第八特征图和第十特征图的特征关键信息, 并将特征权 利 要 求 书 1/2 页 2 CN 115082928 A 2关键信息分别与第九特征图和 第四特征图 以向量相乘的方式进行特征指导, 得到低分辨率 的第十一特 征图和高分辨 率的第十二特 征图; 步骤3.4: 采用双线性差值方式对第十一特征图完成4倍上采样, 得到第十三特征图, 将 第十三特征图和第十二特征图相加, 得到通道数为128, 分辨率为128 ×256的第十四特征 图。 5.根据权利要求1所述的面向复杂场景的不对称双分支实时语义分割网络的方法, 其 特征在于, 所述 步骤4包括以下步骤: 步骤4.1: 使用两个深度可分离卷积对第十四特征图进行卷积, 分别率保持不变, 得到 通道数为128, 分辨 率为128×256的第十五特 征图; 步骤4.2: 利用逐点卷积对第十五特征图进行分割类别映射, 得到通道数为C, 分辨率为 128×256的第十六 特征图, 所述 通道数为C中的C指分割类别数; 步骤4.3: 采用双线性插值的方式对第十六特征图进行8倍上采样, 将第十六特征图的 分辨率恢复至与原 始输入图像的分辨 一致, 得到最终分割结果图。 6.根据权利要求2所述的面向复杂场景的不对称双分支实时语义分割网络的方法, 其 特征在于, 步骤1.1 中所述的预处理包括: 在0.5到2之间随机调整大小、 平移或裁剪、 随机水 平翻转、 改变颜色、 改变通道噪声以及改变亮度。 7.根据权利要求3所述的面向复杂场景的不对称双分支实时语义分割网络的方法, 其 特征在于, 所述不对称残差瓶颈模块由两个深度可分离卷积构成, 所述深度可分离卷积包 括以串行和并行的方式拼接的深度卷积和逐点卷积, 并引入分组卷积和跳跃连接操作构 成。 8.根据权利要求3所述的面向复杂场景的不对称双分支实时语义分割网络的方法, 其 特征在于, 第一组不对称残差瓶颈模块、 第二组不对称残差瓶颈模块以及第三组不对称残 差瓶颈模块均有三个串联而成不对称残差瓶颈模块组成; 每一组中第 一个不对称残差瓶颈模块的处理结果传输给第 二个不对称残差瓶颈模块, 第二个不对称残差瓶颈模块的处理结果传输给第三个不对称残差瓶颈模块, 由第三个不对 称残差瓶颈模块输出最终的结果; 每一组中的第一个不对称残差瓶颈模块的步长设置为2或1, 其 余两个的步长设置为1。 9.根据权利要求3所述的面向复杂场景的不对称双分支实时语义分割网络的方法, 其 特征在于, 所述轻量级空洞空间金字塔池化单元由一个1x1卷积和三个空洞率分别为2, 4, 6 的空洞深度可分离卷积和一个全局池化单 元组成。 10.根据权利要求4所述的面向复杂场景的不对称双 分支实时语义分割网络的方法, 其 特征在于, 所述下采样单 元由步长皆为2的深度可分离卷积层和平均池化层构成。权 利 要 求 书 2/2 页 3 CN 115082928 A 3

.PDF文档 专利 面向复杂场景的不对称双分支实时语义分割网络的方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 面向复杂场景的不对称双分支实时语义分割网络的方法 第 1 页 专利 面向复杂场景的不对称双分支实时语义分割网络的方法 第 2 页 专利 面向复杂场景的不对称双分支实时语义分割网络的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:32:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。