(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210813898.9
(22)申请日 2022.07.12
(71)申请人 合众新能源 汽车有限公司
地址 314500 浙江省嘉兴 市桐乡市梧桐街
道同仁路98 8号
(72)发明人 冷静 赵天坤 陈远鹏 张军良
(74)专利代理 机构 上海专利商标事务所有限公
司 31100
专利代理师 徐伟
(51)Int.Cl.
G06V 20/70(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06V 10/764(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种多视角输入的鸟瞰图语义分割方法及
装置
(57)摘要
本发明提供了一种多视角输入的鸟瞰图语
义分割方法及装置, 该方法包括: 获取一个或多
个摄像装置在同一车辆位置拍摄的多个视角的
多张图像, 统一多张图像的图像格式以提取多张
图像的图像特征; 基于视角信息重构多张图像,
将重构后的多个视角的图像信息串行输入
Transformer编码器, Tran sformer编码器对图像
特征和鸟瞰图网格进行内容和位置编码后再输
出至Transformer解码器, Transformer编码器和
Transformer解码器均包括Norm模 块、 FFN模 块以
及交叉注意力模块; Transformer解码器进行 图
像特征的融合, 再投影至鸟瞰图网格以使鸟瞰图
网格中的每一网格包含融合了多个视角的多张
图像特征的融合特征值; 以及基于交叉注意力机
制对鸟瞰图网格中的融合特征值进行类别判别
以执行语义分割。
权利要求书2页 说明书8页 附图5页
CN 115131787 A
2022.09.30
CN 115131787 A
1.一种多视角输入的鸟瞰图语义分割方法, 包括:
获取一个或多个摄像装置在同一车辆位置拍摄的多个视角的多张图像, 统一所述多张
图像的图像 格式以提取 所述多张图像的图像特 征;
基于视角信息重构所述多张图像, 将重构后的所述多个视角的图像信息串行输入
Transformer编码器, 所述Transformer编码器对所述图像特征和鸟瞰图网格进行内容和位
置编码后再输出至Transformer解码器, 所述Transformer编码器和所述Transformer解码
器均包括 Norm模块、 F FN模块以及交叉注意力模块;
所述Transformer解码器进行所述图像特征的融合, 再投影至鸟瞰图网格以使所述鸟
瞰图网格中的每一网格包 含融合了所述多个视角的多张图像特 征的融合特 征值; 以及
基于交叉注意力机制对所述鸟瞰图网格中的所述融合特征值进行类别判别以执行语
义分割。
2.如权利要求1所述的鸟瞰图语义分割方法, 其特征在于, 所述基于交叉注意力 机制对
所述鸟瞰图网格中的所述融合特 征值进行类别判别以执 行语义分割, 包括:
利用softmax函数进行类别判别以执 行语义分割:
其中, Q为需要学习的特征类别, K、 V为融合特征后的所述多个视角的多张图像的特征
值, dk表示维度大小。
3.如权利要求1所述的鸟瞰图语义分割方法, 其特征在于, 所述统一所述多 张图像的图
像格式以提取 所述多张图像的图像特 征, 包括:
将每一视角的每 张图像转换为[B,C,H,W]标准格式, 其中B表示批处理大小, C表示图像
通道, H表示图像高度, W表示图像宽度。
4.如权利要求3所述的鸟瞰图语义分割方法, 其特 征在于, 所述图像通道为RGB三 通道。
5.如权利要求3所述的鸟瞰图语义分割方法, 其特征在于, 所述基于视角信 息重构所述
多张图像, 包括:
将统一格式后的所述多个视角的多张图像重构为[B,N*C*H*W]格式, 其中N表示第N个
视角。
6.如权利要求5所述的鸟瞰图语义分割方法, 其特征在于, 所述Transformer编码器对
所述图像特 征和鸟瞰图网格进行内容和位置编码后再输出至Transformer解码器, 包括:
所述Transformer编码器对所述多个视角的多张图像和所述鸟瞰图网格进行内容和位
置编码, 仍输出格式为[B,N* C*H*W]的图像信息 至所述Transformer解码器。
7.如权利要求6所述的鸟瞰图语义分割方法, 其特征在于, 所述Transformer解码器进
行所述图像特征的融合, 再投影至鸟瞰图网格以使所述鸟瞰图网格中的每一网格包含融合
了所述多个视角的多张图像特 征的融合特 征值, 包括:
所述Transformer解码器通过查询所述多个视角的多张图像以及 所述鸟瞰图网格的内
容和位置编码, 对所述鸟瞰图网格中相同位置的图像特 征进行特征融合; 以及
输出格式为[T*M*C]的图像信息,T表示所述鸟瞰图网格的高度, M表示所述鸟瞰图网格
的宽度, C表示该网格的所述融合特 征值。权 利 要 求 书 1/2 页
2
CN 115131787 A
28.如权利要求6所述的鸟瞰图语义分割方法, 其特征在于, 所述Transformer编码器对
所述多个视角的多张图像和所述鸟瞰图网格进行内容和位置编码, 包括:
采用以下公式对所述多个视角的多张图像进行位置编码:
其中, pos表示图像中的坐标, 2i和2i+1表示 位置编码的维度; 以及
多个视角的位置编码由在单个视角上进行平移得到, 第N个视角的pos(N)=N*pos
(1)。
9.如权利要求8所述的鸟瞰图语义分割方法, 其特征在于, 若所述多张图像为二维图
像, 根据以下公式对所述多个视角的多张图像进行位置编码:
10.一种多视角输入的鸟瞰图语义分割装置, 包括:
存储器; 以及
与所述存储器耦接的处理器, 所述处理器配置用于执行如权利要求1~9中任一项所述
的多视角输入的鸟瞰图语义分割方法的步骤。
11.一种计算机可读介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处
理器执行时实现如权利要求1~9中任一项所述的多视角输入的鸟瞰图语义分割 方法的步
骤。权 利 要 求 书 2/2 页
3
CN 115131787 A
3
专利 一种多视角输入的鸟瞰图语义分割方法及装置
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:27:36上传分享