专利一种多视角输入的鸟瞰图语义分割方法及装置 -在线下载 -pdf文件-doc.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210813898.9 (22)申请日 2022.07.12 (71)申请人合众新能源汽车有限公司地址 314500 浙江省嘉兴市桐乡市梧桐街道同仁路98 8号 (72)发明人冷静　赵天坤　陈远鹏　张军良　 (74)专利代理机构上海专利商标事务所有限公司 31100 专利代理师徐伟 (51)Int.Cl. G06V 20/70(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/764(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种多视角输入的鸟瞰图语义分割方法及装置 (57)摘要本发明提供了一种多视角输入的鸟瞰图语义分割方法及装置，该方法包括：获取一个或多个摄像装置在同一车辆位置拍摄的多个视角的多张图像，统一多张图像的图像格式以提取多张图像的图像特征；基于视角信息重构多张图像，将重构后的多个视角的图像信息串行输入 Transformer编码器， Tran sformer编码器对图像特征和鸟瞰图网格进行内容和位置编码后再输出至Transformer解码器， Transformer编码器和 Transformer解码器均包括Norm模块、 FFN模块以及交叉注意力模块； Transformer解码器进行图像特征的融合，再投影至鸟瞰图网格以使鸟瞰图网格中的每一网格包含融合了多个视角的多张图像特征的融合特征值；以及基于交叉注意力机制对鸟瞰图网格中的融合特征值进行类别判别以执行语义分割。权利要求书2页说明书8页附图5页 CN 115131787 A 2022.09.30 CN 115131787 A 1.一种多视角输入的鸟瞰图语义分割方法，包括：获取一个或多个摄像装置在同一车辆位置拍摄的多个视角的多张图像，统一所述多张图像的图像格式以提取所述多张图像的图像特征；基于视角信息重构所述多张图像，将重构后的所述多个视角的图像信息串行输入 Transformer编码器，所述Transformer编码器对所述图像特征和鸟瞰图网格进行内容和位置编码后再输出至Transformer解码器，所述Transformer编码器和所述Transformer解码器均包括 Norm模块、 F FN模块以及交叉注意力模块；所述Transformer解码器进行所述图像特征的融合，再投影至鸟瞰图网格以使所述鸟瞰图网格中的每一网格包含融合了所述多个视角的多张图像特征的融合特征值；以及基于交叉注意力机制对所述鸟瞰图网格中的所述融合特征值进行类别判别以执行语义分割。 2.如权利要求1所述的鸟瞰图语义分割方法，其特征在于，所述基于交叉注意力机制对所述鸟瞰图网格中的所述融合特征值进行类别判别以执行语义分割，包括：利用softmax函数进行类别判别以执行语义分割：其中， Q为需要学习的特征类别， K、 V为融合特征后的所述多个视角的多张图像的特征值， dk表示维度大小。 3.如权利要求1所述的鸟瞰图语义分割方法，其特征在于，所述统一所述多张图像的图像格式以提取所述多张图像的图像特征，包括：将每一视角的每张图像转换为[B,C,H,W]标准格式，其中B表示批处理大小， C表示图像通道， H表示图像高度， W表示图像宽度。 4.如权利要求3所述的鸟瞰图语义分割方法，其特征在于，所述图像通道为RGB三通道。 5.如权利要求3所述的鸟瞰图语义分割方法，其特征在于，所述基于视角信息重构所述多张图像，包括：将统一格式后的所述多个视角的多张图像重构为[B,N*C*H*W]格式，其中N表示第N个视角。 6.如权利要求5所述的鸟瞰图语义分割方法，其特征在于，所述Transformer编码器对所述图像特征和鸟瞰图网格进行内容和位置编码后再输出至Transformer解码器，包括：所述Transformer编码器对所述多个视角的多张图像和所述鸟瞰图网格进行内容和位置编码，仍输出格式为[B,N* C*H*W]的图像信息至所述Transformer解码器。 7.如权利要求6所述的鸟瞰图语义分割方法，其特征在于，所述Transformer解码器进行所述图像特征的融合，再投影至鸟瞰图网格以使所述鸟瞰图网格中的每一网格包含融合了所述多个视角的多张图像特征的融合特征值，包括：所述Transformer解码器通过查询所述多个视角的多张图像以及所述鸟瞰图网格的内容和位置编码，对所述鸟瞰图网格中相同位置的图像特征进行特征融合；以及输出格式为[T*M*C]的图像信息,T表示所述鸟瞰图网格的高度， M表示所述鸟瞰图网格的宽度， C表示该网格的所述融合特征值。权　利　要　求　书 1/2 页 2 CN 115131787 A 28.如权利要求6所述的鸟瞰图语义分割方法，其特征在于，所述Transformer编码器对所述多个视角的多张图像和所述鸟瞰图网格进行内容和位置编码，包括：采用以下公式对所述多个视角的多张图像进行位置编码：其中， pos表示图像中的坐标， 2i和2i+1表示位置编码的维度；以及多个视角的位置编码由在单个视角上进行平移得到，第N个视角的pos(N)＝N*pos (1)。 9.如权利要求8所述的鸟瞰图语义分割方法，其特征在于，若所述多张图像为二维图像，根据以下公式对所述多个视角的多张图像进行位置编码： 10.一种多视角输入的鸟瞰图语义分割装置，包括：存储器；以及与所述存储器耦接的处理器，所述处理器配置用于执行如权利要求1～9中任一项所述的多视角输入的鸟瞰图语义分割方法的步骤。 11.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1～9中任一项所述的多视角输入的鸟瞰图语义分割方法的步骤。权　利　要　求　书 2/2 页 3 CN 115131787 A 3

专利 一种多视角输入的鸟瞰图语义分割方法及装置

专利一种多视角输入的鸟瞰图语义分割方法及装置