BEVSegFormer---BEV的语义分割

举报
Hermit_Rabbit 发表于 2022/11/29 21:59:34 2022/11/29
【摘要】 0. 简介在阅读了近些年的前视的工作后,发现现在以特斯拉为首的BEV纯视觉语义分割方法目前也越来收到关注,并吸引了大量的研究工作,但是灵活的,不依赖内外参的任意位置安装单个或多个摄像头仍然是一个挑战,而Nullmax就提出了《BEVSegFormer: Bird’s Eye View Semantic Segmentation From Arbitrary Camera Rigs》以用来解...

0. 简介

在阅读了近些年的前视的工作后,发现现在以特斯拉为首的BEV纯视觉语义分割方法目前也越来收到关注,并吸引了大量的研究工作,但是灵活的,不依赖内外参的任意位置安装单个或多个摄像头仍然是一个挑战,而Nullmax就提出了《BEVSegFormer: Bird’s Eye View Semantic Segmentation From Arbitrary Camera Rigs》以用来解决这个问题目前代码还未开源,而另一个BEVFormer团队说22年6月开源,正在持续观望中:https://github.com/zhiqi-li/BEVFormer

1. 主要工作

这个工作主要是有三块组成部分:

1. a shared backbone
提取多个camera图像的特征,ResNet。

2. transformer encoder
在C3,C4和C5的特征上通过1*1的卷积来得到multi-scale的features,然后和deformable detr一样,分别对各个相机的multi-scale feature施加multi-scale deformable attention,这样就会得到每一个相机的增强版的multi-scale feature

3. BEV Transformer Decoder
decoder的输入只有32倍下采样的feature map。当中包含两部分,一部分是计算BEV queries和multi-camera feature maps之间的cross-attention,一部分是通过一个semantic decoder来解析queries得到BEV的分割结果

2. 详细内容

BEVSegFormer,具体来说,该方法的主要框架是先使用一个共享的主干网络来对任意相机的图像特征进行统一编码,实验中选用了ResNet作为实编码。然后就会传入基于变形Transformer的编码器进行增强(即图中Transformer Encoder部分)。在该部分主要使用了Deformable Attention可变性Attention作为框架。Query代表了待查找项,而Defromed Point代表了使用Deformable CNN得到的可变性卷积方法。
在这里插入图片描述
在共享主干的c3、c4、c5级特征上应用1×1 卷积运算符。在每个摄像头生成的特征地图上分别应用Deformable Attention模块。它不需要计算致密注意图,只关注参考点附近的一组采样点。transformer编码器为每个摄像头输出增强的多尺度特征。
在这里插入图片描述

然后我们来看一下解码器,用来处理BEV查询(Query)和多摄像头特征图之间的cross attention,以及一个语义解码器,并将多尺度特征图的最小分辨率(原始输入分辨率的1/32)作为transformer解码器的输入,以用于将查询解析为BEV分割结果。
在这里插入图片描述
这里的多摄像头Deformable Cross-Attention 模块借鉴了Deformable DETR中的Deformable Cross-Attention 模块,也就是将六幅图通过四层的Deformable Attention进行encoder。并将这些特征的参考点、采样点和Attention权重。

…详情请参照古月居

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。