AVOD-Net 用于自动驾驶的聚合视图3D对象检测网络

举报
一颗小树x 发表于 2021/07/22 18:38:24 2021/07/22
【摘要】 AVOD-Net和MV3D-Net比较像,AVOD-Net算是MV3D-Net的加强版。该论文通过聚合不同视角的数据,实现了自动驾驶场景下3D物体的实时检测。

前言

AVOD-Net和MV3D-Net比较像,AVOD-Net算是MV3D-Net的加强版。该论文通过聚合不同视角的数据,实现了自动驾驶场景下3D物体的实时检测。

论文地址:Joint 3D Proposal Generation and Object Detection from View Aggregation

开源代码:https://github.com/kujason/avod


一、框架了解

先看下总体网络结构:(可以点击图片放大查看)

输入的数据:有二种,分别是点云俯视图和二维RGB图像。输出数据:类别标签、3D边界框。

相对于MV3D-Net的改进措施

  • 1)去掉了激光点云的前视图输入。
  • 2)在俯视图中去掉了强度信息。

去掉这两个信息仍然能取得号的效果,就说明俯视图和图像信息已经能够完整诠释三维环境了。

 

二、提取特征

先看一下AVOD-Net如何提取特征的。 

 它主要提取出二部分数据,分别是图像特征、点云俯视图特征,其中图像+点云俯视图融合特征,在数据整合起到作用。后面将这二种特征进行融合。

它使用了全分辨率特征,所以为了在整合时降低维度,先进性了1X1的卷积。

AVOD使用的是FPN,包含了encoder和decoder,它可以在保证特征图相对于输入是全分辨率的,而且还能结合底层细节信息和高层语义信息,因此能显著提高物体特别是小物体的检测效果。(对比:MV3D-Net 是使用的VGG16做特征提取。)



三、数据整合

再看看数据整合。

AVOD使用的是裁剪和调整(crop and resize)。



四、3D Bounding Box的编码上添加了几何约束

MV3D, Axis Aligned, AVOD三种不同的3D Bounding Box编码方式如下图所示,

  •  AVOD利用一个底面以及高度约束了3D Bounding Box的几何形状,即要求其为一个长方体。
  • MV3D只是给出了8个顶点,没有任何的几何约束关系。

此外,MV3D中8个顶点需要一个24维(3x8)的向量表示,而AVOD只需要一个10维(2x4+1+1)的向量即可,做到了很好的编码降维工作。



五、模型效果

与其他模型的对比:

KITTI上,AVOD目前(2018.7.23)名列前茅,在精度和速度上都表现较好,与MV3D, VoxelNetF-PointNet对比的结果如下表所示。

 

模型预测效果:

本文参考:https://zhuanlan.zhihu.com/p/86340957https://zhuanlan.zhihu.com/p/40271319

 

论文地址:Joint 3D Proposal Generation and Object Detection from View Aggregation

开源代码:https://github.com/kujason/avod

本文只提供参考学习,谢谢。


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。