论文阅读:Object Classification Using CNN-Based Fusion of Vision
🍊作者简介:秃头小苏,致力于用最通俗的语言描述问题
🍊往期回顾:凸优化理论基础1–仿射集 凸优化理论基础2——凸集和锥
🍊近期目标:拥有5000粉丝
🍊支持小苏:点赞👍🏼、收藏⭐、留言📩
@[TOC]
前言
先来看看题目的中文解释叭,即在自动驾驶环境中使用CNN-Based融合视觉和激光雷达进行物体分类。我们常见的物体分类算法大多是纯视觉的,那么今天我分享的文章呢,是融合了视觉和激光雷达传感器进行物体分类。写此文章也是最近刚好一门课上要求阅读两篇论文进行讲解,恰巧遇此活动,于是在此记录下来📝📝📝
这篇论文是18年SCI一区的一篇论文,对于刚刚接触传感器融合的同学来说我认为还是很友好的,可以很容易的理解传感器融合的大致思想。
论文
背景
如今自动驾驶可以说是很火的一个方向了,关注度越来越高。这也是因为自动驾驶车辆的安全性和性能、交通效率和节能方面展现了巨大潜力。同时,社会层面也推出了各式各样的挑战赛和项目,如智能汽车未来挑战赛”、谷歌的自动驾驶汽车等,这些都极大的推动了自动驾驶的发展。
论文中先是提到了自动驾驶应该具有怎样的性能,然后提出目前物体分类的两种主流方法,然后总结了纯视觉方案和纯激光雷达方案的局限性,进而提出将视觉传感器和激光雷达融合的方案。
系统架构✨✨✨
本论文使用的车是猛士,其硬件的的系统架构和各传感器的相关参数如下:
核心思想✨✨✨
这篇文章的核心思想也比较容易理解,就是我们将得到的激光雷达点云数据先转换成稀疏的深度图【这里可能需要一些四系坐标转换的知识】,之后再通过双边滤波上采样得到稠密的深度图【滤波就可以看作一个卷积操作】,最后的会将得到的深度图喂到AlexNet网络中。【对此网络不清楚的戳☞了解详情】核心思想的图示如下:
实验结果✨✨✨
下图左图显示了使用 RGB-LIDAR 和 RGB 方法在不同迭代下训练数据集的平均每秒帧数 (FPS)RGB-LIDAR的平均 FPS 从 100 次迭代持续下降到 3000 次迭代,并在 3000 次后趋于平稳。这些值发生了很大变化,使用 RGB-LIDAR 方法最终达到了大约 110 FPS,使用 RGB 方法,这些值最终大约 达到了120 FPS,其实这两个是相差不多的。再来看右表,它提供了基于 RGB-LIDAR 方法的分类预测结果的混淆矩阵。主对角线上的值是正确分类项目的百分比,其余是未分类项目和对应的错误百分比。我们发现主要错误发生在“其他”被归类为“卡车”,而“卡车”被归类为“其他”上。我们认为这两个类对象在当前数据集中非常相似,因为它们的背景也非常相似。
下图第一行三个图显示相应的平均精度。所有曲线都显示出相似的趋势,并且平均准确度在大约 1000 次迭代后趋于稳定。然而,带有 RGB-LIDAR 的效果一直表现更好。尤其是在使用小集合(400 张图像)进行训练时,使用所提出的方法,随着提供的信息深度的增加,当训练迭代次数达到 1000 以上时,多传感器 RGB-LIDAR 数据显示出比纯 RGB 数据高约 5% 的精度。
下图第二行列出了数据集组合的相应平均损失。 随着迭代次数的增加,平均损失不断下降。 当数据集为400张图像时并且使用高于 500 的迭代次数以及,AlexNet 的损失降至零。 多传感器 RGB-LIDAR 始终比 RGB 训练集更快地收敛。
在 KITTI 基准数据集上的实验结果表明,与基于 RGB 的单一模型相比,RGB-LIDAR 数据可以达到更低的损失和更高的平均精度。最终分类器的平均准确率可以达到最大值 96%。这意味着,通过附加的高级 LIDAR 功能,我们可以提高分类器的准确率。
论文下载
下载地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8331162🥗🥗🥗
如若文章对你有所帮助,那就🛴🛴🛴
咻咻咻咻~~duang~~点个赞呗
- 点赞
- 收藏
- 关注作者
评论(0)