视觉 SLAM 技术及应用、与AI的结合发展
转载一篇博客关于视觉SLAM技术及应用、与AI的结合发展:http://www.sohu.com/a/293077502_651893
章国锋 - 「视觉 SLAM 技术及应用」
浙江大学 CAD&CG 国家重点实验室教授、博导章国锋的报告主题是「视觉 SLAM 技术及应用」。报告中综述介绍了视觉定位地图重建跟踪技术及应用的各方面研究工作。
基础知识与技术
SLAM,同时定位与地图构架,是机器人和计算机视觉领域的基本问题。
SLAM 技术的运行结果要计算设备自身在空间中的位置和朝向,同时还要构建周围环境的地图。根据构建的环境地图包含的信息不同,可以分为稀疏 SLAM 和稠密 SLAM,前者只包含三维点云,后者同时也要采集重建几何和纹理。
经过几十年的发展,SLAM 系统常用的技术框架已经基本成熟,主要可以分为输入、前台线程、后台线程、输出四个组成部分。
视觉 SLAM 自然是以视觉输入为主,单目、双目、多目摄像头方案都有。如今也可以结合其他的辅助传感器的信号,进一步提高解算精度。
视觉 SLAM 从视觉信号输入,重建场景三维信息的基本原理是多视图几何方程求解。不过,高效、稳定的求解有一定难度,尤其在动态 SLAM 中,场景在变化,有outliner,甚至场景有遮挡。章国锋教授介绍了几个关键思路。
视觉 SLAM 研究工作
章国锋教授设计的视觉 SLAM 解决方案是 RDSLAM。这个系统可以根据实时视频信号输入检测、追踪场景中的动态变化。
相比于更传统的基于滤波器的 SLAM 方法,基于关键帧的方法有较多优点,但对强旋转很敏感。RDSLAM 就是一种基于关键帧的方法。
机器人领域的应用中大量使用视觉惯性 SLAM,就是结合机器人 IMU (惯性测量单元)采集的数据计算视角运动,在它的帮助下提高鲁棒性。那么没有搭载 IMU 的设备能否借鉴这种思路呢?由于绝大多数情况下摄像头的移动线速度较低(米/秒 级),影响不大,重点计算角速度即可,章国锋教授认为这种思路是可行的。也就是在没有真实 IMU 数据时,通过采集的数据数据模拟计算 IMU 数据。
根据这个思路,他们针对移动场景提出 RKSLAM。
而后还衍生出基于 RGB-D 输入系统的视觉 SLAM 系统 RKD-SLAM,除 RGB 视觉信息之外增加的深度信息可以大幅提高鲁棒性,得以实现非常快速的增量集束调整;基于关键帧的重融合,消除累积误差;其中还使用了多种降低计算复杂度的方法,速度可以快一个数量级。
章国锋教授着重介绍了系统中使用的集束调整方法,把长序列分成多个短序列,分段优化,收敛快。在演示视频中,章国锋教授在自家小区中一边行走,一边随意用手机拍摄视频,他们的方法就能很好地重建出周围环境的三维模型,效果优于此前的方法。
视觉 SLAM 技术应用
视觉 SLAM 技术的应用有很多。对于视频剪辑,可以移动、复制画面中的对象,隐藏或者添加对象,还可以增加时间停止特效,进行景深变换等。(上图视频中,在桌面上复制了一个同样的魔方)。
增强现实应用也是大家喜闻乐见的应用形式。图中演示的是王者荣耀 AR 人物,可以让游戏中的英雄在真是桌面上做出各种动作;高德地图有 AR 导航,可以在路面上显示一个助手带着你行走。AR 尺子也已经具备了一定的实用性,基于 RGB-D 惯性 SLAM 的 AR 测量,平均测量误差只有 2.6%。基于 TOF (飞行时间)的技术还可以具有遮挡处理的能力。
最后,章国锋教授展望了视觉 SLAM 的技术发展趋势。一方面,我们需要更先进的方法缓解视觉 SLAM 中的特征依赖,提高稳定性;另一方面,稠密 SLAM、TOF 做得还不够好、应用还不多。最后,多传感器融合也是一个发展方向。
基于语义信息和生成对抗的视觉里程计
下一项研究是关于视觉里程计的。这是首次把生成式对抗引入视觉里程计的设计,但取得了不错的效果。
方法的总体流程是,用一个特征生成模块 FGN 生成特征,用一个 Discriminator 判别数据分布。这个 Discriminator 有三路输入,分别是图像、生成器输出的特征、语义图,然后把用 SIFT 方法生成的特征点和特征描述作为 Ground Truth。这样的做法解决了特征点检测和描述的问题。取特征部分比直接使用 SIFT 和 ORB 快,精度也更高。而且也解决了 SIFT 作为里程计时容易中断的问题。
他们的方法在许多场景下都取得了不错的表现,甚至最终的精度超过了作为监督信息的 SIFT 的精度。不过,由于方法中没有加入闭环检测,在高速、长路段的后期误差会升高。
最后,纪荣嵘教授还简单介绍了实验室在视觉场景理解方面的多个项目,包括头戴式显示装备、AR 快速定位、基于神经网络压缩的人工智能芯片设计、端到端实时室内物体语义分割等,也是产学研结合的范例。
- 点赞
- 收藏
- 关注作者
评论(0)