EfficientPS:一种高效高精度全景分割算法

举报
Echo_0000 发表于 2020/07/16 20:58:16 2020/07/16
【摘要】 整体场景理解在实现智能行为中起着关键作用。人类从小就能毫不费力地理解复杂的视觉场景,这为学习更高级的能力奠定了基础(Bremner和Slater, 2008)。类似地,诸如机器人这样的智能系统应该有能力在基本像素级和非敏感对象实例级连贯地理解视觉场景。这使他们能够感知和推理环境的整体,有利于互动。这种建模能力是一个至关重要的推动者,它可以彻底改变许多不同的应用,包括自动驾驶、监视和增强现...

前言

    整体场景理解在实现智能行为中起着关键作用。人类从小就能毫不费力地理解复杂的视觉场景,这为学习更高级的能力奠定了基础(Bremner和Slater, 2008)。类似地,诸如机器人这样的智能系统应该有能力在基本像素级和非敏感对象实例级连贯地理解视觉场景。这使他们能够感知和推理环境的整体,有利于互动。这种建模能力是一个至关重要的推动者,它可以彻底改变许多不同的应用,包括自动驾驶、监视和增强现实。


    了解一个人工智能操作的场景对其正常工作至关重要。这样的场景理解需要识别交通参与者的实例以及一般场景语义,这可以通过全景分割任务有效地解决。在本文中,我们介绍了一种高效的全景分割(EfficientPS)体系结构,该体系结构由一个共享主干组成,该体系结构有效地编码和融合语义丰富的多尺度特征。我们合并了一个新的语义头,它将精细和上下文特征连贯地聚合在一起,并将Mask R-CNN的一个新变体作为实例头部。我们还提出了一个新的全景融合模块,它将我们的EfficientPS架构的两个头部的输出逻辑一致地集成在一起,以产生最终的全景分割输出。此外,我们还介绍了KITTI全景分割数据集,它包含了具有普遍挑战性的KITTI基准的全景注释。对城市景观、KITTI、Mapillary远景和印度驾驶数据集的广泛评估表明,我们提出的架构始终在所有这四个基准上设定了最新的技术水平,同时也是迄今为止最高效、最快速的全景分割架构。


一、什么是全景分割?


    全景分割(Panoptic Segmentation)即同时实现对背景的语义分割和前景的实例分割。这是图像分割领域近来的新趋势,是对环境感知的进一步演化。


    从一些自动驾驶环境的视频中可以看出,自驾汽车需要感知外景环境,包括建筑物、地面、天空、树木这些背景,和行人、汽车、交通标志等前景,背景需要用语义分割技术计算出来,前景则需要标示出个体,即需要实例分割。 

 

二、全景融合模块

    为了获得全景分割输出,我们需要融合语义分割头和实例分割头的预测。然而,由于它们之间固有的重叠,融合这两种预测并不是一项简单的任务。因此,我们提出一种新的全景融合模块,以自适应的方式解决上述问题,以充分利用两个头的预测一致。图4显示了我们的全景融合模块的拓扑结构。我们从网络的实例分割头获得一组对象实例,其中对于每个实例,我们都有其对应的类预测,置信度得分,边界框和掩码logit。首先,我们分两个阶段减少预测对象实例的数量。我们首先丢弃置信值小于某个置信值阈值的所有对象实例。然后,我们将每个对象实例的28×28掩码模型调整为零填充并缩放为与输入图像相同的分辨率。随后,我们根据各自的置信度得分对类别预测,边界框和掩码模型进行排序。在第二阶段,我们检查每个排序后的实例掩码模型是否与其他对象实例重叠。如果重叠高于给定的重叠阈值,我们将丢弃其他对象实例。





三、EfficientPS网络架构

EfficientPS 算法分割结果如下:


    EfficientPS的设计目标是在计算效率高的同时,实现比之前的最先进的模型更优越的性能。

 

    最初的全景分割方法是同时进行实例分割和语义分割,然后在后处理步骤中,将二者的预测结果结合在一起。可想而知这种方法计算开销大,存在信息冗余且每个网络的预测存在差异不易结合。尽管近来的方法已经在使用自上而下的共享网络组件或自下而上的顺序方式在解决这一任务方面取得了重大进展,但这些方法仍然存在计算效率和精度不足的问题。

 

EfficientPS 算法架构图如下:

 


    提出的EfficientPS体系结构如图示,该体系结构由一个共享主干和双向FPN,并行语义和实例分割头以及随后的全景融合模块组成。 共享主干网络建立在EfficientNet架构和我们新的双向FPN上,该双向FPN支持双向信息流。 实例分割头基于改进的Mask R-CNN拓扑,结合了提出的语义分割头。 最后,两个头部的输出在我们的全景融合模块中融合,以产生全景分割输出。


    与采用在其他全景分割结构中常用的传统FPN不同,结合提出的双向FPN,融合多尺度特征比其相似算法更有效。这可以归因于这样一个事实,即在我们的双向FPN中的信息流并不是仅局限于一个方向,如图2中的紫色、蓝色和绿色块所示。在双向FPN之后,我们采用两个并行的头部分别进行语义分割(用黄色表示)和实例分割(用灰色和橙色表示)。使用了Mask R-CNN网络结构的变体作为实例头,并结合了由密集预测单元和残差金字塔组成的新的语义分割头。语义头由三个不同的模块组成,分别用于捕捉精细特征、远程上下文特征和关联明显捕获的特征,以改善对象边界的细化。最后,使用提出的全景融合模块融合语义头和实例头的输出,以产生全景分割输出。



四、实验结果

    作者在四个具有挑战性的城市场景理解基准数据集上对 EfficientPS 进行了评估,分别是Cityscapes、Mapillary Vistas、KITTI和IDD(KITTI原本没有全景分割标注,作者们进行了标注)。

 

在 Cityscapes 数据集上,EfficientPS 排名第一,并且远远超过了之前的SOTA,同时参数更少,计算量更少,推理时间更快。


 

    在Cityscapes语义分割基准和Cityscapes实例分割基准中,EfficientPS也在已发布的方法中排名第二。

 

    在Mapillary Vistas、KITTI和IDD基准数据集上,EfficientPS 均为目前最先进的全景分割算法。

 


【版权声明】本文为华为云社区用户翻译文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容, 举报邮箱:cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。