【未完待续】文阅读《Learning Video Object Segmentation from Static Images》

举报
lutianfei 发表于 2021/05/31 21:22:20 2021/05/31
【摘要】 Abstract受深度学习在实例分割和对象跟踪方面的最新进展的启发,我们引入了视频对象分割问题作为引导实例分割的概念。我们的模型在每帧的基础上继续,由前一帧的输出引导到下一帧中感兴趣的对象。我们证明了视频中的高精度对象分割可以通过使用仅使用静态图像训练的connet来启用。我们的方法的关键要素是离线和在线学习策略的组合,前者用于从先前的“帧估计”中产生精细的掩码,后者允许捕获特定对象实例的...

Abstract

受深度学习在实例分割和对象跟踪方面的最新进展的启发,我们引入了视频对象分割问题作为引导实例分割的概念。我们的模型在每帧的基础上继续,由前一帧的输出引导到下一帧中感兴趣的对象。我们证明了视频中的高精度对象分割可以通过使用仅使用静态图像训练的connet来启用。我们的方法的关键要素是离线和在线学习策略的组合,前者用于从先前的“帧估计”中产生精细的掩码,后者允许捕获特定对象实例的外观。我们的方法可以处理不同类型的输入注释:边界框和段,以及合并多个注释框架,使系统适合不同的应用程序。我们在三个不同的数据集上获得了竞争结果,独立于输入注释的类型。

Introduction

卷积神经网络(connets)在计算机视觉的许多基本领域表现出了出色的性能,这得益于大规模注释数据集的可用性(例如,ImageNet分类【22,39】)。然而,视频处理中的一些重要挑战可能很难使用卷积来解决,因为创建足够大的密集像素注释视频数据体用于训练通常是令人望而却步的。

一个示例领域是视频对象分割。给定仅有一个或几个帧具有特定对象实例的分段掩码注释,任务是在视频的所有其他帧中准确地分段同一实例。当前性能最高的方法要么交织框跟踪和分割【48】,要么通过类似CRF和类似抓取的技术在时空中传播第一个帧段注释【26,44】。

本文的关键见解和贡献之一是,完全注释的视频数据是不必要的。我们证明,可以使用仅使用静态图像训练的卷积网络来启用高精度的视频对象分割。

我们从一个新的角度来探讨视频对象分割。我们证明了为语义图像分割设计的卷积网络[8]可用于执行每帧实例分割,即,在区分同一类的不同实例的同时,对通用对象进行分割。对于每个新的视频帧,通过馈入先前的“帧掩码估计”,网络将被引导到感兴趣的对象。因此,我们将我们的方法称为引导实例分割。据我们所知,它代表了第一个完全训练的视频对象分割方法。

我们的系统由于其前馈体系结构而高效,可以在视频的一次传递中生成高质量的结果,而无需一次考虑多个帧。这与许多其他视频分割方法形成了鲜明对比,后者通常需要在多个帧甚至整个视频序列上进行全局连接,以获得相干结果。该方法可以处理不同类型的注释,在极端情况下,即使是简单的边界框作为输入也足够,实现竞争结果,使我们的方法在各种实际应用程序方面具有灵活性。

我们方法视频分割质量的关键是结合的离线/在线学习策略。在离线阶段,我们在图像掩膜上使用变形和粗化,以便训练网络,从其粗略估计中产生准确的输出掩膜。在线培训阶段将以前关于对象跟踪【12,29】的工作的想法扩展到视频分割,并使该方法能够轻松地针对新输入视频中感兴趣的对象进行优化。

其结果是一个单一的通用系统,尽管在所有视频中使用了相同的模型和参数,但在三个极其异构的视频分割基准上,它与大多数经典方法相比是有利的。我们提供了详细的消融研究,并探索不同数量和类型注释的影响,此外还讨论了拟议模型的扩展,从而进一步提高质量。

Related work

通过在像素级别跟踪执行视频对象分割的想法至少有十年的历史[36]。最近的方法将框跟踪与框驱动的分段交织在一起(例如TRS [48]),或通过图标签方法传播第一个帧分段。

本地传播JOTS[47]在连接超级像素和(通用)对象部分的相邻小时帧上构建图形,以解决视频标签任务。ObjFlow[44]在像素和超级像素上构建图形,使用基于connet的外观项,并将标签与光流估计交织在一起。BVS[26]不使用超级像素或建议,而是在帧之间制定一个全连接的像素级图,并有效地推断时空双边网格【7】顶点上的标签。由于这些方法仅在相邻帧之间传播信息,因此很难捕获长范围关系和确保全局一致的分段。

Global propagation

为了克服这些限制,一些方法提出了在视频帧之间使用远程连接[14, 23, 50]。特别是,我们与FCP [31]、Z15 [51]和W16 [45]进行了比较,它们在对象提议段上构建了全局图结构,然后推断出一致的分段。使用远程连接的方法的一个局限性是,它们必须在较大的图像区域上操作,如超级像素或对象建议,以获得可接受的速度和内存使用,从而损害了它们处理精细图像细节的能力。

Unsupervised segmentation

另一个工作系列执行一般的移动对象分割(在图像的所有部分),并选择与注释最匹配的事后时空管,例如NLC [14]和【16,24,48】。

相比之下,我们的方法避开了使用任何中间跟踪框、超级像素或对象建议,并在每帧的基础上进行,因此可以有效地处理甚至长序列的全部细节。我们的重点是将第一个帧分段向前传播到未来的帧上,使用在线微调的connet作为外观模型,用于在下一个帧中分割感兴趣的对象。

Box tracking

以前的一些工作研究了通过利用对象跟踪提高分割质量的方法,反之亦然[10, 13, 36, 48]。最近,最先进的跟踪方法基于手工特征(例如HOG)和冻结深度学习特征上的判别相关滤波器【11,12】,或者是基于convnet的跟踪器本身的权利【18,29】。

我们的方法与后一组关系最密切。GOTURN[18]建议离线训练一个convnet,以便根据上一帧中的对象位置和外观直接回归当前帧中的边界框。MDNet[29]建议使用convnet的在线微调来建模对象外观。

我们的培训策略的灵感来自离线部分的GOTURN和在线阶段的MDNet。与上述方法相比,我们的方法在像素级掩码而不是框上运行。与MDNet不同的是,我们不替换特定于域的层,而是微调每个单独视频序列可用注释上的所有层。

实例分割

在每一帧,视频对象分割输出单个实例分割。给定对象位置和大小的估计,自下而上的分割建议【34】或抓取切割【38】变体可用作形状猜测。此外,还提出了用于实例分段的特定convnet体系结构【17,32,33,49】。我们的方法使用convnet体系结构输出每帧实例分段,灵感来自其他域的工作,如[6, 40, 49]。并发工作【5】还利用connets进行视频对象分割。与我们的方法不同,它们的分段没有被引导,这可能会导致性能随着时间的推移而下降。此外,离线训练利用了众所周知难以获得的完整视频序列注释。

Interactive video segmentation

用于电影制作的视频编辑等应用程序通常需要超出当前最先进水平的准确性。因此,一些作品还考虑了视频分割与可变注释努力,允许使用点击【20,43,46】或笔划【1,15,52】进行人类交互。在本工作中,我们将考虑多个帧上的框或(完整)段注释。在第5节中,我们报告更改注释工作量(从每个视频一帧到所有帧)时的结果。

3 MaskTrack method

我们从一个新的角度来研究视频对象分割问题,我们称之为引导实例分割。对于每个新帧,我们希望将像素标记为感兴趣的对象/非对象,为此,我们构建在现有像素标记connet的体系结构之上,并训练它以生成每帧实例段。我们选择DeepLabv2 [8],但我们的方法与所选的特定体系结构无关。

在离线训练期间,通过馈送上一个’帧掩码估计来感兴趣的实例(第3.1节)。第二种是采用在线培训(第3.2节)来微调模型,使其更专业地适用于特定实例。

3.1 Learning to segment instances offline

为了引导像素标签网络分割感兴趣的对象,我们首先将convnet输入从RGB扩展到RGB+掩码通道(4个通道)。额外的遮罩通道旨在提供当前帧中对象的可见区域、其近似位置和形状的估计。然后,我们可以训练标签convnet,以提供对象的准确分割作为输出,作为输入给出当前图像和对象掩码的粗略估计。我们的跟踪网络实际上是一个“面具细化”网络。

有两个关键的观察使这种方法切实可行。首先,非常粗糙的输入掩码足以让我们训练过的网络提供合理的输出段。即使是一个大的边界框作为输入也会产生合理的输出(见第5.2节)。输入掩码的主要作用是将convnet指向要分段的正确对象实例。

其次,这种特定的方法不要求我们使用视频作为训练数据,如【3,18,29】中所做的。因为我们只使用蒙版作为额外的输入,而不是像【3,18】中那样的图像裁剪,所以我们可以轻松地从单帧实例分割注释合成训练样本。这允许从大量不同的图像集进行训练,并避免必须使用现有的(稀缺和小型)视频分割基准进行训练。

image.png
上图1显示了我们的整体架构。为了模拟前一帧输出掩码中的噪声,在离线训练期间,我们通过仿射变换变形注释掩码以及通过薄板样条【4】变形非刚性变形来生成输入掩码,然后是粗化步骤(扩张形态学操作),以去除对象轮廓的细节。我们将此数据生成过程应用于包含不同对象实例的大概10000图像的数据集,请参见下图2中的示例。在测试时间,给定时间t-1的掩码估计,我们应用扩张操作,并使用生成的粗糙掩码作为帧t中对象分割的输入。
image.png

仿射变换和非刚性变形用于建模物体在两个帧之间的预期运动。粗化允许我们生成类似于测试时间数据的训练样本,模拟由convnet从上一帧给出的输出掩码的斑点形状。这两个因素使估计更稳健,并有助于避免前面帧的错误积累。

在训练后,生成的convnet已经学会了执行引导实例分割,类似于DeepMask [32]和Hypercolumns [17]等网络,但我们可以使用任意输入掩码,而不是将边界框作为指导。培训细节见第4节。

当仅使用离线训练时,分段过程包括两个步骤:将上一个帧掩码粗化,然后馈入训练后的网络以估计当前帧掩码。由于对象有在空间中平滑移动的趋势,因此前一帧中的对象蒙版将在当前帧中提供一个很好的猜测,只需从前一帧复制粗糙蒙版就足够了。这种方法速度很快,已经提供了良好的结果。我们还实验了使用光流将掩模从一个帧传播到下一个帧,但发现光流误差抵消了增益。

只有离线训练的网络,推荐的方法允许实现与先前报告的结果相比的竞争性能(见第5.2节)。然而,通过整合在线培训策略,性能可以进一步提高。

3.2 Learning to segment instances online

为了进一步提高视频分割质量,我们借用并扩展了最初提出的跟踪想法。目前表现最好的跟踪技术【12,29】都使用某种形式的在线培训。因此,我们考虑通过将其作为第二项策略来改善结果。

其想法是在测试时使用第一个视频帧的分割注释作为额外的训练数据。使用此单帧注释的增强版本,我们继续微调模型,使其更专门地适用于手头的特定对象实例。

我们使用与离线培训类似的数据增强。除了输入蒙版的仿射和非刚性变形之外,我们还添加了图像翻转和旋转,以从一个帧生成多个训练样本。我们从这个单个注释生成了大概1000个训练样本,并继续微调先前离线训练的模型。

通过在线微调,网络权重部分捕获被跟踪的特定对象的外观。该模型旨在在一般实例分割(以便泛化到对象更改)和特定实例分割(以便利用视频帧中的公共外观)之间取得平衡。在线微调的细节见第4节。在我们的实验中,我们只使用注释框架(s)进行微调。

据我们所知,我们的方法是首次使用像素标签网络(如DeepLabv2 [8])来执行视频对象分割任务。我们命名我们的完整方法(使用离线和在线培训)MaskTrack。

3.3 Variants

此外,我们还考虑了模型的变形。首先,我们希望证明我们的方法是灵活的,可以处理不同类型的输入注释,在第一个框架注释中使用较少的监督。其次,运动信息可以很容易地集成到系统中,提高对象片段的质量。

Box annotation

在这里,我们讨论一个名为MaskTrackBox的变体,它将第一帧中的边界框注释作为输入监督,而不是分段掩码。为了处理此变体,我们在第一帧上使用第二个convnet模型,该模型使用边界框矩形作为输入掩码训练。从下一帧开始,我们使用标准的MaskTrack模型。

Optical flow

光流在MaskTrack的基础上,我们考虑使用光流作为额外信息源来指导分割。给定一个视频序列,我们使用EpicFlow [37]计算光流,其中流场匹配【2】和卷积边界[27]。与普通掩码跟踪并行,我们继续使用光流场的幅度作为输入图像(复制到三通道图像)计算第二个输出掩码。该模型按原样使用,无需再培训。虽然它已经在RGB图像上训练过,但这种策略之所以有效,是因为对象流幅度大致看起来像灰度对象,并且仍然捕获有用的对象形状信息,请参见图3中的示例。使用RGB模型可以避免在带有分段注释的视频数据集上训练convnet。

然后,我们通过平均两个并行网络给出的输出分数来融合(使用RGB图像和光流幅度作为输入)。我们将此变体命名为MaskTrack+Flow。光流通过RGB图像为MaskTrack提供补充信息,提高了整体性能。

4 Network implementation and training

下面,我们描述了我们方法的实施细节,即离线和在线培训策略以及数据增强。

Network

对于我们的所有实验,我们使用了DeepLabv2-VGG网络【8】的训练和测试参数。该模型是从在ImageNet[42]上预先训练的VGG16网络初始化的。对于第一卷积层中滤波器的额外掩码通道,我们使用高斯初始化。我们还尝试了零初始化,但没有观察到差异。

离线训练

我们的方法的优点是,它不需要在视频上花费昂贵的像素标签注释来训练convnet。因此,我们可以使用现有显著性分割数据集的图像和注释。我们考虑ECSSD[41]、MSRA10K [9]、SOD [28]和PASCAL-S [25]的图像和分割掩码。这导致了11 282个训练图像的聚合集。

额外通道的输入掩码是通过仿射变换和非刚性变形的二进制分割掩码生成的,如第3.1节所述。对于仿射变换,我们考虑随机缩放(对象大小的±5%)和平移(±10%移位)。非刚性变形是通过薄板样条线【4】完成的,使用5个控制点,并在原始分段遮罩宽度和高度的±10%裕度内随机移动x和y方向上的点。然后使用5像素半径的扩张操作粗化掩模。此遮罩变形过程应用于训练集中的所有对象实例。对于每个图像,生成两个不同的掩码,请参见图2中的示例。

对于训练,我们遵循【8】,并使用SGD与10个图像的迷你批处理和初始学习率0.001的多项式学习策略。动量和重量衰减分别设置为0.9和0.0005。网络经过20k迭代的训练。

在线训练

对于在线适应,我们使用从第一帧注释生成的训练样本微调先前在第一帧离线训练的模型,进行200次迭代。我们通过图像翻转和旋转以及通过仿射和非刚性变形来变形额外通道的注释掩码来增强第一帧,参数与离线训练相同。这导致了一组增强的1000训练图像。

网络的训练参数与离线训练相同,微调所有卷积层和全连接层。

在测试时,我们的基本MaskTrack系统以每帧约12秒的速度运行(DAVIS数据集的平均值,在所有视频帧上摊销在线微调时间),与ObjFlow [44]相比,这要快一个幅度(每帧需要2分钟,在DAVIS数据集上平均)。

5 Results

在本节中,我们描述了我们的评估方案(第5.1节),研究了我们系统不同组件的数量重要性(第5.2节),并报告了三个数据集(总共190个视频,第5.3节)与最先进技术的比较结果,以及比较不同数量的注释对最终质量的影响(第5.4节)。补充材料中提供了其他定量和定性结果。

【版权声明】本文为华为云社区用户翻译文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容, 举报邮箱:cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。