【未完待续】论文阅读《Every Frame Counts: Joint Learning of Video ...》

举报
lutianfei 发表于 2021/05/31 16:39:10 2021/05/31
【摘要】 Abstract视频语义分割的一个主要挑战是缺乏标记数据。 在大多数基准数据集中,仅对视频剪辑的一帧进行了注释,这使得大多数监督方法无法利用来自其余帧的信息。 为了利用视频中的时空信息,许多以前的工作使用预先计算的光流,对时间一致性进行编码以改善视频分割。 然而,视频分割和光流估计仍然被视为两个独立的任务。 在本文中,我们提出了一种用于联合视频语义分割和光流估计的新框架。 语义分割带来了语...

Abstract

视频语义分割的一个主要挑战是缺乏标记数据。 在大多数基准数据集中,仅对视频剪辑的一帧进行了注释,这使得大多数监督方法无法利用来自其余帧的信息。 为了利用视频中的时空信息,许多以前的工作使用预先计算的光流,对时间一致性进行编码以改善视频分割。 然而,视频分割和光流估计仍然被视为两个独立的任务。 在本文中,我们提出了一种用于联合视频语义分割和光流估计的新框架。 语义分割带来了语义信息来处理遮挡,以实现更健壮的光学流估计,而非遮挡的光学流提供准确的像素级时间对应关系,以确保分割的时间一致性。 此外,我们的框架能够通过联合训练同时利用视频中标记和未标记的帧,而在推理中不需要额外的计算。 大量实验表明,所提出的模型使视频语义分割和光流估计彼此受益,并且在两个任务的相同设置下均优于现有方法。

Introduction

视频语义分割作为机器人和自动驾驶等应用的重要研究课题,在很大程度上仍未解决。 当前的视频分割方法主要面临两个方面的挑战:低效率和缺乏标记数据。 一方面,由于视频的逐帧标记非常耗时,现有数据集在每个片段中仅包含一个带注释的帧,从而使问题更具挑战性。 另一方面,为了结合视频的时间信息,现有方法部署特征聚合模块来提高分割精度,这导致推理阶段的效率低下。

光流编码视频中跨帧的时间一致性,已被用于提高分割精度或加速分割计算。 例如,这些方法(Li、Shi 和 Lin 2018;Zhu 等人 2017 年;Shelhamer 等人 2016 年)重用前一帧中的特征来加速计算。 但是,这样做会降低分割的准确性,因此本文中未考虑此类方法。 另一方面,这些方法(Fayyaz等人2016; Jin等人2017; Gadde,Jampani和Gehler 2017; Nilsson和Sminchisescu 2018; Hur和Roth 2016)通过流动引导的特征聚合或序列对多个帧进行建模 模块以获得更好的分割性能,这增加了计算成本。 我们的动机是使用光流来利用语义特征空间中的时间一致性来训练更好的模型,而无需花费推理时间。

当前的视频分割数据集,例如 (Cordts et al. 2016) 仅注释视频中的一小部分帧。 现有方法侧重于结合连续帧的特征以实现更好的分割性能。 这些方法只能使用视频中的一小部分帧。 此外,还需要额外的数据来在流引导方法中训练特征聚合模块(FlowNet)(Nilsson 和 Sminchisescu 2018)。

为了解决视频语义分割的两个挑战,我们提出了语义分割和光流估计的联合框架,以充分利用未标记的视频数据并克服预计算光流的问题。 语义分割引入了有助于识别遮挡的语义信息,以实现更稳健的光流估计。 同时,非遮挡光流提供准确的像素级对应关系,以保证分割的时间一致性。 这两个任务通过设计网络中的时间和空间一致性相关联。 因此,我们的模型受益于在没有特征聚合的情况下学习视频中的所有帧,这意味着在推理中没有额外的计算。 据我们所知,这是第一个以端到端的方式联合学习这两个任务的框架。

我们总结了我们的贡献如下:(1)我们设计了一个新的框架,用于视频语义分割和光流估计的联合学习,无需额外的推理计算。 所有视频帧都可用于具有建议的时间一致约束的训练。 (2) 我们设计了新的损失函数来处理两个任务中的流遮挡,这提高了训练的鲁棒性。 (3)我们的模型使视频语义分割和光流估计互利,并且在两个任务的相同设置下优于现有方法。

Related Work

Video Segmentation

与语义分割相比,视频语义分割考虑了连续帧的时间一致性。 现有的方法主要分为两类。 第一类旨在通过重用先前框架中的功能来加快计算速度。 谢尔哈默等人。 提出了一种发条网络(Shelhamer et al.2016),该网络适用于多级FCN,并直接重用先前帧的第二或第三级功能以节省计算量。 (Zhu et al. 2017) 提出了通过 FlowNet 中学习的光流将高级特征从关键帧传播到当前帧的深度特征流 (Dosovitskiy et al. 2015)。 (Li, Shi, and Lin 2018) 提出了一个网络,使用空间变异卷积来自适应地传播特征,并提出一个自适应调度器来确保低延迟。 但是,这样做会导致精度下降,本文不考虑。

另一类侧重于通过流引导的特征聚合或某些序列模块来提高分割的准确性。 我们的模型属于这一类。 (Fayyaz et al. 2016) 提出通过时空 LSTM 模块组合连续帧的 CNN 特征。 (Gadde、Jampani 和 Gehler 2017) 提出了一个 NetWarp 模块,将先前帧与流包裹的特征以及当前帧的特征结合起来以预测分割。 (Nilsson and Sminchisescu 2018) 提出了门控循环单元来传播语义标签。 (Jin et al. 2017) 提出通过预测特征学习模型 (PEARL) 以无监督的方式从未标记的视频数据中学习。 然而,这种方法需要额外的特征聚合模块,例如流变形模块和序列模块,这大大增加了推理阶段的计算成本。 此外,这些方法的特征聚合模块只能处理带注释的帧和它周围的几个帧,而其余的帧在训练中大部分被丢弃。 相比之下,我们的方法有两个并行分支用于语义分割和光流估计,它们在训练中相互加强,但在推理中没有增加额外的计算。 此外,我们还可以在时间上一致的约束下,利用所有视频帧来训练我们的模型。

还有其他具有不同设置的视频分割方法。 (Kundu、Vineet 和 Koltun 2016)在优化的特征空间上应用密集随机场进行视频分割。 (Chandra、Couprie 和 Kokkinos 2018)在深高斯条件随机场上引入了密集连接的时空图。 (Hur 和 Roth 2016)基于具有场景超像素化的 8-DoF 分段参数模型估计光流和时间一致的语义分割。 然而,基于超像素的迭代方法无法从无监督数据中受益,也无法进行端到端优化。 我们的模型可以从无监督数据中受益,并以端到端的深度方式进行训练,使这两个任务互惠互利。 (Cheng et al. 2017) 提出在多任务框架中学习视频对象分割和光流,该框架侧重于分割实例级对象掩码。 光流和对象分割都是以监督方式学习的。 相比之下,我们的任务是对整个图像进行语义分割,我们的光流是无监督学习的。 这两个任务不能直接比较。

Optical Flow Estimation

光流估计需要找到两个输入图像之间的对应关系。 FlowNet和FlowNet2.0(Dosovitskiy et al.2015; Ilg et al.2017)通过完全卷积神经网络直接计算每个像素上的密集流预测。 PWC-Net (Sun et al. 2018) 使用当前的光流估计来扭曲第二张图像的 CNN 特征。 (Patraucean、Handa 和 Cipolla 2015)介绍了一种基于端到端架构的时空视频自动编码器,该架构允许对运动预测进行无监督训练。 (Jason、Harley 和 Derpanis 2016;Meister、Hur 和 Roth 2018;Ren 等人 2017a)利用空间变换器网络(Jaderberg 等人,2015 年)来扭曲当前图像并测量光度恒定性。 (Wang et al. 2018; Janai et al. 2018) 在光流的无监督学习期间明确地模拟遮挡。 在这项工作中,通过在我们提出的方法中引入语义信息来完善遮挡掩码。 此外,无监督光流估计框架可以进一步扩展,以端到端的方式同时估计单眼深度、光流和自我运动(Yin and Shi 2018)。 (Ren et al. 2017b) 提出了一个级联分类框架,它通过迭代改进语义分割掩码、立体对应、3D 刚性运动估计和光流场来准确地模拟 3D 场景。

Methodology

我们的框架 EFC 模型(每帧计数)以端到端的方式同时学习视频语义分割和光流估计。 在下文中,我们首先概述我们的框架,然后详细描述其每个组件。

image.png

图2:我们的联合学习框架的总体流程。 块代表我们模型的特征图,灰色虚线代表时间一致的约束。 灰色实线表示遮挡处理模块的分割图不一致。

Framework Overview

我们的 EFC 模型的概述如上图 2 所示。我们模型的输入是一对图像 Ii, Ii+t,从附近的视频帧中随机选择,t ∈ [1, 5]。 如果 Ii 或 Ii+t 具有语义标签,我们可以通过带有语义标签的监督约束以及来自近帧对应的无监督约束来更新网络的权重。 它跨帧传播语义信息,并联合优化语义分量和光流分量以相互加强。 否则,只能利用无监督的一致性信息,我们的网络可以从光流组件的改进中受益。

具体来说,我们的网络由以下三部分组成,即共享编码器部分、分割解码器部分和流解码器部分。 共享编码器包含 ResNet 的第 1-3 层(He 等人,2016 年)。 由于表示之间的语义和流信息交换,与(Zhao et al. 2017)相比,提高了表示能力,因此很有帮助。 如果存在语义标签,则从 ResNet 的第 4 层采用语义解码器。 流解码器通过相关层(Ilg et al. 2017)结合来自帧 Ii 和 Ii+t 的中间特征来预测光流。 应用流结果的平滑度损失来提高流质量。

为了在没有光流标签的情况下实现端到端的跨帧训练,我们设计了一个时间一致性模块。 它可以通过预测的流对输入图像对和中间特征对进行扭曲,并相应地将扭曲误差作为光度损失和时间一致性损失进行回归。 为了在预测光流无效的情况下进一步提高重度遮挡的鲁棒性,我们引入了具有遮挡感知损失的遮挡处理模块。 遮挡掩码也是端到端学习的,并随着更好的预测光流而改进。 下面,我们将详细介绍我们模型的各个模块。

Temporallly Consistent Constraint

在光流估计中通常采用光度一致性,其中第一帧通过光流扭曲到下一帧,扭曲损失可用于训练网络。 在这项工作中,我们将光度损失推广到特征域。 由于卷积神经网络是平移不变的,因此相邻帧的特征图也应遵循时间上一致的约束。

更具体地说,对于一对视频帧 Ii和Ii+t,我们将它们输入共享编码器网络以提取它们的特征图 Si和Si+t。 由于我们同时学习了正向和反向光流Fi→i+t,Fi+t→i,然后我们通过流Fi→i+t,Fi+t→i,将Si+t,Si扭曲为S’i,S’i+t 以保持S’与特征图S一致。如下式:
image.png

我们采用可微双线性插值变形。 请注意,扭曲方向与流动方向不同。 但是,该流量在闭塞区域中可能是无效的。 因此,我们通过检查一个像素是否在相邻帧中具有相应的像素来估计遮挡图 Oi_est和Oi+t_est。 使用遮挡图,我们避免对遮挡区域中的像素进行惩罚。 因此,时间一致性损失被定义为
image.png
其中 Sxy 是位置 (x, y) 处的特征。 请注意,我们在两个方向上都采用了扭曲约束进行训练。
时间一致性损失在特征空间上引入了时间正则化,从而允许我们的模型使用未标记的视频数据进行训练。 当标签不可用时,我们的模型仍然可以从时间一致性约束中受益。

image.png
图 3:我们的模型中应用了两种类型的遮挡遮罩。 © 显示了 (a) 的红色矩形区域内的放大遮挡遮罩。 (d) 是由非遮挡流分支估计的遮挡掩码 Oest。 (e) 是从分割图的不一致中获得的遮挡掩码 Oseg。 错误掩码 Oerror 显示在 (f ) 中。

Occlusion Estimation

我们的模型以自我监督的方式学习遮挡。 这里定义的咬合是一个通用术语。 通过遮挡,可以得出两个给定帧中光度学不一致的像素,这可能是由于对象的实际遮挡,图像的进出,视角的变化等引起的。遮挡和光流估计网络共享大多数参数 . 对于非遮挡流分支中的每个块,我们添加了两个具有很少通道的卷积层和一个用于遮挡估计的 sigmoid 层。 通过向后的光流Fi + t→i,我们可以计算出两个帧Ii,Ii + t在像素级之间的对应关系。 我们将光流分解为垂直Fi+t→i(y,x,1)部分和水平Fi+t→i(y,x,0)部分。 然后我们有

image.png

后向流Fi+t→i的遮挡掩码ˆOi可以表示为: ˆOi(yi,xi) = 0 如果有对应的像素(yi+t,xi+t)在Ii+t(0≤xi+t< w & 0≤yi+t< h),否则 ˆOi(yi,xi) = 1。然后使用带惩罚的交叉熵进行遮挡估计。 网络模仿 ˆO,并通过我们的损失函数 Locc 产生更精细的掩码:

image.png

由于我们不计算遮挡区域的一致性损失,因此网络倾向于预测更多的遮挡区域。所以使用第二个惩罚项来防止过度的遮挡预测。α越大,对遮挡区域的惩罚越大,预测的遮挡区域越小。我们尝试了0和1之间的不同α值,发现0.2是最好的。

Optical Flow Estimation

与(Yin and Shi 2018; Jason,Harley and Derpanis 2016; Wang et al.2018)类似,可以以自我监督的方式学习光学流。 更具体地说,第一帧可以通过预测的光流扭曲到下一帧,并且利用光度一致性和运动平滑度进行训练。 光度一致性是重建两帧之间的场景结构,运动平滑是滤除错误的预测并保留清晰的细节。 在这项工作中,我们观察到语义信息可以通过联合训练来帮助估计光流。

如图2所示,语义将有关语义的信息映射到相关像素的可能的物理运动上。 此外,我们生成错误掩码,指出光流的不准确区域,用于鲁棒光流估计。 如图 3 所示,我们首先计算两个分支之间的不一致mask Oseg= (M≠M’),其中 M’ 是使用双线性插值的扭曲分割预测。 然后我们将错误掩码Oerror定义为:
image.png

由于不准确的光流,两个分割图的不一致掩码应包含遮挡掩码和偏移量。 为了统一这两个掩码,我们简单地将错误掩码区域的权重加倍,并在光流学习期间忽略遮挡掩码区域。 我们的光度损失 Lpm 可以用以下公式计算:
image.png

其中I’是扭曲图像,SSIM是每像素结构相似性指数测量(Wang et al. 2004),G表示损失图,表示惩罚不同位置的权重。 这里我们采用两种常用度量的线性组合来估计原始图像和扭曲图像的相似度。 直观地说,完美匹配的像素表明估计的流量是正确的,并且在光度损失中受到的惩罚较少。 β 取为 0.85,如(Yin and Shi 2018)。 遵循(Jason、Harley 和 Derpanis2016;Yin 和 Shi 2018),平滑度损失定义为:

image.png
其中 ∆ 是向量微分算子。 请注意,光度和平滑度损失都是在多尺度块和两个方向上计算的。

Joint Learning

对于具有基本事实 Mgt 的帧,我们使用标准对数似然损失进行语义分割:
image.png

总而言之,我们整个框架的最终损失是:
image.png
其中 λcons、λocc 和 λsm 表示多个损失的权重。 因此,我们的整个框架都是端到端的训练。

【版权声明】本文为华为云社区用户翻译文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容, 举报邮箱:cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。