实时语义分割
传统语义分割将研究重点定位于提高模型的分割表和评价指标,而不考虑摸型的计算效率,因此不利于模型被部署于自动驾驶、盲人视觉辅助等实时性要求极高的环境感知应用。
实时语义分割对比非实时语义分割,如下图所示:
红色虚线右侧代表实时语义分割模型,横坐标代表每秒的运算帧数,纵坐标代表模型在Cityscape测试集上的表现指标。实时语义分割随着ENet 的问世而得到了广泛研究。
实时语义分割研究方案主要分为三类:
1)设计轻量化模块结构,如DUpsampling模块、ERF-PSPNet采用的残差分解卷积模块等;
2)设计新型网络设计范式,如ICNet 和 BiSeNet采用的多支路进行信息补充的结构、将超分辨率算法引入指导低分辨率图像语义分割的方式、利用知识蒸馏指导实时语义分割网络的训练等;
3)采用轻量级基础网络提取低级特征信息,如SwiftNet和DFANet等。
ENet:采用残差网络结构和轻量的模块设计提高了模型的计算效率。ERFNet 和 ERF-PSPNet 利用残差分解卷积模块在保证良好特征抽取能力的基础上进一步减少计算参数从而提升计算效率。此外,基于数据的上采样池化模块(DUpsampling)使得模型可以在更小的特征图上恢复信息,进而可以在低分辨率特征图上获取信息,从而减少运算量。
ICNet 和 BiSeNet:为了让实时语义分割的输出结果在兼具运算效率的同时具有更加精细的空间细节,学界对ICNet和BiSeNet这类多支路网络结构进行了大量研究。它们的具体思路是将网络结构分成两条支路,其中一条深层网络支路用来处理低分辨率的图像,去提取出图像的语义信息从而减少计算量;另一条浅层网络支路用来处理高分辨率图像,去获取低级的空间分布特征信息从而修正语义信息的空间精细程度,最终融合层将各支路信息通过相关模块进行特征融合。这类网络在输出精细程度、语义信息提取能力和计算效率上进行了良好的平衡。
2018 年,Yu 等人提出了 BiSeNet(Bilateral Segmentation Network)将语义分割 任务分为两大路径:空间路径和上下文路径。其中空间路径主要用于解决空间信息的缺 失,而上下文路径则用于解决感受野缩小的问题。BiSeNet 主要用于实时语义分割,在 精度和速度上力求兼顾。
超分辨算法:Wang等人将超分辨算法和语义分割算法相结合去提升计算效率,其通过共享编码器的方式有效地提取低分辨率图像的低级特征信息,再利用超分辨算法支路在模型训练过程中修正语义分割网络的输出精细程度,并在最终的前向传播过程中将超分辨支路去除从而可以使得语义分割模型在低分辨率图像上完成特征提取和整合。
轻量级特征提取网络:此外,一系列以轻量级特征提取网络为基础网络的实时语义分割模型被广泛提出并投入应用,SwiftNet采用ResNet-18为基础网络并结合U-Shape型编码器-解码器结构达到了良好的分割表现;DFANet采用改良的Xception网络作为基础网络,并让特征图多次经过该特征提取网络进而得到不同分辨率下的特征图从而进一步提取有效的语义信息。
2019 年,越来越多的研究者在考虑语义分割任务的实时性与精度的兼顾。例如,旷视科技提出的 DFANet(Deep Feature Aggregation Network) 就通过所设计的级联子网 和级联子阶段来聚合相应的特征,同时具有实时性和准确性。
- 点赞
- 收藏
- 关注作者
评论(0)