语义分割技术基础——解码器
前言
语义分割的本质是像素级别的物体分类任务,其基本结构可以被概括为编码器-解码器结构(Encoder-Decoder)。输入图像经过“编码”阶段提取出颜色、纹理、边缘等低级特征,再经过“解码”阶段将获取的低级特征信息进行加工获取富含语义信息和物体分类相关的高级特征信息,然后通过相关上采样技术将下采样后的特征图上采样回原始输入图像分辨率,最终经过分类层完成像素级别的物体分类任务。
语义分割解码器阶段主要的任务是将经过编码器阶段的下采样后的低级特征信息进行处理,进而提取富含语义信息的高级特征信息,并通过相关技术将其分辨率恢复为输入图像的分辨率大小。
其主要核心技术目标是解决上采样问题。语义分割的上采样技术主要包括插值、反卷积和反池化操作。
插值:插值操作是语义分割常见的技术方案,主要包括最近邻插值、双线性插值和双立方插值。为了保证特征图的连续性和良好的计算效率,双线性插值是常用的方法。
反池化:反池化是池化操作的反向操作,可以在不引入额外参数的情况下实现特征图尺寸的恢复。SegNet是第一个运用反池化技术的语义分割模型。反池化过程如下图所示,
“编码”阶段利用最大池化层获取降采样特征图,同时保留了相应的位置索引信息;“解码”阶段利用该索引信息将特征图的信息和分辨率进行恢复。
反卷积:又称为转置卷积,最早由FCN使用而被广泛运用在语义分割模型中。反卷积并不是卷积运算的逆运算,相反它是一种特殊的卷积运算。它先按照一定的比例通过对特征图补零来扩大输入特征图的尺寸,接着再利用和普通卷积一样的运算过程进行正向卷积。
如下图所示,3*3特征图经过3*3卷积核大小,步长为1的反卷积过程。其中,橙色区域代表输入3*3特征图;灰色区域代表卷积操作的区域;蓝色区域代表经过反卷积之后的5*5特征图。
首先通过对输入分辨率为3*3的特征图进行补零,获取7*7的特征图(虚框区域),再经过一个3*3卷积核进行普通卷积运算即可得到5*5的特征图。
图像经过“编码”和“解码”阶段特征重构后,模型的最后阶段将利用一个输出通道数为类别数的普通卷积操作进行特征选取以完成语义分割。
- 点赞
- 收藏
- 关注作者
评论(0)