论文:SegNet

举报
xiaozr 发表于 2020/07/24 11:06:39 2020/07/24
【摘要】 Abstract SegNet网络具有以下几个优点:仅在训练好的模型上进行前向计算便可得到平滑的像素级预测;网络层数的加深有助于利用更大的context来进行预测;可以方便的查看任意层特征激活的影响。1.Introduction SegNet由encoder,decoder和softmax分类层组成。因为最深的特征提取层一般因为降采样都具有较小的分辨率,ad ho...

Abstract

        SegNet网络具有以下几个优点:仅在训练好的模型上进行前向计算便可得到平滑的像素级预测;网络层数的加深有助于利用更大的context来进行预测;可以方便的查看任意层特征激活的影响。

1.Introduction

        SegNet由encoder,decoder和softmax分类层组成。因为最深的特征提取层一般因为降采样都具有较小的分辨率,ad hoc 方法通过用一个block复制特征来上采样特征层到input dimension(例如,所有8*8 pixel的block都有相同的特征)。

        SegNet的每一层都具有固定数量的featrue map,当层数加深的时候,可以减少计算量。

2. Literature Review

        使用各种形式的CRF后处理只会增加sky,road,building等主导结构的准确率,对同样重要但是thin structured 比如,signs,poles,pedestrians具有较小的影响。

3. SegNet Architecture and Learning Scheme

image.png

        本文使用一个四层的SegNet,每一个encode都包含卷积,Relu激活,池化操作。每一个decode都使用记住位置的pool上采样,没有Relu操作,卷积操作的filter和encode的没有关系,这使得优化每一对encode和decode更加容易。最后一层是一个 soft-max classifer来对每个 piexel进行分类,K个channel。

        SegNet使用 ”flat” 的结构,例如每层都具有固定的 64 个feature map。有两个原因,一是避免参数过多,二是保证随着网络的加深(增加encode/decode pair),网络时间开销增加很小。这里,decoder的最后一层输出和临近输入的最近的encoder相同的尺寸而不是和输入相同的尺寸,之后再输入soft-max classifer层。在所有的卷积层我们使用的kernel size为7*7,这可以为每一个像素提供一个larger context(感受野)。

        我们使用local contrast normalization(LCN)来对输入进行预处理,好处有几点。一,矫正不均匀的场景亮度,增加阴影部分的对比度,二,强调有助于学习类别的shape的edges,三,对输出尺寸去相关性来提高收敛。

3.1 Training the SegNet

        我们使用逆类别频率权重来修正类别的不平衡。对每一个mini-batch迭代20次,对每一层进行10个epoch。训练encoder-decoder对来逼近input layer。Soft-max层可以trained first或者随机初始化,之后的实验中保持不变。之后我们保持低级e-d对,训练一个更深的encoder-decoder对,目标仍然是最小化label cross-entropy loss。我们的上采样层具有相同的任务。因为没有一个encoder学习feed-forward representation,所以测试的时候需要优化步骤产生feature来进行识别。一旦encoder-decoder栈训练完成,就不必要训练soft-max层了,因为它只依赖与线性判别函数。

3.2 Visualizing the SegNet

        在Zeiler的文章中feature activations使用反卷积传回image pixel space。SegNet网络使用解码网路对编码层的feature activation 到pixel label space。

        一个最近的研究表明,在深层网络的每一层,”direction,space(ensemble of feature activation)” 而不是Individual units( feature activations)编码了分类信息。所以我们想研究每一层特征激活的预测影响。

         对每一个层的每一个feature map,都计算出一个值,在64 个值中取最大的N个,将剩余的feature map 都置于零,对N个map解码上采样得到N个pixel-wise labelling。

         随着层数的加大,预测会变得越平滑,更有趣的是,top-1 layer 4th(将预测车的特征激活变为零)的特征预测了静态的场景类,之后再增加了车(增加车的特征激活后)。表明网络可以学习到spatial context/class location information。但是在shallower层不会得到这个结果,表明深层的网络的某些层对某一类的分类有更明显的作用。

image.png


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。