【学习语义分割】SegNet网络学习
引用:https://www.youtube.com/watch?v=CxanE_W46ts
参考:http://mi.eng.cam.ac.uk/projects/segnet/tutorial.html
1.SegNet的介绍:
在语义分割领域中应用编码器-解码器(encoder-decoder)的结构。
encode(编码器):使用池化层逐渐缩减输入数据的空间维度。
decoder(解码器):通过反卷积层等网络层逐渐恢复目标的细节和空间维度。
2.网络结构:
3.encoder-decoder的结构的解释:
(1)encode:在给定输入图像后,通过神经网络学习得到输入图像的特征图谱
在编码器处,执行卷积和最大池化
在进行2×2最大池化时,存储相应的最大池化索引(位置)
(2)decoder:在编码器提供特征图后,逐步实现每个像素的类别标注
在解码器处,执行上采样和卷积。最后,每个像素送到 softmax 分类器
在上采样期间,调用相应编码器层处的最大池化索引以进行上采样
最后,使用 K 类 softmax 分类器来预测每个像素的类别
使用最大池化的索引进行上采样
4.SegNet与FCN的对比:
SegNet和FCN思路比较相似,不同的是SegNet在FCN的基础上增加了解码器。
解码器使用从编码器传输的较大池化索引(位置)对其输入进行非线性上采样,从而使得上采样不需要学习,生成稀疏特征映射。然后,使用可训练的卷积核进行卷积操作,生成密集的特征图。最后的解码器输出特征映射被送入soft-max分类器进行像素级分类。
图引用知乎https://zhuanlan.zhihu.com/p/36525939
5.SegNet效果图:
SegNet通过监督学习来学习预测像素级类标签。
(1)输入图像:
(2)SegNet基本分割:
(3)SegNet细分:
- 点赞
- 收藏
- 关注作者
评论(0)