《深度学习笔记》六

举报
黄生 发表于 2023/12/19 22:49:13 2023/12/19
【摘要】 图像分割是继图像分类和目标检测之后的计算机视觉的第三大任务。相较于分类和检测,分割的任务粒度更加细化,需要做到逐像素级别的分类。图像分割可分为语义分割和实例分割。图像分割主要包括语义分割(Semantic Segmentation)和实例分割(Instance Segmentation)。语义分割是对图像中的每个像素都划分出对应的类别,即实现像素级别的分类;而类的具体对象,即为实例,那么实例...

图像分割是继图像分类和目标检测之后的计算机视觉的第三大任务。

相较于分类和检测,分割的任务粒度更加细化,需要做到逐像素级别的分类。图像分割可分为语义分割实例分割

图像分割主要包括语义分割(Semantic Segmentation)和实例分割(Instance Segmentation)。

语义分割是对图像中的每个像素都划分出对应的类别,即实现像素级别的分类;

而类的具体对象,即为实例,那么实例分割不但要进行像素级别的分类,还要在具体的类别基础上区别开不同的个体。

例如,图像中有甲、乙、丙多个人,那么他们的语义分割结果都是人,而实例分割结果却是不同的对象。

另外,为了同时实现实例分割与不可数类别的语义分割,相关研究又提出了全景分割(Panoptic Segmentation)的概念。

看图比较容易他们的联系和区别:

​语义分割输入是一张原始的RGB图或单通道图像,但是输出不再是简单的分类类别或目标定位,而是带有各个像素类别标签的与输入具有相同分辨率的分割图像。 
简单来说,语义分割的输入、输出都是图像,而且是同样大小的图像。

类似于处理分类标签数据,对预测分类目标采用像素上的one-hot编码,即为每个分类类别创建一个输出的通道。 

​ 将分割图添加到原始图像上的叠加效果是什么样的,如下图。

Mask,在图像处理中将其译为掩码,如Mask RCNN中的Mask。

Mask可以理解为将预测结果叠加到单个通道时得到的该分类所在区域。所以,语义分割的任务就是输入图像经过深度学习算法处理得到带有语义标签的同样尺寸的输出图像。

想把Transformer结构用于视觉任务,就需要一种调整所切图片大小的方法。

于是,提出一个可变形的Transformer(DPT)结构,能够自适应地划分图片。

这种思路和“硬”切分图片相比,性能效果上的提高也是“肉眼可见”。

这种效果,从图像上对比可以看的很清楚:

看看这张老鹰的照片,留意老鹰身体各个部位的细节,鹰尾、鹰爪……

再看看2次切图的对比,上面的1次切图是大锅饭平均主义、下面的切图则是按需分配,进步太大了。

总结:可变形的Transformer是紫东太初大模型视觉编码部分的核心基础技术。

一般的社会、或组织形态,都会有一个中心,大家向这个中心对齐、看齐。

这个中心是大家认可的。

举个不太恰当的例子,各家银行通过银联互通,那么,银联就是大家认可的中心,银行都向银联看齐,如果出现对不齐,都以银联为准,而自己去调整自己的差错。

这个中心是不能乱的

那在AI的多模态,比如图文音三个模态,这三个模态,究竟是哪个对齐哪个?

紫东太初大模型的技术路线,是把图像、音频两个模态对齐于文本,统一在语言空间。

放眼全球,大模型多模态技术路线各有千秋。美国Meta 公司在开源大模型的路上一骑绝尘,开源大模型LLaMA成功出道,遂又开源多模态大模型ImageBind。

国外公司的大模型技术路线,雄心勃勃,一个模型包括的模态种类多达六种。

而ImageBind的路径是将视觉表征作为目标,统一在视觉空间上。

多模态大模型中不同类型数据所含有的“信息含金量”不同,希望彼此之间补过拾遗,弃短用长。究竟统一于哪种类型,是科学家决策的重点之一,既是战略观点,也是定位。

换个角度理解,这既是学术观点不同,也是路线之争。

由于语义分割的输入、输出都是图像,所以之前的图像分类和目标检测网络在分割任务上就不大适用了。
在此前的任务中,经过多层卷积和池化之后输出的特征图尺寸会逐渐变小,

所以对于语义分割任务,需要将逐渐变小的特征图还原到输入图像的大小。

现有的语义分割等图像分割模型的一种通用做法就是采用编码和解码的网络结构,此前的多层卷积和池化的过程可以视为图像编码的过程,即不断地下采样的过程。

那解码的过程就很好理解了,可以将解码理解为编码的逆运算,对编码的输出特征图进行不断地上采样逐渐得到一个与原始输入大小一致的全分辨率的分割图。

全卷积网络(Fully Convolutional Networks,FCN)可以算是对图像进行像素级分类的开山之作,率先给出了语义级别的图像分割解决方案。

总体而言,FCN遵循编码-解码的网络结构模式,使用AlexNet作为网络的编码器,采用双线性插值对编码器最后一个卷积层输出的特征图进行上采样,直到特征图恢复到输入图像的分辨率,因而可以实现像素级别的图像分割。

FCN有FCN-8、FCN-16和FCN-32三个版本。

UGNet作为FCN的一种改进和发展,Ronneberger等人通过扩展网络解码模块的容量来改进全卷积网络结构,并给编码和解码模块添加了同层分辨率级联来实现更精准的像素边界定位。

UGNet在海拉细胞分割上的效果如图所示。

(a)为原始图像;

(b)为不同颜色标注的Ground Truth;

©为UGNet生成的分割效果,其中白色为前景部分,即海拉细胞,黑色为背景部分;

(d)是对损失函数改进后使UGNet能够更好地学习细胞间的边界像素。

基于深度学习的图像分割在医疗领域中的应用越来越广泛,U-Net似乎就是其中的体现之一,U-Net在大量医学影像分割上的效果使得这种语义分割的网络架构非常流行,近年来在一些视觉比赛的冠军方案中也随处可见U-Net的身影。
V-Net可以理解为3D版本的U-Net, 适用于三维结构的医学影像分割。V-Net能够实现3D图像端到端的图像语义分割,加了一些像残差学习一样的Trick来进行网络改进,总体结构上与U-Net差异不大。

近年来,语义分割任务的主要技术点已从早期以U-Net为代表的解决下采样造成的分辨率损失问题逐渐转移到以DeepLab系列网络为代表的如何利用多尺度信息的问题上。 所以技术一直在演进,学海无涯呀~

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。