《深度学习之图像识别:核心技术与案例实战》 ——3.3.2 无监督数据增强
3.3.2 无监督数据增强
有监督的数据增强是利用研究者的经验来设计规则,在已有的图片上直接做简单的几何变换、像素变化,或者简单的图片融合,有两个比较大的问题:其一,数据增强没有考虑不同任务的差异性;其二,数据增强的多样性和质量仍然不够好。因此无监督的数据增强方法逐渐开始被研究者重视,主要包括两类:
* 通过模型学习数据的分布,随机生成与训练数据集分布一致的图片,代表方法是生成对抗网络。
* 通过模型,学习出适合当前任务的数据增强方法,代表方法是Google研究的Auto Augment。
1.生成对抗网络GAN
GAN(Generative Adversarial Networks)是近几年无监督学习领域最大的进展,目前已经成为了一个全新的研究方向,在各类学术会议中其论文数量逐年增强,即将超越传统的CNN为代表的深度学习。由于GAN的内容超出了本书的内容,下面仅对其原理和结果进行简单展示。
生成对抗网络是在生成模型G和判别模型D的相互博弈中进行迭代优化,它的优化目标如式(3.3)所示,其中x是真实样本,z是噪声,pdata(x)是真实分布,pz(z)是生成的分布。
(3.3)
可以看出,式(3.3)中包括两部分,,要求最大化判别模型对真实样本的概率估计,最小化判别模型对生成的样本概率估计,生成器则要求最大化D(G(z)),即最大化判别模型对生成样本的误判。如图3.14是用全卷积DCGAN方法生成的嘴唇样本的展示图,在比较早期且没有调优过的模型上,已经能生成很不错的样本。
图3.14 DCGAN生成的嘟嘴嘴唇样本图
2.AutoAugment方案
AutoAugment是Google提出的自动选择最优数据增强方案的研究,这是无监督数据增强的重要研究方向。它的基本思路是使用增强学习从数据本身寻找最佳图像变换策略,对于不同的任务学习不同的增强方法,流程如下:
(1)准备16个常用的数据增强操作。
(2)从16个操作中选择5个操作,随机产生使用该操作的概率和相应的幅度,将其称为一个sub-policy,一共产生5个sub-polices。
(3)对训练过程中每一个batch的图片,随机采用5个sub-polices操作中的一种。
(4)通过模型在验证集上的泛化能力进行反馈,使用的优化方法是增强学习方法。
(5)经过80~100个epoch后,网络开始学习到有效的sub-policies。
(6)之后串接这5个sub-policies,然后再进行最后的训练。
总地来说,就是学习已有数据增强的组合策略,对于门牌数字识别等任务,研究表明剪切和平移等几何变换能够获得最佳效果。而对于ImageNet中的图像分类任务,AutoAugment学习到了不使用剪切,也不完全反转颜色,因为这些变换会导致图像失真。AutoAugment学习到的是侧重于微调颜色和色相分布。
可以看出,针对不同的任务使用不同的数据增强方案是很有必要的,比如数字识别就不适合做过度旋转,9和6无法分辨。人脸姿态也不适合做翻转,左、右无法分清。
随着这个领域逐渐被关注,相信会有越来越多更优秀的研究方案诞生。
- 点赞
- 收藏
- 关注作者
评论(0)