《深度学习之图像识别:核心技术与案例实战》 ——3.3.2 无监督数据增强

举报
华章计算机 发表于 2020/02/23 13:42:21 2020/02/23
【摘要】 本节书摘来自华章计算机《深度学习之图像识别:核心技术与案例实战》 ——书中第3章,第3.3.2节,作者是言有三  。

3.3.2  无监督数据增强

  有监督的数据增强是利用研究者的经验来设计规则,在已有的图片上直接做简单的几何变换、像素变化,或者简单的图片融合,有两个比较大的问题:其一,数据增强没有考虑不同任务的差异性;其二,数据增强的多样性和质量仍然不够好。因此无监督的数据增强方法逐渐开始被研究者重视,主要包括两类:

* 通过模型学习数据的分布,随机生成与训练数据集分布一致的图片,代表方法是生成对抗网络。

* 通过模型,学习出适合当前任务的数据增强方法,代表方法是Google研究的Auto Augment。

  1.生成对抗网络GAN

  GAN(Generative Adversarial Networks)是近几年无监督学习领域最大的进展,目前已经成为了一个全新的研究方向,在各类学术会议中其论文数量逐年增强,即将超越传统的CNN为代表的深度学习。由于GAN的内容超出了本书的内容,下面仅对其原理和结果进行简单展示。

  生成对抗网络是在生成模型G和判别模型D的相互博弈中进行迭代优化,它的优化目标如式(3.3)所示,其中x是真实样本,z是噪声,pdata(x)是真实分布,pz(z)是生成的分布。

             image.png  (3.3)

  可以看出,式(3.3)中包括两部分,,要求最大化判别模型对真实样本的概率估计,最小化判别模型对生成的样本概率估计,生成器则要求最大化D(G(z)),即最大化判别模型对生成样本的误判。如图3.14是用全卷积DCGAN方法生成的嘴唇样本的展示图,在比较早期且没有调优过的模型上,已经能生成很不错的样本。

 image.png

图3.14  DCGAN生成的嘟嘴嘴唇样本图

  2.AutoAugment方案

  AutoAugment是Google提出的自动选择最优数据增强方案的研究,这是无监督数据增强的重要研究方向。它的基本思路是使用增强学习从数据本身寻找最佳图像变换策略,对于不同的任务学习不同的增强方法,流程如下:

  (1)准备16个常用的数据增强操作。

  (2)从16个操作中选择5个操作,随机产生使用该操作的概率和相应的幅度,将其称为一个sub-policy,一共产生5个sub-polices。

  (3)对训练过程中每一个batch的图片,随机采用5个sub-polices操作中的一种。

  (4)通过模型在验证集上的泛化能力进行反馈,使用的优化方法是增强学习方法。

  (5)经过80~100个epoch后,网络开始学习到有效的sub-policies。

  (6)之后串接这5个sub-policies,然后再进行最后的训练。

  总地来说,就是学习已有数据增强的组合策略,对于门牌数字识别等任务,研究表明剪切和平移等几何变换能够获得最佳效果。而对于ImageNet中的图像分类任务,AutoAugment学习到了不使用剪切,也不完全反转颜色,因为这些变换会导致图像失真。AutoAugment学习到的是侧重于微调颜色和色相分布。

  可以看出,针对不同的任务使用不同的数据增强方案是很有必要的,比如数字识别就不适合做过度旋转,9和6无法分辨。人脸姿态也不适合做翻转,左、右无法分清。

  随着这个领域逐渐被关注,相信会有越来越多更优秀的研究方案诞生。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。