- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《深度学习之图像识别核心技术与案例实战》—3.1.2 CIFAR10和CIFAR100数据集

华章计算机发表于 2019/06/02 00:14:32 2019/06/02

【摘要】本书摘自《深度学习之图像识别核心技术与案例实战》一书中的第3章，第3.1.2节，作者是言有三。

3.1.2 CIFAR10和CIFAR100数据集

　　CIFAR10和CIFAR100数据集地址为http://www.cs.toronto.edu/~kriz/cifar.html，发布于2009年。

　　CIFAR10和CIFAR100数据集由Alex Krizhevsky、Vinod Nair和Geoffrey Hinton等人收集。Alex Krizhevsky后来提出了经典的神经网络AlexNet，是深度学习复兴的里程碑；Hinton则与3.1.1节中提到的Yann Lecun和Y.Bengio 3人并称为“深度学习三巨头”，可见研究员们在早期都做了非常重要的数据整理工作。

　　MNIST数据集有几个缺陷：

* 只有灰度图像；

* 类别少、多样性低，只是手写数字；

* 并非真实数据，没有真实数据的统计特性。

　　将MNIST数据集用于评估越来越深的神经网络当然不太恰当，因此需要更大的、真实的彩色数据集，需要更好的多样性。

　　CIFAR10被适时地整理出来，这也是一个只用于分类的数据集，是Tiny数据集的子集。后者是通过选取WordNet中的关键词，从Google、Flick等搜索引擎中爬取再经过去重后得到的。

　　CIFAR10数据集共有6万张彩***像，图像大小是32×32，共有10个类，每类有6000张图。其中，5万张图组成训练集合，训练集合中的每一类均等，都有5000张图，剩余的1万张图作为测试集合，测试集合中的每一类也均等，各有1000张图。

　　CIFAR10里的图片满足一些基本的要求：

* 都是真实图片而不是手稿等；

* 图中只有一个主体目标；

* 可以有部分遮挡，但是必须可辨识，这可以成为以后整理数据集的参考。

　　可以看出，CIFAR10数据集有点类似于类别多样性得到了扩充的MNIST彩色增强版，图像大小差不多，数据集大小也一样，类别也相等。

　　CIFAR10数据集的10个类别分别是airplane、automobile、bird、cat、deer、dog、frog、horse、ship和truck。其中，airplane、automobile、ship和truck类都是交通工具类图像，bird、cat、deer、dog、frog和horse都是动物类图，可以认为是两类完全不同的物种，这些都是从语义上完全可以区分的对象，因此CIFAR10的分类任务可以看作是一个跨物种语义级别的图像分类问题，类间方差大、类内方差小。

　　CIFAR100数据集则包含100个小类，每个小类包含600个图像，其中有500个训练图像和100个测试图像。与CIFAR10数据集不同的是，100个类被分组为20个大类，而每一个大类又可以细分为子类，因此每个图像带有1个小类的fine标签和1个大类的coarse标签。大类之间没有重叠容易区分，但是小类之间会有一定的相似性。

　　以第一个大类aquatic mammals为例，它是水生哺乳动物分类，包括beaver（河狸）、dolphin（海豚）、otter（水獭）、eal（海豹）、whale（鲸鱼），这些从外观看都是非常相似的物种，对分类模型会提出比CIFAR10更高的挑战。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《深度学习之图像识别核心技术与案例实战》—3.1.2 CIFAR10和CIFAR100数据集

3.1.2 CIFAR10和CIFAR100数据集

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《深度学习之图像识别核心技术与案例实战》—3.1.2 CIFAR10和CIFAR100数据集

3.1.2 CIFAR10和CIFAR100数据集

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品