- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《深度学习：卷积神经网络从入门到精通》——1.7.2　案例数据

华章计算机发表于 2019/06/05 23:21:42 2019/06/05

【摘要】本书摘自《深度学习：卷积神经网络从入门到精通》——书中第1章，第1.7.2节，作者是李玉鑑、张婷、单传辉、刘兆英等。

1.7.2　案例数据

各章在介绍卷积神经网络的变种模型时，一般还给出了有关的应用案例。这些案例可能重复用到13个不同的数据集（大小信息和下载网址详见表1.2），分别是：MNIST（Mixed National Institute of Standard and Technology）、GTSRB（German Traff?ic Sign Recognition Benchmark）、RRSI（Road Remote Sensing Image）、ImageNet 2012、CIFAR-10、Oxford-17、AR、VOC 2007、SIFT Flow、ADE20K、COCO（Common Objects in Context）2014、CelebA和Gamerecords。

表1.2　案例数据的信息描述和下载网址

下面依次对每个数据集进行详细介绍。

1）MNIST是一个著名的手写数字数据集（如图1.9所示），

包括60?000个训练样本，10?000个测试样本。其中，每个样本图像的大小为28×28像素，仅包含一个单一的手写数字字符。像素的取值范围是[0, 255]，其中0表示黑，255表示白，中间值表示灰度级。本书在第3章和第10章使用了MNIST数据集。

2）GTSRB是一个德国交通标志数据集（如图1.10所示）。其中有两套训练集和测试集，都包含43类交通标志。一套有39?209个训练样本和12?630个测试样本，另一套有26?640个训练样本和12?569个测试样本。本书在第3章的交通标志识别案例中选用了前一套训练集和测试集，但从中去掉了少量样本，只用了39?200个训练样本和12?600个测试样本。GTSRB的图片格式是.ppm类型，大小在15×15到250×250之间不等，每个样本的长宽、兴趣区和标签等注释信息存放在相应的.csv文件

中。为了便于处理，需要把它们的格式先转换成.jpg图像类型，并归一化为32×32像素大小。

图1.10　GTSRB的交通标志图像举例

3）RRSI是一个交通路网遥感图像的数据集（如图1.11所示）。交通路网是指公路、城市道路和单位管辖范围允许社会机动车通行的地方，包括广场、公共停车场等用于公众通行的场所。RRSI实际上共有30幅大小不等的图像和2种标注。本书在第3章选用了11幅来训练，5幅来测试，进行路网自动提取。

图1.11　RRSI的交通路网遥感图像举例

4）ImageNet是一个拥有超过1500万幅图像、约22?000个类别的数据集（如图1.12所示），可用于大规模图像识别、定位和检测的研究。本书在第4章、第5章、第7章和第10章使用了2012年大规模图像视觉识别比赛（Large Scale Visual Recognition Competition，ILSVRC）的数据集ImageNet（即ImageNet 2012）设计图像分类案例。ImageNet 2012包含1?281?167幅训练图像和50?000幅测试图像，共有1000个类别。训练集中各类图像的数目可能不同，最少为732幅，最多为1300幅。而测试集中各类图像的数目都是50幅。

图1.12　ImageNet 2012的物体图像举例

5）CIFAR-10是一个常见物体图像数据集（如图1.13所示），分为10个类别，包含60?000幅32×32的彩色——图像，50?000幅用于训练，10?000幅用于测试。注意：根据表1.2中的网址下载的CIFAR-10是经过封装的，有3个版本：Python、Matlab和Binary。本书在第6章和第7章选用了Binary版本。

图1.13　CIFAR-10的物体图像举例

6）Oxford-17是一个鲜花图像数据集（如图1.14所示），其中包含1360幅图像，分为17类，每类80幅图像，大小不尽相同。本书在第6章随机选了1088幅图像作为训练集，其余272幅图像作为测试集，设计了GoogLeNet的鲜花图像分类案例。

图1.14　Oxford-17的鲜花图像举例

7）AR是一个人脸图像数据集（如图1.15所示），包含126个人在不同表情、光照和妆容条件下的4000多幅人脸图像，但只能下载100个人的2600幅。本书在第7章的CatNet性别分类案例中从中选择了40名男性和40名女性的2080幅图像作为训练集，其余的520幅图像作为测试集。

图1.15　AR的人脸图像举例

8）VOC 2007（即Pascal Voc 2007）是一个关于物体和场景的图像数据集（如图1.16所示），可以用于目标检测和语义分割任务。Pascal VOC的全名是“Pattern Analysis，Statistical Modelling and Computational Learning Visual Object Classes”，指的是模式分析、统计建模、计算学习视觉物体分类。该数据集包含训练验证集文件夹trainval和测试集文件夹test，分别包含5011幅和4952幅大小不同的图像。而且，这两个文件夹各自又都包含5个子文件夹：JPEGImages、Annotations、ImageSets、SegmentationClass和SegmentationObject。其中，JPEGImages存放的是所有图像，包含20个类别。Annotations存放的是xml格式的标签文件，每一个xml文件都对应于JPEGImages下的一幅图像。ImageSets存放的是具体的图像信息，下设3个子文件夹Layout、Main和Segmentation，分别存放人体部位数据（比如head、hand、feet等）、20类图像物体识别数据，以及可用于分割的数据。SegmentationClass和SegmentationObject用来存放分割后的图像，前者标注每个像素的类别，后者标注每个像素属于哪一个物体对象。本书在第8章的Faster R-CNN、YOLO和SSD的目标检测案例中使用了VOC 2007。

图1.16　VOC 2007的图像举例

9）SIFT Flow是一个关于不同场景的图像数据集（如图1.17所示），包含2688幅图像，其中2488幅训练图像、200幅测试图像。这些图像的像素共有33个语义类别标记（桥、山、太阳等）和3个几何类别标记（水平、竖直和天空）。本书在第9章的FCN图像分割案例中使用了SIFT Flow。

图1.17　SIFT Flow的图像举例

10）ADE20K是一个关于不同场景的图像数据集（如图1.18所示），包含20?210幅训练图像和2000幅测试图像。这些图像的像素被标记为3148个不同的语义类别。本书在第9章的PSPNet图像分割案例中使用了ADE20K。

图1.18　ADE20K的场景图像举例

11）COCO 2014是微软团队制作的一个图像数据集（如图1.19所示），可以用于物体识别、目标检测、语义分割和语义描述。其中，训练集有82?783幅图像，验证集和测试集分别有40?504幅图像。由于官方没有给出测试集的真实标签，所以本书在第9章的Mask R-CNN图像分割案例中使用训练集来学习，使用验证集来测试。

12）CelebA是一个名人人脸图像数据集（如图1.20所示），共包含10?177位名人的202?599幅人脸图像，其中训练集有162?770幅图像，验证集有19?867幅图像，测试集有18?962幅图像。每幅人脸图像有40个不同的二值属性标注，比如是否微笑、是否戴眼镜、是否戴帽子等。本书在第10章的DCGAN人脸生成案例中使用了CelebA。

13）Gamerecords是一个围棋棋局文件数据集（如图1.21所示），包含从2001年开始一直到2017年最新更新的棋局文件。本书在第12章AlphaGo的仿效围棋程序MuGo案例中，使用了2017年4月及之前发布的部分棋局文件，约22?959个。每个棋局文件大概包含200个着子位置，总共约有4?591?800个着子位置，其中4?491?800个着子位置被用来训练，其余的100?000个着子位置用来测试。

图1.19　COCO 2014的物体图像举例

图1.20　CelebA的人脸图像举例

图1.21　Gamerecords的棋局举例

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《深度学习：卷积神经网络从入门到精通》——1.7.2　案例数据

1.7.2　案例数据

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《深度学习：卷积神经网络从入门到精通》——1.7.2 案例数据

1.7.2 案例数据

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

《深度学习：卷积神经网络从入门到精通》——1.7.2　案例数据

1.7.2　案例数据