《深度学习之图像识别:核心技术与案例实战》 ——3 深度学习中的数据
第3章 深度学习中的数据
数据是深度学习系统的输入,对深度学习的发展起着至关重要的作用,但很容易被很多人忽视,尤其是缺少实战经验的学习人员。关于深度学习中的数据集,目前缺乏系统性的相关资料,因此本章先系统地介绍深度学习中的数据集,从数据与深度学习的关系、几大重要方向的数据集、数据的增强方法及数据标注和整理等方面进行讲解。
本章将从以下4个方面详解深度学习中的数据问题。
* 3.1节讲述深度学习发展过程中的几个数据集,同时展示并分析数据集对深度学习的重要性。
* 3.2节讲述几大重要发展方向中的数据集。
* 3.3节讲述数据增强的方法。
* 3.4节讲述数据的收集整理及标注的相关问题。
3.1 深度学习通用数据集的发展
本节将重点阐述5个最常用的数据集,它们对于深度学习网络的发展,通用的分类、分割、目标检测任务的评测等具有其他数据集不可比拟的优势。
3.1.1 MNIST数据集
MNIST数据集地址为http://yann.lecun.com/exdb/mnist/,发布于1998年。
如果说LeNet网络是深度学习的hello world,那么MNIST就是深度学习数据集里的hello world。作者为Yann Lecun、Y.Bengio和Patrick Haffner,前两位是目前公认的深度学习复兴的“先驱”。
MNIST是一个手写数字的数据集,来自美国国家标准与技术研究所(National Institute of Standards and Technology,NIST)。样本来自250个不同人的手写数字,其中,50%是高中学生,50%是人口普查局的工作人员,数字从0~9,图片大小是28×28像素,训练数据集包含60000个样本,测试数据集包含10000个样本。
MNIST数据集由Chris Burges和Corinna Cortes搜集,他们在票据等图像中裁剪出数字,将其放在20×20像素的框中,并保持了长宽比例,然后放在28×28像素的背景中,这也是研究员Lecun提供的数据集版本,数字的重心在图的正中间。
原始的20×20像素的数字是二值图,在经过插值后放在28×28像素的背景下成了灰度图。在LeNet5网络中使用的输入是32×32像素,远大于数字本身尺度的最大值,也就是20×20像素。这是因为对于分类来说潜在的重要笔触信息,经过若干卷积后需要在最高层的检测子的感受野中心才能被有效地检测到,而LeNet-5经历了两个5×5的卷积,并且没有补0填充操作,最后卷积层的特征图大小10×10正好能够覆盖原图正中间20×20的区域。
- 点赞
- 收藏
- 关注作者
评论(0)