《深度学习之图像识别:核心技术与案例实战》 ——3.1.5 Microsoft COCO数据集
3.1.5 Microsoft COCO数据集
Microsoft COCO数据集地址为http://cocodataset.org/,发布于2014年,由微软亚洲研究院整理。
Microsoft COCO数据集是对PASCAL VOC和ImageNet数据集标注而诞生的,同样可以用于图像分类、分割和目标检测等任务,共30多万的数据。COCO数据集分为91个类,以4岁小孩能够辨识为基准,其中有82个类超过5000个instance(instance即同一个类不同的个体,比如图像中不同的人)。
从COCO的全称Common Objects in Context可以看出,这个数据集以场景理解为目标,特别是选取比较复杂的日常场景,相比于PASCAL VOC项目的建立是为了推进目标检测任务,COCO的建立则是为了推进自然背景下的定位与分割任务,因此图像中的目标通过非常精确的分割掩模来进行位置的标定。
Microsoft COCO数据集的建立是为研究以下3个问题:
* non-iconic views;
* contextual reasoning between objects;
* precise 2D localization。
第1个问题,要求数据集中的图像,尽量不要只是包括一个大的目标或者一个空的场景,而是两者都有,保证场景的复杂性。
第2个问题就是场景的覆盖性,需要广而且足够复杂,数据集总共有328000个图像和2500000个标注。与ImageNet和SUN数据集(另一个场景分类数据集)相比,类别数目更少,但是每一个类别的instance更多,这其实是有利于目标定位任务的,因为多样性更好。对比PASCAL VOC,COCO数据集则要大得多,有更多类和instance。
第3个问题是精确定位,要求分割的标注结果非常精确,定位的边框也是从分割掩膜生成而不是直接画框标注,保证了极高的精度。
总地来说,COCO数据集相对于ImageNet和PASCAL VOC是一个更难的数据集,因此在相关任务上需要多关注、比较。
至此介绍了5个经典的数据集,它们是在计算机视觉领域中使用最广泛的基准数据集,它们的发展遵循以下两个重要的原则:
* 数据集规模从小到大,从最开始MNIST数据集的60000张图,到ImageNet数据集超过1000万张图像,增大了几个数量级,而且图像的大小也增加了。大规模数据集的多样性对深度学习模型的泛化能力至关重要,这是深度学习算法能够发展的前提。
* 从简单到复杂,从最简单的10个分类的手写数字,到100个类,再到1000个类的自然图像;从简单的场景到复杂的场景,数据集的难度越来越大,也越来越贴近实际场景,给深度学习算法在工业界稳定落地提供了测试标准。
数据集的发展,也催生出了LeNet5、AlexNet和ResNet等经典的深度学习模型,在整个深度学习的发展中占据着重要的位置。
- 点赞
- 收藏
- 关注作者
评论(0)