《深度学习之图像识别:核心技术与案例实战》 ——3.1.5 Microsoft COCO数据集

举报
华章计算机 发表于 2020/02/23 13:23:25 2020/02/23
【摘要】 本节书摘来自华章计算机《深度学习之图像识别:核心技术与案例实战》 ——书中第3章,第3.1.5节,作者是言有三  。

3.1.5  Microsoft COCO数据集

  Microsoft COCO数据集地址为http://cocodataset.org/,发布于2014年,由微软亚洲研究院整理。

  Microsoft COCO数据集是对PASCAL VOC和ImageNet数据集标注而诞生的,同样可以用于图像分类、分割和目标检测等任务,共30多万的数据。COCO数据集分为91个类,以4岁小孩能够辨识为基准,其中有82个类超过5000个instance(instance即同一个类不同的个体,比如图像中不同的人)。

  从COCO的全称Common Objects in Context可以看出,这个数据集以场景理解为目标,特别是选取比较复杂的日常场景,相比于PASCAL VOC项目的建立是为了推进目标检测任务,COCO的建立则是为了推进自然背景下的定位与分割任务,因此图像中的目标通过非常精确的分割掩模来进行位置的标定。

  Microsoft COCO数据集的建立是为研究以下3个问题:

* non-iconic views;

* contextual reasoning between objects;

* precise 2D localization。

  第1个问题,要求数据集中的图像,尽量不要只是包括一个大的目标或者一个空的场景,而是两者都有,保证场景的复杂性。

  第2个问题就是场景的覆盖性,需要广而且足够复杂,数据集总共有328000个图像和2500000个标注。与ImageNet和SUN数据集(另一个场景分类数据集)相比,类别数目更少,但是每一个类别的instance更多,这其实是有利于目标定位任务的,因为多样性更好。对比PASCAL VOC,COCO数据集则要大得多,有更多类和instance。

  第3个问题是精确定位,要求分割的标注结果非常精确,定位的边框也是从分割掩膜生成而不是直接画框标注,保证了极高的精度。

  总地来说,COCO数据集相对于ImageNet和PASCAL VOC是一个更难的数据集,因此在相关任务上需要多关注、比较。

  至此介绍了5个经典的数据集,它们是在计算机视觉领域中使用最广泛的基准数据集,它们的发展遵循以下两个重要的原则:

* 数据集规模从小到大,从最开始MNIST数据集的60000张图,到ImageNet数据集超过1000万张图像,增大了几个数量级,而且图像的大小也增加了。大规模数据集的多样性对深度学习模型的泛化能力至关重要,这是深度学习算法能够发展的前提。

* 从简单到复杂,从最简单的10个分类的手写数字,到100个类,再到1000个类的自然图像;从简单的场景到复杂的场景,数据集的难度越来越大,也越来越贴近实际场景,给深度学习算法在工业界稳定落地提供了测试标准。

  数据集的发展,也催生出了LeNet5、AlexNet和ResNet等经典的深度学习模型,在整个深度学习的发展中占据着重要的位置。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。