- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《深度学习之图像识别核心技术与案例实战》—3.1.5 Microsoft COCO数据集

华章计算机发表于 2019/06/02 00:20:04 2019/06/02

【摘要】本书摘自《深度学习之图像识别核心技术与案例实战》一书中的第3章，第3.1.5节，作者是言有三。

3.1.5 Microsoft COCO数据集

　　Microsoft COCO数据集地址为http://cocodataset.org/，发布于2014年，由微软亚洲研究院整理。

　　Microsoft COCO数据集是对PASCAL VOC和ImageNet数据集标注而诞生的，同样可以用于图像分类、分割和目标检测等任务，共30多万的数据。COCO数据集分为91个类，以4岁小孩能够辨识为基准，其中有82个类超过5000个instance（instance即同一个类不同的个体，比如图像中不同的人）。

　　从COCO的全称Common Objects in Context可以看出，这个数据集以场景理解为目标，特别是选取比较复杂的日常场景，相比于PASCAL VOC项目的建立是为了推进目标检测任务，COCO的建立则是为了推进自然背景下的定位与分割任务，因此图像中的目标通过非常精确的分割掩模来进行位置的标定。

　　Microsoft COCO数据集的建立是为研究以下3个问题：

* non-iconic views；

* contextual reasoning between objects；

* precise 2D localization。

　　第1个问题，要求数据集中的图像，尽量不要只是包括一个大的目标或者一个空的场景，而是两者都有，保证场景的复杂性。

　　第2个问题就是场景的覆盖性，需要广而且足够复杂，数据集总共有328000个图像和2500000个标注。与ImageNet和SUN数据集（另一个场景分类数据集）相比，类别数目更少，但是每一个类别的instance更多，这其实是有利于目标定位任务的，因为多样性更好。对比PASCAL VOC，COCO数据集则要大得多，有更多类和instance。

　　第3个问题是精确定位，要求分割的标注结果非常精确，定位的边框也是从分割掩膜生成而不是直接画框标注，保证了极高的精度。

　　总地来说，COCO数据集相对于ImageNet和PASCAL VOC是一个更难的数据集，因此在相关任务上需要多关注、比较。

　　至此介绍了5个经典的数据集，它们是在计算机视觉领域中使用最广泛的基准数据集，它们的发展遵循以下两个重要的原则：

* 数据集规模从小到大，从最开始MNIST数据集的60000张图，到ImageNet数据集超过1000万张图像，增大了几个数量级，而且图像的大小也增加了。大规模数据集的多样性对深度学习模型的泛化能力至关重要，这是深度学习算法能够发展的前提。

* 从简单到复杂，从最简单的10个分类的手写数字，到100个类，再到1000个类的自然图像；从简单的场景到复杂的场景，数据集的难度越来越大，也越来越贴近实际场景，给深度学习算法在工业界稳定落地提供了测试标准。

　　数据集的发展，也催生出了LeNet5、AlexNet和ResNet等经典的深度学习模型，在整个深度学习的发展中占据着重要的位置。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《深度学习之图像识别核心技术与案例实战》—3.1.5 Microsoft COCO数据集

3.1.5 Microsoft COCO数据集

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《深度学习之图像识别核心技术与案例实战》—3.1.5 Microsoft COCO数据集

3.1.5 Microsoft COCO数据集

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品