- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

免费的机器学习数据集网站（6300+数据集）

此星光明发表于 2022/06/26 23:30:05 2022/06/26

【摘要】今天给大家分享一个免费获取机器学习数据集网站： Machine Learning Datasets | Papers With Code 有想法但没有数据集的同学的福音，网站届满很简洁，及本本上提供的了一般可用的各类数据集，我们可以进行各类影像、评论和点云等数据集的搜罗。    C...

今天给大家分享一个免费获取机器学习数据集网站：

Machine Learning Datasets | Papers With Code

有想法但没有数据集的同学的福音，网站届满很简洁，及本本上提供的了一般可用的各类数据集，我们可以进行各类影像、评论和点云等数据集的搜罗。

CIFAR-10

由 Krizhevsky 等人介绍。在从微小图像中学习多层特征

CIFAR -10数据集（加拿大高级研究所，10 个类别）是 Tiny Images 数据集的子集，由 60000 张 32x32 彩色图像组成。这些图像标有 10 个相互排斥的类别之一：飞机、汽车（但不是卡车或皮卡车）、鸟、猫、鹿、狗、青蛙、马、船和卡车（但不是皮卡车）。每类有 6000 张图像，每类有 5000 张训练图像和 1000 张测试图像。

判断图像是否属于某个类别的标准如下：

班级名称应该在“这张照片中有什么？”问题的可能答案列表中排在前面。
图像应该是照片般逼真的。贴标机被指示拒绝画线图。
图像应仅包含该类所指对象的一个突出实例。只要标记者仍然清楚物体的身份，物体就可能被部分遮挡或从不寻常的角度看到。

资源：CIFAR-10 and CIFAR-100 datasets

城市景观

由 Cordts 等人介绍。在用于语义城市场景理解的 Cityscapes 数据集中

Cityscapes是一个专注于城市街景语义理解的大型数据库。它为分为 8 个类别（平面、人类、车辆、建筑、物体、自然、天空和虚空）的 30 个类别提供语义、实例和密集像素注释。该数据集由大约 5000 个精细标注的图像和 20000 个粗糙标注的图像组成。在几个月、白天和良好的天气条件下，在 50 个城市捕获了数据。它最初是作为视频录制的，因此手动选择帧以具有以下特征：大量动态对象、变化的场景布局和变化的背景。

资源：应用于语义分割的深度学习技术综述

宾夕法尼亚树库

由 Mitchell P. Marcus 等人介绍。在建立一个大型带注释的英语语料库：Penn Treebank

英语Penn Treebank ( PTB ) 语料库，特别是与华尔街日报 (WSJ) 文章相对应的语料库部分，是用于评估序列标签模型的最知名和最常用的语料库之一。该任务包括用词性标签注释每个单词。在这个语料库最常见的分割中，从 0 到 18 的部分用于训练（38 219 个句子，912 344 个标记），从 19 到 21 的部分用于验证（5 527 个句子，131 768 个标记），从22 到 24 用于测试（5 462 个句子，129 654 个标记）。语料库也常用于字符级和词级语言建模。

资源：Seq2Biseq：用于序列建模的双向输出循环神经网络

IMDb 电影评论

由 Andrew L. Maas 等人介绍。在学习用于情感分析的词向量

IMDb 电影评论数据集是一个二元情感分析数据集，由来自互联网电影数据库 (IMDb) 的 50,000 条评论组成，标记为正面或负面。该数据集包含偶数个正面和负面评论。只考虑高度两极分化的评论。负面评论的得分≤4（满分10），正面评论的得分≥7（满分10）。每部电影包含的评论不超过30条。数据集包含其他未标记的数据。

资源：Sentiment analysis | NLP-progress

主页

模型网

由吴等人介绍。在3D ShapeNets 中：体积形状的深度表示

ModelNet 40数据集包含合成对象点云。作为最广泛使用的点云分析基准，ModelNet40 因其类别多样、形状清晰、数据集结构良好等而广受欢迎。原来的 ModelNet40 由 40 个类别（如飞机、汽车、植物，灯），其中 9,843 个用于训练，其余 2,468 个用于测试。相应的点云数据点从网格表面均匀采样，然后通过移动到原点并缩放成单位球体进行进一步预处理。

资源：用于点云分类的几何反馈网络

CARLA（汽车学习行动）

由 Dosovitskiy 等人介绍。在CARLA：一个开放的城市驾驶模拟器

CARLA（CAR Learning to Act）是一个开放的城市驾驶模拟器，作为 Unreal Engine 4 上的一个开源层而开发。从技术上讲，它的运行方式类似于 Unreal Engine 4 上的一个开源层，以以下形式提供传感器RGB 摄像头（可定制位置）、地面实况深度图、具有 12 个专为驾驶（道路、车道标记、交通标志、人行道等）设计的语义类别的地面实况语义分割图、环境中动态对象的边界框，以及代理本身的测量（车辆位置和方向）。

资源：深度学习的合成数据

以上就是简单的给大家介绍了几个常用的数据集，请大家自己去网站获取更多数据。

文章来源: blog.csdn.net，作者：此星光明2021年博客之星云计算Top3，版权归原作者所有，如需转载，请联系作者。

原文链接：blog.csdn.net/qq_31988139/article/details/125367428

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

免费的机器学习数据集网站（6300+数据集）

CIFAR-10

城市景观

宾夕法尼亚树库

IMDb 电影评论

模型网

CARLA（汽车学习行动）

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

免费的机器学习数据集网站（6300+数据集）

CIFAR-10

城市景观

宾夕法尼亚树库

IMDb 电影评论

模型网

CARLA（汽车学习行动）

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品