《深度学习之图像识别:核心技术与案例实战》 ——3.4 数据的收集与标注
3.4 数据的收集与标注
在学术界进行研究,通常会使用已经被前人整理好,被广泛认可的公开数据集。在工业界进行项目开发的时候,则通常没有直接可用的数据集,需要从头收集、整理、标注数据,本节将重点讲述这个问题。
3.4.1 数据收集
优质数据集的建立是深度学习成功的关键,数据的形式通常包括图片、文本、语音、视频及一些结构化数据。
虽然有很多的公开数据集,但是在实际项目中,开发人员常常需要进行专门的数据收集和标注工作。所谓数据收集,就是针对所需要的任务尽可能从多个渠道收集相关的数据,而数据标注就是对收集到的数据进行标注,一般对于图像任务来说,标注包括分类标注、标框标注、描点标注和区域标注等。只有经过标注和清洗后的数据才能真正产生价值,才能用于训练网络。下面从数据收集和标注这两个方面来介绍常用的数据收集和标注平台。
1.数据收集平台
通过第三方的数据收集平台进行数据采集,对于企业来说是比较高效率的方式,目前已经有一些这样的机构。
阿里众包(https://newjob.taobao.com/)是基于阿里巴巴平台的大数据众筹平台,提供了从数据采集到数据标注的完整链条,由于用户基数大,采集效率高,可在72小时内收集2万人的声音、图片、文本语料和视频等数据。同时,任务结果提交后会同步进行质量检测,不合格的结果即时自动重新投放。比如人像照片、采集自拍、特定表情和特定动作等都是非常简单的,价格约在1~3元一条数据,适合大公司与小团队的数据收集工作。
国内还有其他类似的众包平台,如包百度众包(http://zhongbao.baidu.com/mark/home/ mark)、京东微工(http://weigong.jd.com/)等。
阿里众包提供了一个众包平台,服务对象包括千万个提供数据的个体和需要采集数据的个人或组织,如果需要采集数据的一方并不想关注数据采集的过程而只想要最终结果,则可以直接去找一些数据采集机构完成任务。比较典型的如Basic Finder,官网地址是https://www.basicfinder.com/,其服务范围覆盖金融行业、医疗行业、家居行业和安防行业等,同时提供标注服务。Apache Flume的官网地址是https://flume.apache.org/,Flume是一种分布式的、可靠的、可用的服务,可以有效地收集、聚合和移动大量日志数据。
2.爬虫
爬虫是采集大数据集必须使用的方法,ImageNet等数据集的建立,就是通过WordNet中的树形组织结构关键词来搜索并爬取数据的。下面将介绍一些比较好用的爬虫工具,对于小型团队和个人来说,爬虫工具是机器学习项目中必不可少的。
Image-Downloader,网址为https://github.com/sczhengyabin/Image-Downloader,可以按要求爬取Google、百度、Bing等搜索引擎上的图片,并且提供了GUI,方便操作。使用步骤包括:
(1)根据该项目的Readme来配置适合自己的环境,其中GUI脚本python image_ downloader_gui.py还可以提供便捷的GUI操作。
(2)输入关键词或者txt文本文件,其中关键字之间需用逗号隔开。
(3)设置最大爬取数据、线程等参数后就可以开始爬取工作了。
Image-DownConder爬虫工具足够满足小型项目第一批数据集的积累,该工具还可以进行整齐的命名操作,使用方便。
Annie工具的地址为https://github.com/iawia002/annie.git,这是一款以Go语言编码的视频下载工具,支持抖音、腾讯视频等多个网站视频和图像的下载。
火车采集器,地址为http://www.locoy.com/,这是一个网页采集工具,有GUI界面,使用人群很广,有一定的验证码破解能力。
在实际项目中善用爬虫工具可以大大提高工作效率,而且不应该局限于爬取的具体内容。比如,当项目中需要的是图片或语音数据时,我们不仅可以直接爬取语音和图片,还可以在各个网站上寻找视频,然后按时间帧切分成图片、提取语音,最后进行清洗等工作。
- 点赞
- 收藏
- 关注作者
评论(0)