《深度学习之图像识别核心技术与案例实战》—3.4.2 数据标注
3.4.2 数据标注
数据标注是数据收集后的一个重要步骤,数据标注就是对未处理的初级数据,包括语音、图片、文本、视频等进行加工处理,转换为属性标签以训练数据集。
1.标注类型
* Classification标注:对图片进行分类。
* Detection标注:对图片中出现的物体检测其位置。
* Segmentation标注:对图片进行切割。
* Caption标注:简单说就是看图说话。
* Attribute标注:标注图片中出现物体的属性。
2.数据标注平台
* 亚马逊众包:官网地址是https://www.mturk.com/。亚马逊众包平台(Amazon Mechanical Turk,AMT),与亚马逊的云服务一样,都是首先应自身需求建立的,之后逐步对外开放,如今演变成了一个全新的行业,就是数据标注行业。几乎所有的大型数据集都是采用这个平台进行标注的,包括斯坦福的李飞飞实验室整理的ImageNet数据集,谷歌公司整理的Google Open Image Datasets等。AMT平台上的注册用户超过50万,多数来自美国。
* CrowdFlower众包:在2009年的美国科技创业大会TechCrunch50上被正式推出,它将自己定位为一款众包数据处理工具,可以通过提供远程众包式服务帮助企业完成一些普通任务,比如照片审核等工作。
* 国内众包平台:随着机器学习数据需求的缺口增加,国内也有了一些类似的众包标注平台,包括前面提到的阿里数据标注平台、百度众包和京东微工等。
3.数据标注工具
假如将数据散播到众包平台上进行标注,就需要使用离线的开发工具对数据进行标注,下面介绍一个全手动的标注工具和半监督的标注工具。
LabelImg是一个图像标注工具,用Python编写,使用Qt作为其图形界面,常用于标注检测任务需要的数据,它的标注结果以PASCAL VOC的格式保存为XML文件,这是ImageNet等任务使用的格式。
半监督AI标注工具是谷歌公司开发的半监督标注工具,名为流体标(Fluid Annotation),网页链接地址为https://fluidann.appspot.com/,它从强语义分割模型的输出开始,标注者在此基础上通过工具进行智能地修改。谷歌公司开发的这款工具可以让标记者选择要修改的内容和顺序,使他们能够高效地将精力集中在机器尚不了解的内容上。
以图像标注为例,首先通过预训练的语义分割模型(Mask-RCNN)来处理图像,生成约1000个图像片段及其分类标签和置信度分数。置信度分数最高的片段用于对标签的初始化呈现给标记者,然后标记者就可以按照下面的步骤完成任务:
(1)从机器生成的候选标签中作为当前片段选择标签。
(2)对机器未覆盖到的对象中添加分割段,机器会识别出最可能的预生成段,标记者可以从中选择质量最高的一个。
(3)删除现有段。
(4)改变重叠段的深度顺序。
半监督的图像标注工具可以大大提升标注速度,是标注行业未来发展的一个重要方向。
- 点赞
- 收藏
- 关注作者
评论(0)