- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《深度学习之图像识别：核心技术与案例实战》 ——3.4.2 数据标注

华章计算机发表于 2020/02/23 13:51:53 2020/02/23

【摘要】本节书摘来自华章计算机《深度学习之图像识别：核心技术与案例实战》 ——书中第3章，第3.4.2节，作者是言有三　。

3.4.2 数据标注

　　数据标注是数据收集后的一个重要步骤，数据标注就是对未处理的初级数据，包括语音、图片、文本、视频等进行加工处理，转换为属性标签以训练数据集。

　　1．标注类型

* Classification标注：对图片进行分类。

* Detection标注：对图片中出现的物体检测其位置。

* Segmentation标注：对图片进行切割。

* Caption标注：简单说就是看图说话。

* Attribute标注：标注图片中出现物体的属性。

　　2．数据标注平台

* 亚马逊众包：官网地址是https://www.mturk.com/。亚马逊众包平台（Amazon Mechanical Turk，AMT），与亚马逊的云服务一样，都是首先应自身需求建立的，之后逐步对外开放，如今演变成了一个全新的行业，就是数据标注行业。几乎所有的大型数据集都是采用这个平台进行标注的，包括斯坦福的李飞飞实验室整理的ImageNet数据集，谷歌公司整理的Google Open Image Datasets等。AMT平台上的注册用户超过50万，多数来自美国。

* CrowdFlower众包：在2009年的美国科技创业大会TechCrunch50上被正式推出，它将自己定位为一款众包数据处理工具，可以通过提供远程众包式服务帮助企业完成一些普通任务，比如照片审核等工作。

* 国内众包平台：随着机器学习数据需求的缺口增加，国内也有了一些类似的众包标注平台，包括前面提到的阿里数据标注平台、百度众包和京东微工等。

　　3．数据标注工具

　　假如将数据散播到众包平台上进行标注，就需要使用离线的开发工具对数据进行标注，下面介绍一个全手动的标注工具和半监督的标注工具。

　　LabelImg是一个图像标注工具，用Python编写，使用Qt作为其图形界面，常用于标注检测任务需要的数据，它的标注结果以PASCAL VOC的格式保存为XML文件，这是ImageNet等任务使用的格式。

　　半监督AI标注工具是谷歌公司开发的半监督标注工具，名为流体标（Fluid Annotation），网页链接地址为https://fluidann.appspot.com/，它从强语义分割模型的输出开始，标注者在此基础上通过工具进行智能地修改。谷歌公司开发的这款工具可以让标记者选择要修改的内容和顺序，使他们能够高效地将精力集中在机器尚不了解的内容上。

　　以图像标注为例，首先通过预训练的语义分割模型（Mask-RCNN）来处理图像，生成约1000个图像片段及其分类标签和置信度分数。置信度分数最高的片段用于对标签的初始化呈现给标记者，然后标记者就可以按照下面的步骤完成任务：

　　（1）从机器生成的候选标签中作为当前片段选择标签。

　　（2）对机器未覆盖到的对象中添加分割段，机器会识别出最可能的预生成段，标记者可以从中选择质量最高的一个。

　　（3）删除现有段。

　　（4）改变重叠段的深度顺序。

　　半监督的图像标注工具可以大大提升标注速度，是标注行业未来发展的一个重要方向。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《深度学习之图像识别：核心技术与案例实战》 ——3.4.2 数据标注

3.4.2 数据标注

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《深度学习之图像识别：核心技术与案例实战》 ——3.4.2 数据标注

3.4.2 数据标注

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品