《深度学习之图像识别核心技术与案例实战》—3.4.2 数据标注

举报
华章计算机 发表于 2019/06/02 11:36:59 2019/06/02
【摘要】 本书摘自《深度学习之图像识别核心技术与案例实战》一书中的第3章,第3.4.2节,作者是言有三 。

3.4.2  数据标注

  数据标注是数据收集后的一个重要步骤,数据标注就是对未处理的初级数据,包括语音、图片、文本、视频等进行加工处理,转换为属性标签以训练数据集。

  1.标注类型

* Classification标注:对图片进行分类。

* Detection标注:对图片中出现的物体检测其位置。

* Segmentation标注:对图片进行切割。

* Caption标注:简单说就是看图说话。

* Attribute标注:标注图片中出现物体的属性。

  2.数据标注平台

* 亚马逊众包:官网地址是https://www.mturk.com/。亚马逊众包平台(Amazon Mechanical Turk,AMT),与亚马逊的云服务一样,都是首先应自身需求建立的,之后逐步对外开放,如今演变成了一个全新的行业,就是数据标注行业。几乎所有的大型数据集都是采用这个平台进行标注的,包括斯坦福的李飞飞实验室整理的ImageNet数据集,谷歌公司整理的Google Open Image Datasets等。AMT平台上的注册用户超过50万,多数来自美国。

* CrowdFlower众包:在2009年的美国科技创业大会TechCrunch50上被正式推出,它将自己定位为一款众包数据处理工具,可以通过提供远程众包式服务帮助企业完成一些普通任务,比如照片审核等工作。

* 国内众包平台:随着机器学习数据需求的缺口增加,国内也有了一些类似的众包标注平台,包括前面提到的阿里数据标注平台、百度众包和京东微工等。

  3.数据标注工具

  假如将数据散播到众包平台上进行标注,就需要使用离线的开发工具对数据进行标注,下面介绍一个全手动的标注工具和半监督的标注工具。

  LabelImg是一个图像标注工具,用Python编写,使用Qt作为其图形界面,常用于标注检测任务需要的数据,它的标注结果以PASCAL VOC的格式保存为XML文件,这是ImageNet等任务使用的格式。

  半监督AI标注工具是谷歌公司开发的半监督标注工具,名为流体标(Fluid Annotation),网页链接地址为https://fluidann.appspot.com/,它从强语义分割模型的输出开始,标注者在此基础上通过工具进行智能地修改。谷歌公司开发的这款工具可以让标记者选择要修改的内容和顺序,使他们能够高效地将精力集中在机器尚不了解的内容上。

  以图像标注为例,首先通过预训练的语义分割模型(Mask-RCNN)来处理图像,生成约1000个图像片段及其分类标签和置信度分数。置信度分数最高的片段用于对标签的初始化呈现给标记者,然后标记者就可以按照下面的步骤完成任务:

  (1)从机器生成的候选标签中作为当前片段选择标签。

  (2)对机器未覆盖到的对象中添加分割段,机器会识别出最可能的预生成段,标记者可以从中选择质量最高的一个。

  (3)删除现有段。

  (4)改变重叠段的深度顺序。

  半监督的图像标注工具可以大大提升标注速度,是标注行业未来发展的一个重要方向。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。