云社区 博客 博客详情
云社区 博客 博客详情

实战案例丨ModelArts在数据标注、数据过滤上的应用技巧:自动分组

T_c_D 发表于 2020-07-22 09:52:28 07-22 09:52
T_c_D 发表于 2020-07-22 09:52:28 2020/07/22
3
6

【摘要】 本文讲解ModelArts先进的自动分组功能:将特征相似的图片归为一类,将特征差别大的图片群分离。

自动分组案例分组标注场景数据过滤场景

分组标注场景

大量复杂、乱序的图片依次标注效率极低,如果一次可以标注一大片的图片将极大地提升标注效率。

自动分组识别并提取图像特征,通过ModelArts先进的聚类算法可以将所有图片分组:将特征相似的图片归为一类,将特征差别大的图片群分离。

在花朵识别项目中,需对大量无标注的花朵图片进行标注,依次乱序标注蒲公英、郁金香、向日葵等将耗费大量宝贵时间


启动自动分组,我们事先知道花朵数据集中存在5个类别,为他们分组6类聚类算法不能保证一定将5类别完全区分出来,需更细化地分组,于是往往分组数需大于实际类别数):


过约3分钟后,通过筛选条件,我们可以得到自动分组的结果,如第1类几乎都是郁金香的图片,第3类几乎都是蒲公英的图片。

第1类

第3类


于是选择当前页 -> 输入蒲公英 ,即可直接对他们一次性进行标注。


当然并不是每个组都是完美的,如一个组中大多都是向日葵,但还夹杂着非洲菊 。此时选择当前页后,去掉相应非向日葵图片左上角的勾即可:


数据过滤场景

现实中的真实图像数据量少,往往无法满足深度学习网络训练数据量的要求,于是开发者们一般选择网络爬取需要的图片,但爬取下来的图片风格迥异、噪声杂多,想要从中提取需要的图片工作量是巨大的。

ModelArts提供的自动分组算法除了在分组标注上功能强大,在数据过滤场景上也是奇技淫巧

在安全帽项目中,由于实际安全帽图像过少,从谷歌爬取了大量安全帽相关图像(约3000张)


但是这些并不全是我们想要的“安全帽”,我们需要工地为背景,且工人类型的安全帽。

于是在自动分组中我们对这些图像细分为10个组(越大的分组数对数据集分组越细,能分离出更多噪声图像),以下为部分组的展示:

第0组


第1组


第4组


第9组


显然类似第1组和第9组的图片才是我们需要的结果,第1组和第4组浏览大致后可以全部删除,选择当前页并删除:


删掉噪声图像后,只剩下约1600张,过滤了快50%的图像


当然如果还存在很多噪声,我们继续进行分组,对剩下的1640张图再自动分组10个类

可以看到,依旧有许多与安全帽不相干的图像如:


再一次浏览所有分组,对数据进行清洗,最终只剩下1008张图像,过滤了约65%的噪声图像,极大地降低了标注的压力。



登录后可下载附件,请登录或者注册

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区),文章链接,文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:huaweicloud.bbs@huawei.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
评论文章 //点赞 收藏 6
点赞
分享文章到微博
分享文章到朋友圈

评论 (3)


胡琦

1楼2020-07-24 10:02:45
很实用,感谢分享!

技术火炬手

2楼2020-07-24 14:21:25

yinuxy

3楼2020-10-30 22:38:33
华为云ModelArts,免费领取两百元无门槛代金券
https://console.huaweicloud.com/modelarts/?dist=ma-free&region=cn-north-4#/loginIntro?code=4Wpyh8Fi
0/1000
评论

登录后可评论,请 登录注册

评论

您还没有评论的权限!

温馨提示

您确认删除评论吗?

确定
取消
温馨提示

您确认删除评论吗?

删除操作无法恢复,请谨慎操作。

确定
取消
温馨提示

您确认删除博客吗?

确定
取消

确认删除

您确认删除博客吗?

确认删除

您确认删除评论吗?

温馨提示

登录超时或用户已下线,请重新登录!!!

确定
取消