【ModelArts实战案例】数据校验--给你的数据做个体检吧
【摘要】 本文讲解ModelArts数据处理模块的数据校验功能:用户上传数据后,先做一次数据校验,将能转换成有效数据的进行转换,不能转换的问题的数据过滤掉,避免后续的麻烦
前言
很多用户数据上传后,会存在一些常见问题,例如:
- 图片本身损坏无法解码
- 图片格式不在ModelArts支持的格式范围内;或者某些格式(如jpg)的图片被人为修改了后缀导致图片无法使用
- 图片通道可能是1通道、2通道或4通道,不是常用的3通道
- 图片分辨率过大导致标注或训练过慢
- 图片标注xml文件中存在超出图片边界的不合理标注框
Modelarts提供了强大的数据校验功能,能够对用户上传的数据进行批量校验:问题数据→转换成有效数据→保留,问题数据→不能转换或转换失败→丢掉。避免产生后续的麻烦。(强调:校验操作不会改动原始数据,不管是保留还是丢弃都是针对校验的输出保存路径而言)
目前Modelarts的数据校验模块能实现的功能有:
1)去掉不能解码的图片
2)转换图片格式至ModelArts支持的格式范围['.jpg','.jpeg','.png','.bmp']内,并将图片后缀与格式不一致的文件转换成一致
3)转换图片成RGB三通道
4)裁剪分辨率太大的图片,当执行目标检测任务时,同时裁剪图片对应的xml文件中的boxes
5)当xml文件中boxes超出图片边界时,裁剪不合理的boxes.当超出边界的框有50%以上在图片内时,保留其在图片边界内的部分,否则此框被舍弃掉
输入数据被检验完成之后会保存为新的图片或xml文件,存放在指定输出路径下
下列操作步骤,以一个问题数据集为例,手把手的指导你如何从ModelArts的数据处理模块中使用 数据校验 功能。
1.数据准备
validation_yunbao_modified_dataset
ModelArts数据处理相关博客:
1. 数据处理简介:https://bbs.huaweicloud.com/blogs/193413
2. 数据增强: https://bbs.huaweicloud.com/blogs/189148使用数据增强,解决数据不足和数据集不均衡的情况
3. 数据生成域迁移:https://bbs.huaweicloud.com/blogs/193405数据风格变换:ModelArts的数据域迁移功能
4. 数据去重:https://bbs.huaweicloud.com/blogs/193420数据去重---ModelArts在数据处理上的应用技巧-免费,欢迎大家体验
5. 数据清洗:https://bbs.huaweicloud.com/blogs/193421数据清洗---ModelArts在数据处理上的应用技巧-免费,欢迎大家体验
6. 难例筛选:https://bbs.huaweicloud.com/blogs/193422如何加速AI模型迭代:Modelarts的难例筛选功能
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
热门文章
评论(0)