【ModelArts实战案例】数据校验--给你的数据做个体检吧
前言
很多用户数据上传后,会存在一些常见问题,例如:
- 图片本身损坏无法解码 - 图片格式不在ModelArts支持的格式范围内;或者某些格式(如jpg)的图片被人为修改了后缀导致图片无法使用 - 图片通道可能是1通道、2通道或4通道,不是常用的3通道 - 图片分辨率过大导致标注或训练过慢 - 图片标注xml文件中存在超出图片边界的不合理标注框
Modelarts提供了强大的数据校验功能,能够对用户上传的数据进行批量校验:问题数据→转换成有效数据→保留,问题数据→不能转换或转换失败→丢掉。避免产生后续的麻烦。(强调:校验操作不会改动原始数据,不管是保留还是丢弃都是针对校验的输出保存路径而言)
目前Modelarts的数据校验模块能实现的功能有:
1)去掉不能解码的图片 2)转换图片格式至ModelArts支持的格式范围['.jpg','.jpeg','.png','.bmp']内,并将图片后缀与格式不一致的文件转换成一致 3)转换图片成RGB三通道 4)裁剪分辨率太大的图片,当执行目标检测任务时,同时裁剪图片对应的xml文件中的boxes 5)当xml文件中boxes超出图片边界时,裁剪不合理的boxes.当超出边界的框有50%以上在图片内时,保留其在图片边界内的部分,否则此框被舍弃掉 输入数据被检验完成之后会保存为新的图片或xml文件,存放在指定输出路径下
下列操作步骤,以一个问题数据集为例,手把手的指导你如何从ModelArts的数据处理模块中使用 数据校验 功能。
1.数据准备
validation_yunbao_modified_dataset
ModelArts数据处理相关博客:
1. 数据处理简介:https://bbs.huaweicloud.com/blogs/193413
2. 数据增强: https://bbs.huaweicloud.com/blogs/189148使用数据增强,解决数据不足和数据集不均衡的情况
3. 数据生成域迁移:https://bbs.huaweicloud.com/blogs/193405数据风格变换:ModelArts的数据域迁移功能
4. 数据去重:https://bbs.huaweicloud.com/blogs/193420数据去重---ModelArts在数据处理上的应用技巧-免费,欢迎大家体验
5. 数据清洗:https://bbs.huaweicloud.com/blogs/193421数据清洗---ModelArts在数据处理上的应用技巧-免费,欢迎大家体验
6. 难例筛选:https://bbs.huaweicloud.com/blogs/193422如何加速AI模型迭代:Modelarts的难例筛选功能
- 点赞
- 收藏
- 关注作者
评论(0)