【云小课】EI第13课 ModelArts 数据预处理:轻松优化您的数据集
数据反映了真实世界的状况,没有高质量的数据,最好的算法也无济于事。创建一个更好的数据集对AI开发有至关重要的意义,但是一个高质量的数据集需要开发者投入巨大的时间与精力。还在为散乱无章的数据发愁吗?还在为训练没有更多数据发愁吗?还在为处理数据投入大量时间发愁吗?ModelArts数据预处理功能集成了大量数据处理算法,为您提供一个更好的数据集。
初识ModelArts数据预处理
当数据采集和接入之后,数据一般是不能直接满足训练要求的。ModelArts平台提供的数据预处理功能帮助您从海量的数据中抽取或者生成有价值、有意义的数据,为您后续的数据标注、模型训练保驾护航。
ModelArts为您提供以下四种类型的数据预处理:
- 数据清洗
数据清洗是指对数据进行去燥、纠错或补全的过程。数据清洗是在数据校验的基础上,对数据进行一致性检查,处理一些无效值。例如在深度学习领域,可以根据用户输入的正样本和负样本,对数据进行清洗,保留用户想要的类别,去除用户不想要的类别。
图中,花朵数据集经过数据清理后去除了样本中非花朵的图片。
- 数据选择
数据选择一般是指从全量数据中选择数据子集的过程,可以通过相似度或者深度学习算法进行选择。数据选择可以避免人工采集图片过程中引入的重复图片、相似图片等问题;在一批输入旧模型的推理数据中,通过内置规则的数据选择可以进一步提升旧模型精度。
图中,花朵数据集经过数据选择后去除了相似和重复图片。
- 数据校验
数据校验是指对数据可用性的基本判断和验证的过程。ModelArts支持对图片和标注进行可用性校验:
♦图片类数据校验
异常情况 |
处理方案 |
图片本身损坏无法解码 |
过滤掉不能解码的图片 |
图片通道可能是1通道、2通道,不是常用的3通道 |
转换图片成RGB三通道 |
图片格式不在ModelArts支持的格式范围内 |
转换图片格式至jpg格式 |
图片后缀与实际格式不符,但格式在MA支持的格式内 |
后缀转换成与实际格式一致 |
图片后缀与实际格式不符,且格式不在MA支持的格式内 |
转换图片格式至jpg格式 |
图片分辨率过大 |
宽、高按指定大小同比例进行裁剪 |
♦标注类文件数据校验
异常情况 |
处理方案 |
xml结构残缺,无法解析 |
过滤xml文件 |
xml中没有标注“object” |
过滤xml文件 |
xml中没有矩形框“bndbox” |
过滤xml文件 |
某些标注“object”中没有矩形框“bndbox” |
过滤标注“object” |
图片经过裁剪后,xml文件中宽高不符 |
修改错误宽高参数为图片真实宽高 |
xml中没有“width”、“height”字段 |
根据图片真实宽高补全xml中的“width”、“height”字段和值 |
图片经过裁剪后,xml中矩形框“bndbox”大小不符 |
按图片裁剪比例缩放xml文件中“bnxbox”值 |
xml中矩形框“bndbox”宽或高值过小,显示为一条线 |
矩形框宽或高差值小于2,移除当前“object” |
xml中矩形框“bndbox”最小值大于最大值 |
移除当前“object” |
矩形框“bndbox”超出图片边界,且超出部分占框面积50%以上 |
移除当前“object” |
矩形框“bndbox”超出图片边界,但超出部分小于框面积50% |
矩形框“bndbox”拉回到图片边界 |
- 数据增强
数据增强用于训练数据集不足或需要仿真的场景。他通过数据扩增、数据生成方式对已有的数据集完成指定的变换操作,实现增加数据量的目的。
ModelArts提供以下算子扩增您的数据集:
算子 |
算子说明 |
Rotate |
旋转 |
Blur |
模糊化处理 |
LightArithmetic |
亮度增强 |
HSV augmentation |
色度饱和度增强 |
Grayscale |
图片灰度化 |
LightContrast |
亮度对比度增强 |
HistogramEqualization |
直方图均衡化 |
Sharpen |
图像锐化 |
Flip |
翻转 |
MotionBlur |
运动模糊 |
Resize |
调整图片大小 |
Padding |
图片填充,在边缘添加黑色的边 |
Crop |
图片裁剪,随机裁剪图片的一部分作为新的图片 |
Weather |
添加天气,模拟天气效果 |
CutOut |
随机擦除,用于模拟物体被障碍物遮挡 |
Translate |
图片平移 |
Scale |
图片缩放 |
Shear |
图片错切 |
AddNoise |
添加噪声 |
图形化界面实现数据预处理
ModelArts为用户提供简单的图形化界面,您只需要动动鼠标,就能完成指定的数据预处理任务。
更多ModelArts数据预处理介绍
- 点赞
- 收藏
- 关注作者
评论(0)