【云小课】EI第13课 ModelArts 数据预处理:轻松优化您的数据集

举报
Hi,EI 发表于 2020/11/28 10:30:06 2020/11/28
【摘要】 数据反映了真实世界的状况,没有高质量的数据,最好的算法也无济于事。创建一个更好的数据集对AI开发有至关重要的意义,但是一个高质量的数据集需要开发者投入巨大的时间与精力。 还在为散乱无章的数据发愁吗?还在为训练没有更多数据发愁吗?还在为处理数据投入大量时间发愁吗?ModelArts数据预处理功能集成了大量数据处理算法,为您提供一个更好的数据集。

数据反映了真实世界的状况,没有高质量的数据,最好的算法也无济于事。创建一个更好的数据集对AI开发有至关重要的意义,但是一个高质量的数据集需要开发者投入巨大的时间与精力。还在为散乱无章的数据发愁吗?还在为训练没有更多数据发愁吗?还在为处理数据投入大量时间发愁吗?ModelArts数据预处理功能集成了大量数据处理算法,为您提供一个更好的数据集。

云小课插图.png

初识ModelArts数据预处理

当数据采集和接入之后,数据一般是不能直接满足训练要求的。ModelArts平台提供的数据预处理功能帮助您从海量的数据中抽取或者生成有价值、有意义的数据,为您后续的数据标注、模型训练保驾护航。

ModelArts为您提供以下四种类型的数据预处理:

     数据处理.png


    • 数据清洗

    数据清洗是指对数据进行去燥、纠错或补全的过程。数据清洗是在数据校验的基础上,对数据进行一致性检查,处理一些无效值。例如在深度学习领域,可以根据用户输入的正样本和负样本,对数据进行清洗,保留用户想要的类别,去除用户不想要的类别。

    图中,花朵数据集经过数据清理后去除了样本中非花朵的图片。

    数据清洗-flower-白底.PNG

    • 数据选择

    数据选择一般是指从全量数据中选择数据子集的过程,可以通过相似度或者深度学习算法进行选择。数据选择可以避免人工采集图片过程中引入的重复图片、相似图片等问题;在一批输入旧模型的推理数据中,通过内置规则的数据选择可以进一步提升旧模型精度。

    图中,花朵数据集经过数据选择后去除了相似和重复图片。


    数据选择白底.PNG

    • 数据校验

    数据校验是指对数据可用性的基本判断和验证的过程。ModelArts支持对图片和标注进行可用性校验:

    图片类数据校验

    异常情况

    处理方案

    图片本身损坏无法解码

    过滤掉不能解码的图片

    图片通道可能是1通道、2通道,不是常用的3通道

    转换图片成RGB三通道  

    图片格式不在ModelArts支持的格式范围内

    转换图片格式至jpg格式

    图片后缀与实际格式不符,但格式在MA支持的格式内

    后缀转换成与实际格式一致

    图片后缀与实际格式不符,且格式不在MA支持的格式内

    转换图片格式至jpg格式

    图片分辨率过大

    宽、高按指定大小同比例进行裁剪


    ♦标注类文件数据校验

    异常情况

    处理方案

    xml结构残缺,无法解析

    过滤xml文件

    xml中没有标注“object

    过滤xml文件

    xml中没有矩形框“bndbox

    过滤xml文件

    某些标注“object”中没有矩形框“bndbox

    过滤标注“object

    图片经过裁剪后,xml文件中宽高不符

    修改错误宽高参数为图片真实宽高

    xml中没有“width”、“height”字段

    根据图片真实宽高补全xml中的“width”、“height”字段和值

    图片经过裁剪后,xml中矩形框“bndbox”大小不符

    按图片裁剪比例缩放xml文件中“bnxbox”值

    xml中矩形框“bndbox”宽或高值过小,显示为一条线

    矩形框宽或高差值小于2,移除当前“object

    xml中矩形框“bndbox”最小值大于最大值

    移除当前“object

    矩形框“bndbox”超出图片边界,且超出部分占框面积50%以上

    移除当前“object

    矩形框“bndbox”超出图片边界,但超出部分小于框面积50%

    矩形框“bndbox”拉回到图片边界

     

    • 数据增强

    数据增强用于训练数据集不足或需要仿真的场景。他通过数据扩增、数据生成方式对已有的数据集完成指定的变换操作,实现增加数据量的目的。

    ModelArts提供以下算子扩增您的数据集:

    算子

    算子说明

    Rotate

    旋转

    Blur

    模糊化处理

    LightArithmetic

    亮度增强

    HSV augmentation

    色度饱和度增强

    Grayscale

    图片灰度化

    LightContrast

    亮度对比度增强

    HistogramEqualization

    直方图均衡化

    Sharpen

    图像锐化

    Flip

    翻转

    MotionBlur

    运动模糊

    Resize

    调整图片大小

    Padding

    图片填充,在边缘添加黑色的边

    Crop

    图片裁剪,随机裁剪图片的一部分作为新的图片

    Weather

    添加天气,模拟天气效果

    CutOut

    随机擦除,用于模拟物体被障碍物遮挡

    Translate

    图片平移

    Scale

    图片缩放

    Shear

    图片错切

    AddNoise

    添加噪声

     

    图形化界面实现数据预处理

    ModelArts为用户提供简单的图形化界面,您只需要动动鼠标,就能完成指定的数据预处理任务。

    1. 上传您的数据集至OBS。OBSMordelArts存储数据的仓库。上传点这里
    2. 创建数据预处理任务,您需要填写下图中的参数,详细介绍点这里

      界面.png

    3. 等待几分钟后任务完成,您可以查看日志和结果展示。


    更多ModelArts数据预处理介绍

    1. 数据预处理简介
    2. 数据增强:使用数据增强,解决数据不足和数据集不均衡的情况
    3. 数据校验:给你的数据做个体检吧
    4. 数据选择:使用数据选择,去除重复数据
    5. 数据清洗:数据清洗去除您的数据集中无关类别
    【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
    • 点赞
    • 收藏
    • 关注作者

    评论(0

    0/1000
    抱歉,系统识别当前为高风险访问,暂不支持该操作

    全部回复

    上滑加载中

    设置昵称

    在此一键设置昵称,即可参与社区互动!

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。