数据处理,标注,分析“ModelArts人工智能应用开发指南” 学习分享

HW-QGS 发表于 2020/12/29 00:00:02 2020/12/29
【摘要】 此为分享,并非详细操作哟~

数据处理(效验,转换,清洗,选择,增强)

数据处理的目的是让开发者在模型训练之前拿到质量更高的数据集,以提升精度,降低模型训练成本

1,数据效验和转换

数据效验(对数据可用性进行判断和验证的过程)

采集的数据是否有格式的问题,图像名称,后缀不满足训练算法的要求,可能无法识别,和无法解码等情况,因此,数据的效验非常重要,数据的标注格式可能也有很多种。

ModelArts数据处理模块提供数据效验功能,对于图像数据,判断标注格式是否相符合要求,图像分辨率是否符合要求,图像通道是否符合算法要求,图像解码是否正常,图像名称和后缀是否满足规范

数据转换(对数据进行规范化处理)

数据转换是指数据大小,格式,特征等进行变换的过程,数据转换是为了使数据更适合算法选择和模型训练,使数据充分利用

如图像有JPEG,PNG等格式,为了满足算法输入要求的格式,比如算法要求图像都是PNG格式,就要将不同的图像格式转换成PNG格式,这就需要转换格式并进行必要的数据整理


数据清洗(数据进行去噪,纠错或补全的过程)

1,离散化(针对连续的场景特征取值) 2,无量纲化(保持特征之间的公平性,提高模型精准度) 3,缺失值补全  4,分布变换(对数变换,指数变换等) 5,变量解码(文字,字母,频率等)


数据选择(特征提取,聚类排序,选择最优子集)


数据增强

数据增强通过缩放,裁剪,变换,合成等操作直接或者间接增强数据量,进而进一步提升模型的训练精度,结构化数据和非结构化数据都可以做数据增强

数据增强可以分为,离线数据增强和在线数据增强

数据增强的常见方法

1,空间几何变换

旋转

翻转变换

缩放变换

平移变换

尺度变换

2,像素和特征变换

对比度变换

噪声扰动

颜色变化

3,样本合成

SamplePairing

MixUp等

选择数据处理,在选择分类等,数据处理类型,选择数据集的输入与输出等

选择场景以及数据处理类型

创建完成

数据标注

现今大多数人工智能算法依旧是依赖监督学习,所以数据标注非常重要

1,标注任务分类(与实际场景密切相关),比如,图像分类标注,目标检测标注,图像分割标注,点云标注

ModelArts通用标注工具,矩形框,多边形,圆形,点,线等

常用的文本相关标注任务如,文本分类标注,命名体识别标注,三元组标注,词法分析标注,命名体识别标注,机器翻译标注等


如上百万张图像大量的图像数据标注,不仅费时而且消耗大量的人力成本及资源,为了减少标注消耗的时间同时降低标注成本,ModelArts在标注中加入了机器学习技术并为标注者提供了智能数据标注服务

1,基于主动学习的智能数据标注

标注者仅需少量的数据作为训练集来训练模型,再用训练好的模型对未标注的数据进行推理

2,交互式智能标注(1,交换式目标检测注  2,交换式分割标注 3,交换式视频标注 4,其他交换式智能标注)

先创建数据集(一定选择北京四哦)

数据集名称可自动生成,也可以手动输入自己需要的名称,再选择场景,类型等,输入位置比如,food,输出位置比如,out等


完成数据集创建

点击名称进入数据集,便可进行,标注,团队标注(数据集庞大时建议使用),标注完成后便可发布,还可以导入新的数据,修改等操作

数据集较为庞大时,建议使用智能标注,建议每种标注数量十几张以上时再使用智能标注

选择智能标注的类型以及算法类型

数据分析

对数据整体的统计分析,以及对单个数据进行细粒度分析诊断,才可以更加深入地了解数据,及时发现更深层次的问题并优化

1,数据集特征分析和优化

特征分析主要是更快速方便的了解数据集的特点,并制定后续的优化和处理方案,ModelArts特征分析模块主要支持特征,分辨率,图像亮度,图像饱和度,清晰度,图像色彩丰富等常规图像特征,面积标准度,堆叠度等

图片.png

选择数据集版本,在选择类型,在根据自己需要的指标进行查看

选择自己需要的数据集版本

图片.png

选择类型

图片.png

清晰度

图片.png

图片高度比

图片.png

分辨率

图片.png

图像亮度

图片.png

图像彩色的丰富程度

图片.png

图片的饱和程度

图片.png

全选一目了然

图片.png

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区),文章链接,文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。