- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

数据处理，标注，分析“ModelArts人工智能应用开发指南” 学习分享

举报

QGS 发表于 2020/12/29 00:00:02 2020/12/29

【摘要】此为分享，并非详细操作哟~

数据处理（效验，转换，清洗，选择，增强）

数据处理的目的是让开发者在模型训练之前拿到质量更高的数据集，以提升精度，降低模型训练成本

1，数据效验和转换

数据效验（对数据可用性进行判断和验证的过程）

采集的数据是否有格式的问题，图像名称，后缀不满足训练算法的要求，可能无法识别，和无法解码等情况，因此，数据的效验非常重要，数据的标注格式可能也有很多种。

ModelArts数据处理模块提供数据效验功能，对于图像数据，判断标注格式是否相符合要求，图像分辨率是否符合要求，图像通道是否符合算法要求，图像解码是否正常，图像名称和后缀是否满足规范

数据转换（对数据进行规范化处理）

数据转换是指数据大小，格式，特征等进行变换的过程，数据转换是为了使数据更适合算法选择和模型训练，使数据充分利用

如图像有JPEG,PNG等格式，为了满足算法输入要求的格式，比如算法要求图像都是PNG格式，就要将不同的图像格式转换成PNG格式，这就需要转换格式并进行必要的数据整理

数据清洗（数据进行去噪，纠错或补全的过程）

1，离散化（针对连续的场景特征取值） 2，无量纲化（保持特征之间的公平性，提高模型精准度） 3，缺失值补全 4，分布变换（对数变换，指数变换等） 5，变量解码（文字，字母，频率等）

数据选择（特征提取，聚类排序，选择最优子集）

数据增强

数据增强通过缩放，裁剪，变换，合成等操作直接或者间接增强数据量，进而进一步提升模型的训练精度，结构化数据和非结构化数据都可以做数据增强

数据增强可以分为，离线数据增强和在线数据增强

数据增强的常见方法

1，空间几何变换

旋转

翻转变换

缩放变换

平移变换

尺度变换

2，像素和特征变换

对比度变换

噪声扰动

颜色变化

3，样本合成

SamplePairing

MixUp等

选择数据处理，在选择分类等，数据处理类型，选择数据集的输入与输出等

选择场景以及数据处理类型

创建完成

数据标注

现今大多数人工智能算法依旧是依赖监督学习，所以数据标注非常重要

1，标注任务分类（与实际场景密切相关），比如，图像分类标注，目标检测标注，图像分割标注，点云标注

ModelArts通用标注工具，矩形框，多边形，圆形，点，线等

常用的文本相关标注任务如，文本分类标注，命名体识别标注，三元组标注，词法分析标注，命名体识别标注，机器翻译标注等

如上百万张图像大量的图像数据标注，不仅费时而且消耗大量的人力成本及资源，为了减少标注消耗的时间同时降低标注成本，ModelArts在标注中加入了机器学习技术并为标注者提供了智能数据标注服务

1，基于主动学习的智能数据标注

标注者仅需少量的数据作为训练集来训练模型，再用训练好的模型对未标注的数据进行推理

2，交互式智能标注（1，交换式目标检测注 2，交换式分割标注 3，交换式视频标注 4，其他交换式智能标注）

先创建数据集（一定选择北京四哦）

数据集名称可自动生成，也可以手动输入自己需要的名称，再选择场景，类型等，输入位置比如，food，输出位置比如，out等

完成数据集创建

点击名称进入数据集，便可进行，标注，团队标注（数据集庞大时建议使用），标注完成后便可发布，还可以导入新的数据，修改等操作

数据集较为庞大时，建议使用智能标注，建议每种标注数量十几张以上时再使用智能标注

选择智能标注的类型以及算法类型

数据分析

对数据整体的统计分析，以及对单个数据进行细粒度分析诊断，才可以更加深入地了解数据，及时发现更深层次的问题并优化

1，数据集特征分析和优化

特征分析主要是更快速方便的了解数据集的特点，并制定后续的优化和处理方案，ModelArts特征分析模块主要支持特征，分辨率，图像亮度，图像饱和度，清晰度，图像色彩丰富等常规图像特征，面积标准度，堆叠度等

选择数据集版本，在选择类型，在根据自己需要的指标进行查看

选择自己需要的数据集版本

选择类型

清晰度

图片高度比

分辨率

图像亮度

图像彩色的丰富程度

图片的饱和程度

全选一目了然

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

评论（0）

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长