数据处理——ModelArts AI企业智能开发中至关重要一环

coldsheep 发表于 2020/08/07 16:06:26 2020/08/07
【摘要】 数据处理——ModelArts AI企业智能开发中至关重要一环数据处理就是从大量的、可能是杂乱无章的、难以理解的数据中抽取或者生成对某些特定的人们来说是有价值、有意义的数据。并且在机器学习的开发过程中,数据处理是需要耗费用户大量时间完成的。因此在ModelArts平台里,我们内置了很多数据处理的能力,去处理用户常见的数据问题,大家可以去使用ModelArts的数据处理能力,了解AI企业开发过...

数据处理——ModelArts AI企业智能开发中至关重要一环

数据处理就是从大量的、可能是杂乱无章的、难以理解的数据中抽取或者生成对某些特定的人们来说是有价值、有意义的数据。并且在机器学习的开发过程中,数据处理是需要耗费用户大量时间完成的。因此在ModelArts平台里,我们内置了很多数据处理的能力,去处理用户常见的数据问题,大家可以去使用ModelArts的数据处理能力,了解AI企业开发过程中的常见数据处理能力,并且近阶段是免费的,大家可以去体验。

例如当数据采集和接入之后,数据一般是不能直接满足训练要求的,为了保障数据质量,并且不对后续操作(如数据标注、模型训练等)带来负面影响,需要进行数据处理。

ModelArts常见的数据处理类型有如下几种:

Ø  数据校验:通常数据采集后需要进行校验,保证数据合法。数据校验是指对数据可用性的基本判断和验证的过程。通常,我们采集的数据或多或少都会有很多格式问题,无法被进一步地做处理。以图像识别为例,用户经常会从网上找一些图片用于训练,但是其质量难以保证,有可能图片的名字、路径、后缀名都不满足训练算法的要求;图片也可能有部分损坏,造成无法解码、无法被算法处理;因此,数据的校验非常重要,可以帮助人工智能开发者提前发现数据问题。有效防止数据噪声造成的算法精度下降或者训练失败问题。

Ø  数据清洗:数据清洗是指对数据进行去燥、纠错或补全的过程。数据清洗是在数据校验的基础上,对数据进行一致性检查,处理一些无效值。例如在深度学习领域,可以根据用户输入的正样本和负样本,对数据进行清洗,保留用户想要的类别,去除用户不想要的类别。

Ø  数据选择:数据选择一般是指从全量数据中选择数据子集的过程。选择数据的依据有很多,可以通过一些相似度,也可以根据深度学习算法进行选择。例如:很多图片都是人工采集,可能有一些图片有重复,需要被去除。例如在一批输入旧模型的推理数据中,通过内置规则选择可以进一步提升旧模型精度的数据。

Ø  数据增强:数据增强是指通过缩放、裁剪、变换、合成等操作直接或间接的方式增加数据量,进一步提升模型的训练精度。

后续我们会持续改进优化ModelArts数据处理能力。

ModelArts数据处理相关博客:

1. 数据处理简介:https://bbs.huaweicloud.com/blogs/193413 

2. 数据增强:https://bbs.huaweicloud.com/blogs/189148  使用数据增强,解决数据不足和数据集不均衡的情况

3. 数据生成域迁移:https://bbs.huaweicloud.com/blogs/193405  数据风格变换:ModelArts的数据域迁移功能

4. 数据校验:https://bbs.huaweicloud.com/blogs/193412   数据校验--给你的数据做个体检吧

5. 数据去重:https://bbs.huaweicloud.com/blogs/193420  数据去重---ModelArts在数据处理上的应用技巧-免费,欢迎大家体验

6. 数据清洗:https://bbs.huaweicloud.com/blogs/193421  数据清洗---ModelArts在数据处理上的应用技巧-免费,欢迎大家体验

7. 难例筛选:https://bbs.huaweicloud.com/blogs/193422  如何加速AI模型迭代:Modelarts的难例筛选功能


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区),文章链接,文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。