- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

数据处理——ModelArts AI企业智能开发中至关重要一环

coldsheep 发表于 2020/08/07 16:06:26 2020/08/07

【摘要】数据处理——ModelArts AI企业智能开发中至关重要一环数据处理就是从大量的、可能是杂乱无章的、难以理解的数据中抽取或者生成对某些特定的人们来说是有价值、有意义的数据。并且在机器学习的开发过程中，数据处理是需要耗费用户大量时间完成的。因此在ModelArts平台里，我们内置了很多数据处理的能力，去处理用户常见的数据问题，大家可以去使用ModelArts的数据处理能力，了解AI企业开发过...

数据处理就是从大量的、可能是杂乱无章的、难以理解的数据中抽取或者生成对某些特定的人们来说是有价值、有意义的数据。并且在机器学习的开发过程中，数据处理是需要耗费用户大量时间完成的。因此在ModelArts平台里，我们内置了很多数据处理的能力，去处理用户常见的数据问题，大家可以去使用ModelArts的数据处理能力，了解AI企业开发过程中的常见数据处理能力，并且近阶段是免费的，大家可以去体验。

例如当数据采集和接入之后，数据一般是不能直接满足训练要求的，为了保障数据质量，并且不对后续操作（如数据标注、模型训练等）带来负面影响，需要进行数据处理。

ModelArts常见的数据处理类型有如下几种：

Ø 数据校验：通常数据采集后需要进行校验，保证数据合法。数据校验是指对数据可用性的基本判断和验证的过程。通常，我们采集的数据或多或少都会有很多格式问题，无法被进一步地做处理。以图像识别为例，用户经常会从网上找一些图片用于训练，但是其质量难以保证，有可能图片的名字、路径、后缀名都不满足训练算法的要求；图片也可能有部分损坏，造成无法解码、无法被算法处理；因此，数据的校验非常重要，可以帮助人工智能开发者提前发现数据问题。有效防止数据噪声造成的算法精度下降或者训练失败问题。

Ø 数据清洗：数据清洗是指对数据进行去燥、纠错或补全的过程。数据清洗是在数据校验的基础上，对数据进行一致性检查，处理一些无效值。例如在深度学习领域，可以根据用户输入的正样本和负样本，对数据进行清洗，保留用户想要的类别，去除用户不想要的类别。

Ø 数据选择：数据选择一般是指从全量数据中选择数据子集的过程。选择数据的依据有很多，可以通过一些相似度，也可以根据深度学习算法进行选择。例如：很多图片都是人工采集，可能有一些图片有重复，需要被去除。例如在一批输入旧模型的推理数据中，通过内置规则选择可以进一步提升旧模型精度的数据。

Ø 数据增强：数据增强是指通过缩放、裁剪、变换、合成等操作直接或间接的方式增加数据量，进一步提升模型的训练精度。

后续我们会持续改进优化ModelArts数据处理能力。

ModelArts数据处理相关博客：

1. 数据处理简介：https://bbs.huaweicloud.com/blogs/193413

2. 数据增强：https://bbs.huaweicloud.com/blogs/189148 使用数据增强，解决数据不足和数据集不均衡的情况

3. 数据生成域迁移：https://bbs.huaweicloud.com/blogs/193405 数据风格变换：ModelArts的数据域迁移功能

4. 数据校验：https://bbs.huaweicloud.com/blogs/193412 数据校验--给你的数据做个体检吧

5. 数据去重：https://bbs.huaweicloud.com/blogs/193420 数据去重---ModelArts在数据处理上的应用技巧-免费，欢迎大家体验

6. 数据清洗：https://bbs.huaweicloud.com/blogs/193421 数据清洗---ModelArts在数据处理上的应用技巧-免费，欢迎大家体验

7. 难例筛选：https://bbs.huaweicloud.com/blogs/193422 如何加速AI模型迭代：Modelarts的难例筛选功能

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

数据处理——ModelArts AI企业智能开发中至关重要一环

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

数据处理——ModelArts AI企业智能开发中至关重要一环

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品