数据处理——ModelArts AI企业智能开发中至关重要一环
数据处理——ModelArts AI企业智能开发中至关重要一环
数据处理就是从大量的、可能是杂乱无章的、难以理解的数据中抽取或者生成对某些特定的人们来说是有价值、有意义的数据。并且在机器学习的开发过程中,数据处理是需要耗费用户大量时间完成的。因此在ModelArts平台里,我们内置了很多数据处理的能力,去处理用户常见的数据问题,大家可以去使用ModelArts的数据处理能力,了解AI企业开发过程中的常见数据处理能力,并且近阶段是免费的,大家可以去体验。
例如当数据采集和接入之后,数据一般是不能直接满足训练要求的,为了保障数据质量,并且不对后续操作(如数据标注、模型训练等)带来负面影响,需要进行数据处理。
ModelArts常见的数据处理类型有如下几种:
Ø 数据校验:通常数据采集后需要进行校验,保证数据合法。数据校验是指对数据可用性的基本判断和验证的过程。通常,我们采集的数据或多或少都会有很多格式问题,无法被进一步地做处理。以图像识别为例,用户经常会从网上找一些图片用于训练,但是其质量难以保证,有可能图片的名字、路径、后缀名都不满足训练算法的要求;图片也可能有部分损坏,造成无法解码、无法被算法处理;因此,数据的校验非常重要,可以帮助人工智能开发者提前发现数据问题。有效防止数据噪声造成的算法精度下降或者训练失败问题。
Ø 数据清洗:数据清洗是指对数据进行去燥、纠错或补全的过程。数据清洗是在数据校验的基础上,对数据进行一致性检查,处理一些无效值。例如在深度学习领域,可以根据用户输入的正样本和负样本,对数据进行清洗,保留用户想要的类别,去除用户不想要的类别。
Ø 数据选择:数据选择一般是指从全量数据中选择数据子集的过程。选择数据的依据有很多,可以通过一些相似度,也可以根据深度学习算法进行选择。例如:很多图片都是人工采集,可能有一些图片有重复,需要被去除。例如在一批输入旧模型的推理数据中,通过内置规则选择可以进一步提升旧模型精度的数据。
Ø 数据增强:数据增强是指通过缩放、裁剪、变换、合成等操作直接或间接的方式增加数据量,进一步提升模型的训练精度。
后续我们会持续改进优化ModelArts数据处理能力。
ModelArts数据处理相关博客:
1. 数据处理简介:https://bbs.huaweicloud.com/blogs/193413
2. 数据增强:https://bbs.huaweicloud.com/blogs/189148 使用数据增强,解决数据不足和数据集不均衡的情况
3. 数据生成域迁移:https://bbs.huaweicloud.com/blogs/193405 数据风格变换:ModelArts的数据域迁移功能
4. 数据校验:https://bbs.huaweicloud.com/blogs/193412 数据校验--给你的数据做个体检吧
5. 数据去重:https://bbs.huaweicloud.com/blogs/193420 数据去重---ModelArts在数据处理上的应用技巧-免费,欢迎大家体验
6. 数据清洗:https://bbs.huaweicloud.com/blogs/193421 数据清洗---ModelArts在数据处理上的应用技巧-免费,欢迎大家体验
7. 难例筛选:https://bbs.huaweicloud.com/blogs/193422 如何加速AI模型迭代:Modelarts的难例筛选功能
- 点赞
- 收藏
- 关注作者
评论(0)