- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

HCIE-AI：大模型应用的数据

剑指南天发表于 2026/06/11 16:00:13 2026/06/11

【摘要】本章主要介绍了小模型和大模型训练数据集的差异性，并详细讲解了大模型训练过程中使用的数据类型。笔试占比3%。

1.概述

本文主要内容是模型训练前的数据集收集和处理，以及描述了模型训练和推理中的数据形式。

2. 目标

3. 大模型所需的数据

3.1 大模型数据集与传统模型数据集的区别

传统模型所需数据集	大模型所需数据集
数据集主要分为训练集和测试集	数据集按照训练阶段分为预训练、监督微调、奖励模型和强化学习四个阶段数据集，每个阶段所需数据不同。预训练需要的是混合数据，监督微调需要的是高质量领域相关数据，奖励模型需要的是人类反馈数据，强化学习需要的是标注良好的数据集
针对专业场景使用专业数据集，内容相对单一，与模型任务强相关	预训练所需数据的种类广泛
数据量相对较小，所占存储空间较小	所需数据量大，需要占用较大的存储空间

4. 常用的数据集

4.1 传统模型所需数据集

4.2 大模型所需的多模态数据集

①GPT预训练数据集

②LLaMA预训练数据集

③PaLM

5. 数据集标注工具

数据标注是指借助特定软件标注工具，将图片、语音、文本、视频等数据内容进行分类、标准特征标签等，使其易于被机器学习算法可理解和快速处理。

5.1 传统标注工具

①NLP领域数据标准工具-NLTK

②CV领域标注工具-labellmg

③Praat语音学软件

④ModelArts数据管理

ModelArts数据管理包含数据采集、数据筛选、数据标注、数据集版本管理，支持自动化和半自动化的数据筛选功能，支持自动化的数据预标注以及辅助自动化标注工具。

ModelArts数据标注有以下方面：

⑴人工标注

⑵智能标注

智能标注是指基于当前标注阶段的标签及学习训练，选中系统已有。

⑶团队标注

⑤百度EasyData数据标注

5.2 大模型数据集标注

①Huggingface

Huggingface提供多种数据集，并提供Transformer库用于各种自然语言处理任务中使用的预训练和相关工具

②启智 - Openl

6. 深度学习中的数据类型

6.1 按照数据结构化形式

①结构化数据是使用预定义和预期格式的数据

②非结构化数据是以绝对原始形式存在的数据

③半结构化数据是以非传统方式格式化的数据，半结构化数据不遵循表格数据模型或关系数据库的格式。

6.2 数据在内存中的保存形式

①FP32

②FP16

③BF16

④Tensor Float 32

Tensor Float 32是Tensor Core 支持的新的数据类型，从NVIDIA A100中开始支持。A100的FP32的峰值计算速度为19.5TOPs，而TF32的峰值计算速度为156TOPs。

⑤混合精度

⑥数据量化

量化（Quantization）是一种通过降低数值精度（例如从 16-bit 降至 4-bit）来压缩模型、节省显存的技术。使用低精度数据表达类型替换高精度数据表达类型，可以大幅降低存储空间和传输时间。

7. 总结

本章主要介绍了小模型和大模型训练数据集的差异性，并详细讲解了大模型训练过程中使用的数据类型。笔试占比3%。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

HCIE-AI：大模型应用的数据

1.概述

2. 目标

3. 大模型所需的数据

3.1 大模型数据集与传统模型数据集的区别

4. 常用的数据集

4.1 传统模型所需数据集

4.2 大模型所需的多模态数据集

5. 数据集标注工具

5.1 传统标注工具

5.2 大模型数据集标注

6. 深度学习中的数据类型

6.1 按照数据结构化形式

6.2 数据在内存中的保存形式

7. 总结

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

HCIE-AI：大模型应用的数据

1.概述

2. 目标

3. 大模型所需的数据

3.1 大模型数据集与传统模型数据集的区别

4. 常用的数据集

4.1 传统模型所需数据集

4.2 大模型所需的多模态数据集

5. 数据集标注工具

5.1 传统标注工具

5.2 大模型数据集标注

6. 深度学习中的数据类型

6.1 按照数据结构化形式

6.2 数据在内存中的保存形式

7. 总结

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品