HCIE-AI:大模型应用的数据
1.概述
本文主要内容是模型训练前的数据集收集和处理,以及描述了模型训练和推理中的数据形式。
2. 目标

3. 大模型数据集与小模型数据集的区别
| 传统模型所需数据集 | 大模型所需数据集 |
| 数据集主要分为训练集和测试集 | 数据集按照训练阶段分为预训练、监督微调、奖励模型和强化学习四个阶段数据集,每个阶段所需数据不同。预训练需要的是混合数据,监督微调需要的是高质量领域相关数据,奖励模型需要的是人类反馈数据,强化学习需要的是标注良好的数据集 |
| 针对专业场景使用专业数据集,内容相对单一,与模型任务强相关 | 预训练所需数据的种类广泛 |
| 数据量相对较小,所占存储空间较小 | 所需数据量大,需要占用较大的存储空间 |
4. 常用的数据集
4.1 传统模型所需数据集

4.2 大模型所需的多模态数据集
①GPT预训练数据集

②LLaMA预训练数据集

③PaLM

5. 数据集标注工具
数据标注是指借助特定软件标注工具,将图片、语音、文本、视频等数据内容进行分类、标准特征标签等,使其易于被机器学习算法可理解和快速处理。
5.1 传统标注工具
①NLP领域数据标准工具-NLTK
②CV领域标注工具-labellmg
③Praat语音学软件
④ModelArts数据管理
ModelArts数据管理包含数据采集、数据筛选、数据标注、数据集版本管理,支持自动化和半自动化的数据筛选功能,支持自动化的数据预标注以及辅助自动化标注工具。
ModelArts数据标注有以下方面:
⑴人工标注

⑵智能标注
智能标注是指基于当前标注阶段的标签及学习训练,选中系统已有。
⑶团队标注
⑤百度EasyData数据标注
5.2 大模型数据集标注
①Huggingface
Huggingface提供多种数据集,并提供Transformer库用于各种自然语言处理任务中使用的预训练和相关工具
②启智 - Openl
6. 深度学习中的数据类型
6.1 按照数据结构化形式
①结构化数据是使用预定义和预期格式的数据
②非结构化数据是以绝对原始形式存在的数据
③半结构化数据是以非传统方式格式化的数据,半结构化数据不遵循表格数据模型或关系数据库的格式。
6.2 数据在内存中的保存形式
①FP32



②FP16

③BF16

④Tensor Float 32
Tensor Float 32是Tensor Core 支持的新的数据类型,从NVIDIA A100中开始支持。A100的FP32的峰值计算速度为19.5TOPs,而TF32的峰值计算速度为156TOPs。
⑤混合精度
通过在模型训练的不同环节,灵活使用不同精度的浮点数(如 FP32、FP16、BF16 等),在保证模型最终性能的前提下,大幅提升训练速度、降低显存占用。
⑥数据量化
量化(Quantization) 是一种通过降低数值精度(例如从 16-bit 降至 4-bit)来压缩模型、节省显存的技术。使用低精度数据表达类型替换高精度数据表达类型,可以大幅降低存储空间和传输时间。
7. 总结
本章主要介绍了小模型和大模型训练数据集的差异性,并详细讲解了大模型训练过程中使用的数据类型。笔试占比3%。
- 点赞
- 收藏
- 关注作者
评论(0)