HCIE-AI:大模型应用的数据

举报
剑指南天 发表于 2026/06/11 16:00:13 2026/06/11
【摘要】 本章主要介绍了小模型和大模型训练数据集的差异性,并详细讲解了大模型训练过程中使用的数据类型。笔试占比3%。

1.概述

本文主要内容是模型训练前的数据集收集和处理,以及描述了模型训练和推理中的数据形式。

2. 目标

3. 大模型数据集与小模型数据集的区别

传统模型所需数据集 大模型所需数据集
数据集主要分为训练集和测试集 数据集按照训练阶段分为预训练、监督微调、奖励模型和强化学习四个阶段数据集,每个阶段所需数据不同。预训练需要的是混合数据,监督微调需要的是高质量领域相关数据,奖励模型需要的是人类反馈数据,强化学习需要的是标注良好的数据集
针对专业场景使用专业数据集,内容相对单一,与模型任务强相关 预训练所需数据的种类广泛
数据量相对较小,所占存储空间较小 所需数据量大,需要占用较大的存储空间

4. 常用的数据集

4.1 传统模型所需数据集

4.2 大模型所需的多模态数据集

①GPT预训练数据集

②LLaMA预训练数据集

③PaLM

5. 数据集标注工具

数据标注是指借助特定软件标注工具,将图片、语音、文本、视频等数据内容进行分类、标准特征标签等,使其易于被机器学习算法可理解和快速处理。

5.1 传统标注工具

①NLP领域数据标准工具-NLTK

②CV领域标注工具-labellmg

③Praat语音学软件

④ModelArts数据管理

ModelArts数据管理包含数据采集、数据筛选、数据标注、数据集版本管理,支持自动化和半自动化的数据筛选功能,支持自动化的数据预标注以及辅助自动化标注工具。

ModelArts数据标注有以下方面:

⑴人工标注

⑵智能标注

智能标注是指基于当前标注阶段的标签及学习训练,选中系统已有。

⑶团队标注

⑤百度EasyData数据标注

5.2 大模型数据集标注

①Huggingface

Huggingface提供多种数据集,并提供Transformer库用于各种自然语言处理任务中使用的预训练和相关工具

②启智 - Openl

6. 深度学习中的数据类型

6.1 按照数据结构化形式

①结构化数据是使用预定义和预期格式的数据

②非结构化数据是以绝对原始形式存在的数据

③半结构化数据是以非传统方式格式化的数据,半结构化数据不遵循表格数据模型或关系数据库的格式。

6.2 数据在内存中的保存形式

①FP32

②FP16

③BF16

④Tensor Float 32

Tensor Float 32是Tensor Core 支持的新的数据类型,从NVIDIA A100中开始支持。A100的FP32的峰值计算速度为19.5TOPs,而TF32的峰值计算速度为156TOPs。

⑤混合精度

通过在模型训练的不同环节,灵活使用不同精度的浮点数(如 FP32、FP16、BF16 等),在保证模型最终性能的前提下,大幅提升训练速度降低显存占用

⑥数据量化

量化(Quantization) 是一种通过降低数值精度(例如从 16-bit 降至 4-bit)来压缩模型、节省显存的技术。使用低精度数据表达类型替换高精度数据表达类型,可以大幅降低存储空间和传输时间。

7. 总结

本章主要介绍了小模型和大模型训练数据集的差异性,并详细讲解了大模型训练过程中使用的数据类型。笔试占比3%。

【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。