HCIE-AI:大模型业务场景流程综述
1.概述
大模型是指具有大规模参数和复杂计算结构的深度学习模型,模型通常由神经网络构建而成,拥有数十亿甚至数千亿、万亿个参数。大模型研究的内容如下:
①大模型算法。大模型都是基于 Transformer 架构,现今主要演变为三种类型:编码器架构(Encoder-only)、解码器架构(Decoder-only)和编码器-解码器(Encoder-Decoder)。Encoder-only代表是BERT。Decoder-only的代表是GPT系列。Encoder-Decoder的代表是T5。而 Transformer 架构的核心是注意力机制。
②大模型硬件。大模型基础硬件是 GPU 和 NPU 。英伟达以 GPU 为基础,构建了一整套以 CUDA 为核心的软件生态。华为是以 NPU 为基础,构建了一整套以 CANN 为核心的软件生态。数据中心作为承载算力的关键底座,在算力需求爆炸式增长下,正加速向智算中心演进和转型。
③基于硬件的算法。基于硬件的特点开发的算法,主要包括并行计算、量化和优化算法。并行计算的代表是DeepSpeed。量化算法比如QLoRA。优化算法比如 FlashAttention。
④模型训练。模型训练包括基础模型训练和大模型微调。
⑤模型应用。比如豆包。
2. 目标

3. AI 应用发展现状
3.1 模型规模
①算法:参数量膨胀,单位由 Million 到 Billion。
②数据:训练数据增加,单个模型训练数据集可多达万亿token。
③算力:算力规模提升至 EFLOPS。
3.2 大模型 vs 小模型

3.3 云侧AI应用
当前大模型大多数都是云侧应用。优点是:算力相对充足,扩展性强。缺点是:数据安全问题,网络延迟,计算中心维护复杂
3.4 端侧应用
端侧最大的挑战就是如何平衡好体验和能耗。
3.5 算力挑战

3.6 算力需求
根据业界论文理论推算,端到端训练AI大模型的理论时间 E_t = 8 * T * P / ( n * X)。其中 E_t 为端到端训练理论时间,T为训练数据的token数量,P为模型参数量,n位AI硬件卡数,X为每块卡的有效算力。
假设训练数据是200B tokens,模型大小是120B,使用1000张卡计算,每张卡算力是312T,显卡利用率是0.4:
tokens:2*1011
P:1.2*1011
X:3.12*1014 FLops
n:1000
E_t = 8 * 2*1011 * 1.2*1011 / ( 1000 * 3.12*1014*0.4)= 1.5384615*106S ≈17.8 days
假设训练数据是20B tokens,模型大小是30B,使用100张卡计算,每张卡算力是156T,显卡利用率是0.35:
tokens:2*1010
P:3*1010
X:1.56*1014 FLops
n:100
E_t = 8 * 2*1010 * 3*1010 / ( 100* 1.56*1014*0.35)= 8.7912*105S ≈10.2 days
4. 大模型的分类和特点
4.1 大模型分类
4.1.1 技术架构分类
①Transformer架构:
编码器-解码器(Encoder-Decoder)的代表性模型是T5:


编码器架构(Encoder-only)的代表性模型是BERT:


解码器架构(Decoder-only):

预训练任务通常是Next word prediction,又称为Causal language modeling(CLM,因果语言模型)。

②混合专家模型
混合专家模型(MoE,Mixture of Experts)核心思想是:使用多个并行的 FeedForward(专家)替代单一的 FeedForward 层(稀疏MoE层),并通过 Router(路由器)根据输入 Token 选择其中少量最合适的专家参与计算。这样大幅增加了模型的总参数量,又不会等比例增加计算量。

4.1.2 行业场景分类
①基础大模型(L0)
②行业大模型(L1)
③场景模型(L2)
4.2 大模型的特点
①模型参数大
②多模态融合
③训练方式变化。传统模型参数量和所需数据量并不庞大,可以选择全参数训练。但是大模型一般都是使用高质量数据在基座模型上进行微调。
④基座模型具有适应性,可以根据输入提示高度准确的执行各种不同的任务。基座模型有望显著性改变机器学习的生命周期。
Fundation Model指在AI领域一类被广泛使用的基础模型(或称基础架构模型),是在海量数据和计算资源的基础上训练出来的通用性较强的深度学习模型。
常见的FM:Transformer,BERT,GPT,CLIP,GLM
基座模型的缺点:基础设施要求高,缺乏理解能力,不可靠的答案,偏见。
⑤涌现表现在语境学习,指令遵循,逐步推理(思维链(CoT))的能力。
⑥同质化,基础模型的能力或者缺陷都会被下游模型继承。
5. 主流的大模型介绍
GPT4,LLaMA,LLaMA2,GLM,盘古,Stable Diffusion,OPen-Sora
6. 大模型应用
①ChatGPT
②讯飞星火
③盘古大模型3.0
④CodeArts Snap
⑤数字人
⑥ AIGC
⑦内容生成
7. 大模型训练及推理流程
7.1 大模型训练
①预训练
预训练模型是指在大型数据集上进行训练的深度神经网络模型,其中包含大量的参数和层级,通常需要使用大量的计算资源。
②Supervised Fine Tuning
选择在一个较强的基座模型上进行微调,可以在较低成本下获取某一领域效果较好的大模型。
③RLHF

7.2 大模型推理
大模型的推理流程包括两个部分:全量推理(Encode)和增量推理(Decode)。
8. 大模型业务流程
8.1 需求分析
①业务需求
②功能需求
8.2 技术选型
①模型选择
②开发环境
8.3 数据准备
①业务数据
8.4 模型微调
8.5 资源需求
8.6 评估指标

8.6 模型增强
通过知识库弥补预训练在某些专业领域的短板或特别强化大模型在某个细分场景下的能力,并提高实事准确性。
8.7 模型部署
①推理服务器资源:结合业务高峰期并发量,选择合适的计算资源
②模型量化
③可拓展性
④部署监控系统
⑤定期对模型进行优化和调整,以提高模型的准确率和效率
8.8 模型推理
大模型推理的核心工作是优化模型推理,实现推理加速。
8.9 模型安全
①评估模型的安全性,防止恶意输入导致模型失效或泄露敏感信息
②考虑数据的隐私性,指定适当的数据保护措施和访问控制策略
9. 总结
本章介绍了大模型的特性、发展以及业务流程,笔试占比10%。
- 点赞
- 收藏
- 关注作者
评论(0)