- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

一文带你了解模型量化、剪枝和蒸馏

Jack20 发表于 2025/09/28 10:38:09 2025/09/28

【摘要】模型量化、剪枝和蒸馏是三种主流的模型压缩与优化技术，核心目标是在保证模型性能（精度、准确率）的前提下，减小模型体积、降低计算复杂度，使其能在资源受限的设备（如手机、嵌入式设备、边缘终端）上高效部署。一、模型量化（Model Quantization）：降低参数精度，减少存储与计算成本核心的原理将模型中高精度的参数（如 32 位浮点数，FP32）转换为低精度格式（如 16 位浮点数 FP16、...

模型量化、剪枝和蒸馏是三种主流的模型压缩与优化技术，核心目标是在保证模型性能（精度、准确率）的前提下，减小模型体积、降低计算复杂度，使其能在资源受限的设备（如手机、嵌入式设备、边缘终端）上高效部署。

一、模型量化（Model Quantization）：降低参数精度，减少存储与计算成本

核心的原理

将模型中高精度的参数（如 32 位浮点数，FP32）转换为低精度格式（如 16 位浮点数 FP16、8 位整数 INT8，甚至 4 位、2 位、1 位），利用神经网络对 “噪声” 的容忍性，在精度损失可控的前提下，减少参数存储量和计算量。

关键方法

训练后量化（Post-Training Quantization, PTQ）
- 直接对训练好的模型参数进行量化，无需重新训练，操作简单（如 TensorFlow Lite 的量化工具）。
- 缺点：精度损失可能较大（尤其低至 INT8 以下时），适合对精度要求不高的场景（如简单图像分类）。
量化感知训练（Quantization-Aware Training, QAT）
- 在训练过程中模拟低精度量化的误差（如数值截断、舍入），让模型 “适应” 量化带来的噪声，最终输出量化模型。
- 优点：精度损失小（INT8 量化可保留原模型 95% 以上性能），适合高精度需求场景（如目标检测、医学影像）。

效果与适用场景

压缩效果：FP32→INT8 可减少 75% 存储量（32 位→8 位），计算速度提升 2-4 倍（硬件对整数计算支持更高效）。
典型场景：移动端 AI（如手机拍照的实时美颜、语音识别）、嵌入式设备（如智能家居的图像传感器）。

二、模型剪枝（Model Pruning）：移除冗余参数，精简模型结构

核心的原理

神经网络存在大量 “冗余参数”（如权重绝对值接近 0 的连接、贡献微小的神经元或层），剪枝通过移除这些冗余部分，在不显著影响性能的前提下，减小模型规模。

关键方法

非结构化剪枝（Unstructured Pruning）
- 随机或按阈值移除单个冗余权重（如删除绝对值小于 0.001 的权重），得到稀疏矩阵。
- 优点：压缩率高（可移除 50%-90% 参数）；缺点：稀疏矩阵难以被硬件加速（普通 GPU/CPU 对非连续内存访问效率低）。
结构化剪枝（Structured Pruning）
- 按 “结构单元” 移除冗余（如 CNN 的整个卷积核、通道，Transformer 的整个注意力头），保留模型的密集性。
- 优点：适配硬件加速（如 GPU 的卷积计算优化），部署友好；缺点：压缩率略低（通常移除 30%-60% 参数）。

效果与适用场景

压缩效果：结构化剪枝可减少 40%-60% 计算量，模型体积缩小 30%-50%（如 ResNet50 剪枝后可在嵌入式设备运行）。
典型场景：CNN 模型压缩（如自动驾驶的实时目标检测）、边缘计算设备（如工业机器人的视觉识别）。

三、知识蒸馏（Knowledge Distillation）：小模型学习大模型的 “知识”

核心的原理

用一个高性能的大模型（教师模型，Teacher Model）指导一个小模型（学生模型，Student Model）训练，让小模型 “模仿” 大模型的行为（不仅是最终输出，还包括中间特征、概率分布等），使小模型在体积小的情况下接近大模型的性能。

关键方法

基于软标签的蒸馏
- 教师模型输出 “软标签”（如分类任务中的概率分布，包含类间关系信息，如 “猫” 和 “虎” 的概率接近），学生模型通过学习软标签（而非仅硬标签 “猫”），学到更丰富的知识。
- 核心损失：蒸馏损失（学生软标签与教师软标签的 KL 散度）+ 任务损失（学生硬标签与真实标签的交叉熵）。
特征蒸馏
- 让学生模型的中间层特征（如 CNN 的卷积层输出、Transformer 的隐藏状态）模仿教师模型的对应层特征，保留更深层的任务相关信息。

效果与适用场景

压缩效果：学生模型体积可缩小 10-100 倍，性能接近教师模型（如用 BERT-base 作为教师，蒸馏出的 MobileBERT 在 NLP 任务上性能损失 < 3%，速度提升 5 倍）。
典型场景：NLP 任务（如手机端的语音助手、文本分类）、需要小模型但高性能的场景（如可穿戴设备的健康监测）。

对比一下下

技术	核心优化方向	优势	劣势	典型组合
量化	降低参数精度	实现简单，硬件加速友好	过低精度可能导致性能下降	剪枝 + 量化（先精简结构，再降精度）
剪枝	移除冗余参数 / 结构	直接减少计算量和参数数量	需精细调参避免性能损失	蒸馏 + 剪枝（用教师指导剪枝后的学生）
蒸馏	小模型模仿大模型	性能接近大模型，泛化性好	需要教师模型，训练流程复杂	量化 + 蒸馏（低精度小模型学习大模型知识）

总结一下下

量化适合 “降精度提效”，侧重硬件友好性；
剪枝适合 “删冗余精简”，侧重结构优化；
蒸馏适合 “小模型学知识”，侧重性能保留。

实际部署中，三者常结合使用（如先蒸馏得到小模型，再剪枝移除冗余，最后量化至 INT8），在资源受限设备上实现 “小体积、高性能、快速度” 的 AI 应用。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

一文带你了解模型量化、剪枝和蒸馏

一、模型量化（Model Quantization）：降低参数精度，减少存储与计算成本

核心的原理

关键方法

效果与适用场景

二、模型剪枝（Model Pruning）：移除冗余参数，精简模型结构

核心的原理

关键方法

效果与适用场景

三、知识蒸馏（Knowledge Distillation）：小模型学习大模型的 “知识”

核心的原理

关键方法

效果与适用场景

对比一下下

总结一下下

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

一文带你了解模型量化、剪枝和蒸馏

一、模型量化（Model Quantization）：降低参数精度，减少存储与计算成本

核心的原理

关键方法

效果与适用场景

二、模型剪枝（Model Pruning）：移除冗余参数，精简模型结构

核心的原理

关键方法

效果与适用场景

三、知识蒸馏（Knowledge Distillation）：小模型学习大模型的 “知识”

核心的原理

关键方法

效果与适用场景

对比一下下

总结一下下

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品