GPU科普系列之Nvidia最新GPU H200
一、 背景
北京时间2023.11.13日,Supercomputing 2023大会上Nvidia推出全新一代GPU H200,预计明年第二季度量产。
我们对H系列的GPU认知还停留在10.23日开始制裁H100 H800 A100 A800 L40S芯片对国内的出口。这才没多久H200
芯片就来了。nvidia官方介绍上说道 H200是目前世界上最强大的 GPU,为人工智能和高性能计算工作负载提供超强动力。所以H200到底是怎样的一个芯片呢?
二、 参数介绍
NVIDIA H200 基于 NVIDIA Hopper 架构,是首款以 4.8 TB/s 速度提供 141 GB HBM3e 内存的 GPU,几乎是 NVIDIA H100 Tensor Core GPU 容量的两倍(1.4 倍)更多内存带宽。 H200 的内存更大、速度更快,可加速人工智能和 LLM大语言模型的训练,同时提供更高的能源效率和更低的总耗拥有成本推进 HPC 工作负载的科学计算(降本增效)。
-
更高的性能和更大更快的内存
在不断发展的人工智能领域,企业依靠 LLM 来满足各种推理需求。人工智能推理加速器在为大规模用户群进行大规模部署时,必须以最低的总体拥有成本提供最高的吞吐量。
Llama2 是一个 700 亿参数的 LLM -
增强高性能计算能力
内存带宽对于 HPC 应用程序至关重要,因为它可以实现更快的数据传输,减少复杂的处理瓶颈。对于模拟、科学研究和人工智能等内存密集型 HPC 应用,H200 更高的内存带宽可确保高效地访问和操作数据,与 CPU 相比,获得结果的时间最多可加快 110 倍。
-
减少能耗和总体拥有成本
随着 H200 的推出,能源效率和 TCO 达到了新的水平。这项尖端技术提供了无与伦比的性能,且功率配置与 H100 相同。人工智能工厂和超级计算系统不仅速度更快,而且更环保,提供了推动人工智能和科学界向前发展的经济优势。
三、 Nvidia GPU发布计划
从2021年的发布的A100 到2023年的H100,nvidia保持两年一次产品升级的节奏。如今nvidia似乎已经加快脚本,一年一次更新。明年后面会相继推出B100 x100
四 、我们到底需要多少个GPU
全世界的AI公司都陷入算力荒,英伟达的GPU已经千金难求,需要为其大模型开路。
- GPT-4 可能需要 10,000 到 25,000 个 A100显卡 进行训练。
- Meta 拥有约 21,000 台 A100,Tesla 拥有约 7,000 台 A100,Stability AI 拥有约 5,000 台 A100。
- Falcon-40B的训练 需要384张A100显卡
- Inflection AI在其 GPT-3.5 等效模型中使用了 3,500 张H100。
- 根据 埃隆马斯克 的说法,GPT-5 可能需要 30k-50k 张H100。摩根士丹利在 2023 年 2 月表示,GPT-5 将使用 25,000 个 GPU
- GCP 拥有大约 25,000 张 H100。 Azure 可能有 10k-40k 张H100。 Oracle 应该类似。 Azure 的大部分GPU都支持了 OpenAI。
五、 参考资料
nvidia官方:
https://www.nvidia.com/en-us/events/supercomputing/
https://www.nvidia.com/en-gb/data-center/h200/
- 点赞
- 收藏
- 关注作者
评论(0)