GPU科普系列之Nvidia最新GPU H200
【摘要】 我们对H系列的GPU认知还停留在10.23日美国开始制裁H100 H800 A100 A800 L40S芯片对国内的出口。这才没多久H200芯片就来了。nvidia官方介绍上说道 H200是目前世界上最强大的 GPU
一、 背景
北京时间2023.11.13日,Supercomputing 2023大会上Nvidia推出全新一代GPU H200,预计明年第二季度量产。
我们对H系列的GPU认知还停留在10.23日开始制裁H100 H800 A100 A800 L40S芯片对国内的出口。这才没多久H200
芯片就来了。nvidia官方介绍上说道 H200是目前世界上最强大的 GPU,为人工智能和高性能计算工作负载提供超强动力。所以H200到底是怎样的一个芯片呢?
二、 参数介绍
NVIDIA H200 基于 NVIDIA Hopper 架构,是首款以 4.8 TB/s 速度提供 141 GB HBM3e 内存的 GPU,几乎是 NVIDIA H100 Tensor Core GPU 容量的两倍(1.4 倍)更多内存带宽。 H200 的内存更大、速度更快,可加速人工智能和 LLM大语言模型的训练,同时提供更高的能源效率和更低的总耗拥有成本推进 HPC 工作负载的科学计算(降本增效)。
-
更高的性能和更大更快的内存
在不断发展的人工智能领域,企业依靠 LLM 来满足各种推理需求。人工智能推理加速器在为大规模用户群进行大规模部署时,必须以最低的总体拥有成本提供最高的吞吐量。
Llama2 是一个 700 亿参数的 LLM -
增强高性能计算能力
内存带宽对于 HPC 应用程序至关重要,因为它可以实现更快的数据传输,减少复杂的处理瓶颈。对于模拟、科学研究和人工智能等内存密集型 HPC 应用,H200 更高的内存带宽可确保高效地访问和操作数据,与 CPU 相比,获得结果的时间最多可加快 110 倍。
-
减少能耗和总体拥有成本
随着 H200 的推出,能源效率和 TCO 达到了新的水平。这项尖端技术提供了无与伦比的性能,且功率配置与 H100 相同。人工智能工厂和超级计算系统不仅速度更快,而且更环保,提供了推动人工智能和科学界向前发展的经济优势。
三、 Nvidia GPU发布计划
从2021年的发布的A100 到2023年的H100,nvidia保持两年一次产品升级的节奏。如今nvidia似乎已经加快脚本,一年一次更新。明年后面会相继推出B100 x100
四 、我们到底需要多少个GPU
全世界的AI公司都陷入算力荒,英伟达的GPU已经千金难求,需要为其大模型开路。
- GPT-4 可能需要 10,000 到 25,000 个 A100显卡 进行训练。
- Meta 拥有约 21,000 台 A100,Tesla 拥有约 7,000 台 A100,Stability AI 拥有约 5,000 台 A100。
- Falcon-40B的训练 需要384张A100显卡
- Inflection AI在其 GPT-3.5 等效模型中使用了 3,500 张H100。
- 根据 埃隆马斯克 的说法,GPT-5 可能需要 30k-50k 张H100。摩根士丹利在 2023 年 2 月表示,GPT-5 将使用 25,000 个 GPU
- GCP 拥有大约 25,000 张 H100。 Azure 可能有 10k-40k 张H100。 Oracle 应该类似。 Azure 的大部分GPU都支持了 OpenAI。
五、 参考资料
nvidia官方:
https://www.nvidia.com/en-us/events/supercomputing/
https://www.nvidia.com/en-gb/data-center/h200/
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
作者其他文章
评论(0)