【置顶】ModelArts Server裸金属服务器解决方案导航全景(持续更新中)
1. Server 简介
ModelArts DevServer提供不同型号的xPU裸金属服务器,可以通过弹性公网IP进行访问满足算法工程师进行日常训练的需要,在给定的操作系统镜像上可以自行安装GPU&NPU相关的驱动和其他软件,使用SFS或OBS进行数据存储和读取相关的操作。
2. 操作系统及环境
2.1 GPU
2.1.1 ModelArts GPU Ant1裸金属服务器支持的镜像详情
2.1.2 ModelArts GPU Vnt1裸金属服务器支持的镜像详情
2.1.3 ModelArts GPU Ant8裸金属支持的镜像详情
2.2 NPU
2.2.1 【昇腾】ModelArts NPU Snt9裸金属支持的镜像详情
2.2.2 【昇腾】ModelArts NPU Snt9B裸金属支持的镜像详情
2.2.3 【昇腾】Snt9B服务器NPU驱动升级解决方案
2.2.4 【昇腾】Snt9B服务器配置指南
2.2.5【昇腾】ModelArts NPU DevServer-ECS弹性云服务 310P 支持的镜像详情
2.2.6 【昇腾】ModelArts NPU Snt9B共池裸金属服务器支持的镜像详情
3. 监控
3.1 GPU
3.1.1 GPU 裸金属服务器CES监控安装指南
3.1.2 GPU 裸金属服务器使用DCGM实现指标监控可视化方案
3.1.3 GPU裸金属服务器使用Node Exporter实现RDMA网卡指标监控可视化方案
3.2 NPU
3.2.1 【昇腾】NPU 裸金属服务器CES监控安装指南
3.2.2 【昇腾】NPU Snt9B裸金属服务器MAC、RoCE、NIC收发速率监控方法
3.2.3 【昇腾】NPU Snt9B裸金属服务器运行态RoCE带宽监控方法
4. Server资源使用指导
ModelArts Server裸金属子账号下单权限解决方案
ModelArts Ascend Snt9B裸金属服务器数据盘/本地盘挂载注意事项
华为云BMS GO SDK和Python脚本实现裸金属服务器的操作系统切换
华为云CCE集群纳管和验证GPU Vnt1裸金属服务器的解决方案
4.1 GPU
4.1.1 GPU 裸金属服务器如何选择NVIDIA和CUDA驱动
4.1.2 GPU A系列裸金属服务器使用注意事项
4.1.3 GPU 裸金属服务器 Ant8 vs Ant1参数对比
4.1.4 GPU Vnt1裸金属服务器的Docker模式环境搭建指导
4.1.5 GPU A系列NVIDIA环境和PyTorch2.0运行配置指南
4.1.6 GPU Ant8裸金属服务器NVIDIA525+CUDA12.0装机和NCCL验证
4.1.7 GPU Ant1裸金属服务器NVIDIA525+CUDA12.0装机和NCCL验证
4.1.8 GPU Vnt1裸金属服务器NVIDIA525+CUDA12.0装机和DOCKER验证
4.1.9 GPU Ant8裸金属服务器NVIDIA515+CUDA11.7装机和NCCL验证
4.1.10 GPU Ant1裸金属服务器EulerOS 2.9安装NVIDIA 515+CUDA 11.7
4.1.11 GPU Ant1裸金属服务器Ubuntu 18.04安装NVIDIA 470+CUDA 11.4
4.1.12 GPU A系列裸金属服务器更换NVIDIA和CUDA版本指导方案 - CUDA12.0降至CUDA11.7
4.1.13 GPU A系列裸金属服务器RoCE性能带宽测试
4.1.14 GPU A系列裸金属服务器节点内NVLINK带宽性能测试方法-pytorch模式
4.1.15 华为云GPU裸金属服务器支持IPV6解决方案
4.1.16 华为云GPU裸金属服务器-单EIP实现多节点的SSH登录和外网访问方案
4.1.17 GPU Ant8裸金属本地磁盘合并挂载至指定目录,并设置开机启动自动挂载
4.1.18 GPU Vnt1裸金属本地磁盘合并挂载至指定目录,并设置开机启动自动挂载
4.1.19 华为云CCE集群纳管GPU A系列裸金属服务器的API详解
4.1.20 ModelArts弹性裸金属本地盘实现软RAID5的解决方案
4.1.21 GPU Ant1裸金属服务器Centos7.9安装NVIDIA515+CUDA11.7
4.1.22 GPU 裸金属服务器如何选择CUDA对应的NCCL版本
4.2 NPU
4.2.1 【昇腾】Snt9B服务器配置指南
4.2.3 【昇腾】Snt9服务器环境配置指导
4.2.4 【昇腾】Ascend Snt9B集合通信算子单机多卡性能测试指导
4.2.5 【昇腾】Ascend Snt9B集合通信算子多机多卡性能测试指导
4.2.6 【昇腾】Atlas800(鲲鹏920+昇腾Snt9处理器)训练服务器硬件指南
4.2.7 Ascend Snt9B如何快速使用Container-NPU模式
4.2.8 【昇腾】裸金属服务器的RoCE网卡Link UP和DOWN方法
4.2.9 【昇腾】裸金属服务器OS中出现的endvnic介绍
4.2.10 【昇腾】NPU Snt9B裸金属服务器算力计算和查看指导
4.2.11 【昇腾】NPU Snt9B裸金属服务器电源高性能模式概述
4.2.12 【昇腾】NPU Snt9B裸金属服务器docker网络配置方案
4.2.13 【昇腾】Ascend Snt9B多机批量执行命令方案
4.2.14 【昇腾】Ascend Snt9B使用深度学习框架PyTorch1.11.0版本的解决方案
4.2.15 【昇腾】NPU Snt9B裸金属服务器多机免密互通解决方案
4.2.16 【昇腾】Ascend Snt9B RoCE网卡带宽测试指导方案
4.2.17 【昇腾】HCCL 集合通信算子性能测试工具mpirun使用指导
4.2.18 【昇腾】Ascend Snt9B服务器HCCL_TEST profiling工具使用指导
4.2.19【昇腾】Ascend Snt9B使用深度学习框架PyTorch2.1.0版本的解决方案
4.2.20 【昇腾】Ascend Snt9B裸金属服务器DMA及P2P性能测试指导
4.2.21 【昇腾】Ascend Snt9B配置IPV6永久租期的解决方案
4.2.22 【昇腾】NPU Snt9B裸金属服务器在docker容器中挂载指定npu卡失效问题解决方案
5. 最佳实践
5.1 GPU
5.1.1 [AIGC最佳实践]GPU Ant8裸金属服务器使用Megatron-Deepspeed训练GPT2并推理
5.1.2 [AIGC最佳实践] 使用Megatron-Deepspeed多机RoCE分布式训练GPT2
5.2 NPU
5.2.1 [AIGC最佳实践] NPU Snt9B裸金属服务器训练并推理Baichuan2-7B模型
5.2.2 AIGC推理业务迁移指导 StableDiffusion-1.5
5.2.3 LLM训练业务迁移指导
5.2.4 推理业务昇腾迁移通用指导
5.2.5 训练业务昇腾迁移通用指导
6. FAQ
使用华为云SFS盘出现rpc_check_timeout:939 callbacks suppressed原因分析
裸金属服务器EulerOS升级NetworkManager-config-server导致SSH链接故障解决方案
华为云ModelArts弹性裸金属userdata问题定位指导
Ubuntu20.04环境禁止netplan自动更新解决方案
6.1 GPU
6.1.1 GPU A系列裸金属服务器无任务但利用率高的解决方案
6.1.2 GPU A系列裸金属服务器使用PyTorch无法获取显卡问题解决方法
6.1.3 GPU A系列裸金属服务器RoCE带宽不足问题解决方法
6.1.4 GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML
6.1.5 华为云GPU裸金属服务器无法Ping通的解决方案
6.1.6 Ubuntu20.04内核升级解决方法
6.1.7 Ubuntu20.04重启禁止内核升级的解决方案
6.1.8 GPU 裸金属服务器使用EulerOS 内核误升级解决方案
6.1.9 GPU裸金属服务器Ubuntu系统禁止驱动更新的解决方案
6.1.10 GPU Ant系列裸金属服务器RDMA网卡未加载配置至操作系统的解决方案
6.1.11 华为云CCE GPU集群中安装nvidia-fabricmanager失败的问题分析
6.1.12 GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败
6.1.13 GPU Vnt1裸金属服务服务器用PyTorch报错CUDA initialization:CUDA unknown error
6.1.14 华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案
6.2 NPU
6.2.1 【昇腾】NPU Snt9B裸金属服务器执行hccl_tool命令验证卡之间通信出现Command execute failed
6.2.2 【昇腾】NPU Snt9B裸金属服务器重启后SSH链接失败,VNC登录后显示Login incorrect
6.2.3 【昇腾】NPU Snt9B裸金属服务器npu-smi info出现丢卡现象解决方案
6.2.4 【昇腾】NPU Snt9B裸金属服务器训练中途报错PytorchStreamWriter failed解决方案
6.2.5 【昇腾】NPU Snt9B裸金属服务器使用nohup命令后台训练时中途偶现失败解决方案
6.2.6 【昇腾】Ascend Snt9B SSH连接闲置超时断开的解决方案
6.2.7 【昇腾】NPU Snt9B裸金属服务器多机分布式训练时报错connection timeout解决方案
6.2.8 【昇腾】服务上如何查看交换机的IP信息
6.2.9 【昇腾】NPU Snt9B裸金属服务器npu-smi info出现dcmi module initialize failed
7. 大模型实践
- 点赞
- 收藏
- 关注作者
评论(0)