GPU A系列NVIDIA环境和PyTorch2.0运行配置指南

举报
modelarts-dev-server 发表于 2023/05/06 12:39:54 2023/05/06
【摘要】 在一台GPU Ant8裸金属服务器上安装NVIDIA和CUDA驱动,安装conda和pytorch2.0并验证cuda的有效性。

1. 环境描述

服务器信息: 华为云GPU Ant8裸金属服务器

操作系统:Ubuntu 20.04 server 64bit

选择安装环境相关版本: GPU驱动版本为470.182.03、CUDA版本为11.3.0

本文以上述信息配置NVIDIA驱动、CUDA和FabricManager, 并安装PyTorch2.0, 验证其可以正常运行。

2. GPU环境安装指南

2.1 安装NVIDIA驱动

wget https://us.download.nvidia.cn/XFree86/Linux-x86_64/470.182.03/NVIDIA-Linux-x86_64-470.182.03.run
chmod +x NVIDIA-Linux-x86_64-470.182.03.run
./NVIDIA-Linux-x86_64-470.182.03.run

2.2 安装CUDA

注意事项: 不能选择Driver, 否则会覆盖已安装的NVIDIA驱动.

wget https://developer.download.nvidia.com/compute/cuda/11.3.1/local_installers/cuda_11.3.1_465.19.01_linux.run
chmod +x cuda_11.3.1_465.19.01_linux.run
./cuda_11.3.1_465.19.01_linux.run --toolkit --samples --silent

2.3 安装nvidia-fabricmanager

Ant系列GPU支持 NvLink & NvSwitch,若您使用多GPU卡的机型,需额外安装与驱动版本对应的nvidia-fabricmanager服务使GPU卡间能够互联,否则可能无法正常使用GPU实例。

注意事项: fabricmanager版本一定要和nvidia驱动版本必须保持一致.

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/nvidia-fabricmanager-470_470.182.03-1_amd64.deb 
sudo dpkg -i ./nvidia-fabricmanager-470_470.182.03-1_amd64.deb

2.4 验证fabricmanager安装结果

验证驱动安装结果、启动fabricmanager服务并查看状态 

nvidia-smi -pm 1
nvidia-smi
systemctl enable nvidia-fabricmanager
systemctl start nvidia-fabricmanager
systemctl status nvidia-fabricmanager

2.5 汇总安装脚本

在GPU ANT8型实例中, 使用bash一键执行如下脚本,实现快速安装GPU环境.

wget https://us.download.nvidia.cn/XFree86/Linux-x86_64/470.182.03/NVIDIA-Linux-x86_64-470.182.03.run
chmod +x NVIDIA-Linux-x86_64-470.182.03.run
./NVIDIA-Linux-x86_64-470.182.03.run --silent --no-questions

wget https://developer.download.nvidia.com/compute/cuda/11.3.1/local_installers/cuda_11.3.1_465.19.01_linux.run
chmod +x cuda_11.3.1_465.19.01_linux.run
./cuda_11.3.1_465.19.01_linux.run --toolkit --samples --silent

version=470.182.03
main_version=$(echo $version | awk -F '.' '{print $1}')
apt-get update
apt-get -y install nvidia-fabricmanager-${main_version}=${version}-*

3. pytorch2.0安装和CUDA验证指南

PyTorch2.0所需环境为Python3.10, 安装配置miniconda环境。

3.1miniconda安装并创建alpha环境 

wget https://repo.anaconda.com/miniconda/Miniconda3-py310_23.1.0-1-Linux-x86_64.sh
chmod 750 Miniconda3-py310_23.1.0-1-Linux-x86_64.sh
bash Miniconda3-py310_23.1.0-1-Linux-x86_64.sh -b -p /home/miniconda
export PATH=/home/miniconda/bin:$PATH
conda create --quiet --yes -n alpha python=3.10

3.2 安装pytorch2.0并验证cuda状态

在alpha环境下安装torch2.0, 使用清华PIP源完成.

 source activate alpha
 pip install torch==2.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
 python

验证torch与cuda的安装状态,输出为True即为正常. 

import torch
print(torch.cuda.is_available())
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。