GPU A系列NVIDIA环境和PyTorch2.0运行配置指南
【摘要】 在一台GPU Ant8裸金属服务器上安装NVIDIA和CUDA驱动,安装conda和pytorch2.0并验证cuda的有效性。
1. 环境描述
服务器信息: 华为云GPU Ant8裸金属服务器
操作系统:Ubuntu 20.04 server 64bit
选择安装环境相关版本: GPU驱动版本为470.182.03、CUDA版本为11.3.0
本文以上述信息配置NVIDIA驱动、CUDA和FabricManager, 并安装PyTorch2.0, 验证其可以正常运行。
2. GPU环境安装指南
2.1 安装NVIDIA驱动
wget https://us.download.nvidia.cn/XFree86/Linux-x86_64/470.182.03/NVIDIA-Linux-x86_64-470.182.03.run
chmod +x NVIDIA-Linux-x86_64-470.182.03.run
./NVIDIA-Linux-x86_64-470.182.03.run
2.2 安装CUDA
注意事项: 不能选择Driver, 否则会覆盖已安装的NVIDIA驱动.
wget https://developer.download.nvidia.com/compute/cuda/11.3.1/local_installers/cuda_11.3.1_465.19.01_linux.run
chmod +x cuda_11.3.1_465.19.01_linux.run
./cuda_11.3.1_465.19.01_linux.run --toolkit --samples --silent
2.3 安装nvidia-fabricmanager
Ant系列GPU支持 NvLink & NvSwitch,若您使用多GPU卡的机型,需额外安装与驱动版本对应的nvidia-fabricmanager服务使GPU卡间能够互联,否则可能无法正常使用GPU实例。
注意事项: fabricmanager版本一定要和nvidia驱动版本必须保持一致.
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/nvidia-fabricmanager-470_470.182.03-1_amd64.deb
sudo dpkg -i ./nvidia-fabricmanager-470_470.182.03-1_amd64.deb
2.4 验证fabricmanager安装结果
验证驱动安装结果、启动fabricmanager服务并查看状态
nvidia-smi -pm 1
nvidia-smi
systemctl enable nvidia-fabricmanager
systemctl start nvidia-fabricmanager
systemctl status nvidia-fabricmanager
2.5 汇总安装脚本
在GPU ANT8型实例中, 使用bash一键执行如下脚本,实现快速安装GPU环境.
wget https://us.download.nvidia.cn/XFree86/Linux-x86_64/470.182.03/NVIDIA-Linux-x86_64-470.182.03.run
chmod +x NVIDIA-Linux-x86_64-470.182.03.run
./NVIDIA-Linux-x86_64-470.182.03.run --silent --no-questions
wget https://developer.download.nvidia.com/compute/cuda/11.3.1/local_installers/cuda_11.3.1_465.19.01_linux.run
chmod +x cuda_11.3.1_465.19.01_linux.run
./cuda_11.3.1_465.19.01_linux.run --toolkit --samples --silent
version=470.182.03
main_version=$(echo $version | awk -F '.' '{print $1}')
apt-get update
apt-get -y install nvidia-fabricmanager-${main_version}=${version}-*
3. pytorch2.0安装和CUDA验证指南
PyTorch2.0所需环境为Python3.10, 安装配置miniconda环境。
3.1miniconda安装并创建alpha环境
wget https://repo.anaconda.com/miniconda/Miniconda3-py310_23.1.0-1-Linux-x86_64.sh
chmod 750 Miniconda3-py310_23.1.0-1-Linux-x86_64.sh
bash Miniconda3-py310_23.1.0-1-Linux-x86_64.sh -b -p /home/miniconda
export PATH=/home/miniconda/bin:$PATH
conda create --quiet --yes -n alpha python=3.10
3.2 安装pytorch2.0并验证cuda状态
在alpha环境下安装torch2.0, 使用清华PIP源完成.
source activate alpha
pip install torch==2.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
python
验证torch与cuda的安装状态,输出为True即为正常.
import torch
print(torch.cuda.is_available())
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)