GPU ANT1裸金属服务器NVIDIA470+CUDA11.4装机并验证

举报
modelarts-dev-server 发表于 2023/06/13 16:45:43 2023/06/13
【摘要】 华为云GPU ANT1裸金属服务器,使用IMS公共镜像Ubuntu-18.04-server-64bit-for-V100-BareMetal。镜像为纯净版,NVIDIA驱动等均未安装。本文旨在此机器上安装NVIDIA470+CUDA11.4,并验证装机。

1. 环境描述

服务器信息: 华为云GPU ANT1裸金属服务器

操作系统:Ubuntu 18.04 server 64bit

选择安装环境相关版本: GPU驱动版本为470、CUDA版本为11.4

本文以上述信息配置NVIDIA驱动和CUDA, 并安装PyTorch2.0+cu11.7,验证其可以正常运行。

2. 安装NVIDIA驱动 

apt-get update
sudo apt-get install nvidia-driver-470

3. 安装CUDA

wget https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda_11.4.4_470.82.01_linux.run
chmod +x cuda_11.4.4_470.82.01_linux.run
./cuda_11.4.4_470.82.01_linux.run --toolkit --samples --silent

4. 验证安装结果

验证驱动安装结果

nvidia-smi -pm 1
nvidia-smi
/usr/local/cuda/bin/nvcc -V

5. Pytorch2.0安装和CUDA验证指南

PyTorch2.0所需环境为Python3.10, 安装配置miniconda环境。

(1) miniconda安装并创建alpha环境 

wget https://repo.anaconda.com/miniconda/Miniconda3-py310_23.1.0-1-Linux-x86_64.sh
chmod 750 Miniconda3-py310_23.1.0-1-Linux-x86_64.sh
bash Miniconda3-py310_23.1.0-1-Linux-x86_64.sh -b -p /home/miniconda
export PATH=/home/miniconda/bin:$PATH
conda create --quiet --yes -n alpha python=3.10

(2) 安装pytorch2.0并验证cuda状态

在alpha环境下安装torch2.0, 使用清华PIP源完成.

source activate alpha
conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia
python

验证torch与cuda的安装状态,输出为True即为正常. 

import torch
print(torch.cuda.is_available())
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。