GPU ANT1裸金属服务器EulerOS 2.9装机指南

举报
modelarts-dev-server 发表于 2023/06/06 21:34:27 2023/06/06
【摘要】 本文旨在GPU ANT1裸金属服务器(操作系统为euler2.9)上安装GPU驱动版本为515.105.01、CUDA版本为11.7.1; 最后使用pytorch2.0进行nvidia环境的验证。

1. 环境描述

服务器信息: 华为云GPU ANT1裸金属服务器

操作系统: Euler2.9

本文安装环境相关版本: GPU驱动版本为515.105.01、CUDA版本为11.7.1

2. GPU环境安装指南

2.1 安装NVIDIA驱动

wget https://us.download.nvidia.com/tesla/515.105.01/NVIDIA-Linux-x86_64-515.105.01.run
chmod 700 NVIDIA-Linux-x86_64-515.105.01.run

yum install -y elfutils-libelf-devel
./NVIDIA-Linux-x86_64-515.105.01.run --kernel-source-path=/usr/src/kernels/4.18.0-147.5.1.6.h998.eulerosv2r9.x86_64

NVIDIA的驱动程序是一个二进制文件,需使用系统中的libelf库(在elfutils-libelf-devel开发包)中。它提供了一组C函数,用于读取、修改和创建ELF文件,而NVIDIA驱动程序需要使用这些函数来解析当前正在运行的内核和其他相关信息。

 安装过程中的提示均选OK或YES,安装好后执行reboot重启机器,再次登录后执行命令查看GPU卡信息

 nvidia-smi -pm 1    #该命令执行时间较长,请耐心等待,作用为启用持久模式,可以优化Linux实例上GPU设备的性能
 nvidia-smi

2.2 安装CUDA

wget https://developer.download.nvidia.com/compute/cuda/11.7.1/local_installers/cuda_11.7.1_515.65.01_linux.run
chmod 700 cuda_11.7.1_515.65.01_linux.run
./cuda_11.7.1_515.65.01_linux.run --toolkit --samples --silent

安装好后执行以下命令检查安装结果

 /usr/local/cuda/bin/nvcc -V

3. PyTorch2.0安装和CUDA验证指南

PyTorch2.0所需环境为Python3.10, 安装配置miniconda环境。

3.1miniconda安装并创建alpha环境 

wget https://repo.anaconda.com/miniconda/Miniconda3-py310_23.1.0-1-Linux-x86_64.sh
chmod 750 Miniconda3-py310_23.1.0-1-Linux-x86_64.sh
bash Miniconda3-py310_23.1.0-1-Linux-x86_64.sh -b -p /home/miniconda
export PATH=/home/miniconda/bin:$PATH
conda create --quiet --yes -n alpha python=3.10

3.2 安装pytorch2.0并验证cuda状态

在alpha环境下安装torch2.0, 使用清华PIP源完成.

 source activate alpha
 pip install torch==2.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
 python

验证torch与cuda的安装状态,输出为True即为正常. 

import torch
print(torch.cuda.is_available())


4. euler2.9上解决yum update报错的方法

默认场景华为云ANT1裸金属服务器在euler2.9使用的yum源是http://repo.huaweicloud.com, 该源可用。

笔者在euler2.9裸金属服务器上执行yum update报错, 显示有很多软件包冲突等问题, 解决该现象的方法是使用yum remove xxx软件包即可。

最终是可以yum update成功。


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。