GPU ANT1裸金属服务器NVIDIA515+CUDA11.7装机和NCCL验证

举报
modelarts-dev-server 发表于 2023/10/08 15:57:11 2023/10/08
【摘要】 GPU ANT1裸金属服务器NVIDIA515+CUDA11.7装机和NCCL验证

0. 前置条件 

华为云ANT1裸金属服务器,使用镜像Centos 7.9 for V100 BareMetal. 镜像中NVIDIA驱动等均未安装。

1. 安装nvidia驱动

由于系统中内置开源nouveau 显卡驱动和nvidia驱动有冲突,因此要先卸载该nouveau驱动后再安装nvidia驱动

1.1 卸载nouveau驱动:

创建配置文件:

vi /etc/modprobe.d/nouveau-blacklist.conf

写入以下内容:

blacklist nouveau
options nouveau modeset=0

重建 initramfs 文件,并重启机器使新的配置生效

dracut --force
reboot

执行如下命令,如果输出为空,则可以确认nouveau驱动已经禁用

lsmod | grep nouveau

1.2 安装nvidia 515版本驱动

wget https://us.download.nvidia.com/tesla/515.105.01/NVIDIA-Linux-x86_64-515.105.01.run
chmod +x NVIDIA-Linux-x86_64-515.105.01.run
./NVIDIA-Linux-x86_64-515.105.01.run

2. 安装CUDA

安装cuda11.7

wget https://developer.download.nvidia.com/compute/cuda/11.7.0/local_installers/cuda_11.7.0_515.43.04_linux.run
chmod +x cuda_11.7.0_515.43.04_linux.run
sh cuda_11.7.0_515.43.04_linux.run
安装时去掉勾选driver

安装完成后通过以下命令查看是否安装成功

/usr/local/cuda/bin/nvcc -V

3. 安装NCCL

yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo
yum install libnccl-2.14.3-1+cuda11.7 libnccl-devel-2.14.3-1+cuda11.7 libnccl-static-2.14.3-1+cuda11.7

如果出现yum-config-manager命令无法找到,则需要先安装对应依赖包

yum -y install yum-utils

4. 配置环境变量

在bashrc中配置环境变量

vi ~/.bashrc
export LD_LIBRARY_PATH=/usr/local/cuda/lib:usr/local/cuda/lib64:/usr/include/nccl.h:/usr/mpi/gcc/openmpi-4.1.5a1/lib64:$LD_LIBRARY_PATH
export PATH=/usr/local/cuda/bin:/usr/mpi/gcc/openmpi-4.1.5a1/bin:$PATH
source ~/.bashrc

5. 安装nccl-test

git clone https://github.com/NVIDIA/nccl-tests.git
cd ./nccl-tests
ls /usr/mpi/gcc/  查看openmpi版本路径
make  MPI=1 MPI_HOME=/usr/mpi/gcc/openmpi-4.1.5a1 -j 8

如果编译失败,可能是缺少g++组件,安装即可

yum install gcc-c++.x86_64

6. nccl-test测试

测试命令

/root/nccl-tests/build/all_reduce_perf -b 8 -e 1024M -f 2 -g 8

测试结果如下

v100 nccl.PNG

7. 安装docker

yum-config-manager --add-repo https://mirrors.tuna.tsinghua.edu.cn/docker-ce/linux/centos/docker-ce.repo
yum list docker-ce --showduplicates | sort -r  查看当前源的docker版本
yum install docker-ce
systemctl enable docker
systemctl start docker

8 .安装nvidia-container

distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.repo | sudo tee /etc/yum.repos.d/nvidia-docker.repo
yum install -y nvidia-container-toolkit
yum install -y nvidia-container-runtime
nvidia-ctk runtime configure --runtime=docker
systemctl restart docker

9. docker验证

拉取官方pytorch镜像并验证

docker run -ti --runtime=nvidia --gpus all pytorch/pytorch:2.0.0-cuda11.7-cudnn8-devel bash

验证结果

v100 torch.PNG

10. 挂载NAS/CIFS盘

由于系统中缺少相关依赖软件包,在进行挂载前需要安装对应的依赖工具

yum install nfs-utils -y
yum install cifs-utils -y
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。