GPU VNT1裸金属服务器NVIDIA515+CUDA11.7装机和NCCL验证
【摘要】 GPU VNT1裸金属服务器NVIDIA515+CUDA11.7装机和NCCL验证
0. 前置条件
华为云VNT1裸金属服务器,使用镜像Centos 7.9 for V100 BareMetal. 镜像中NVIDIA驱动等均未安装。
1. 安装nvidia驱动
由于系统中内置开源nouveau 显卡驱动和nvidia驱动有冲突,因此要先卸载该nouveau驱动后再安装nvidia驱动
1.1 卸载nouveau驱动:
创建配置文件:
vi /etc/modprobe.d/nouveau-blacklist.conf
写入以下内容:
blacklist nouveau
options nouveau modeset=0
重建 initramfs 文件,并重启机器使新的配置生效
dracut --force
reboot
执行如下命令,如果输出为空,则可以确认nouveau驱动已经禁用
lsmod | grep nouveau
1.2 安装nvidia 515版本驱动
wget https://us.download.nvidia.com/tesla/515.105.01/NVIDIA-Linux-x86_64-515.105.01.run
chmod +x NVIDIA-Linux-x86_64-515.105.01.run
./NVIDIA-Linux-x86_64-515.105.01.run
2. 安装CUDA
安装cuda11.7
wget https://developer.download.nvidia.com/compute/cuda/11.7.0/local_installers/cuda_11.7.0_515.43.04_linux.run
chmod +x cuda_11.7.0_515.43.04_linux.run
sh cuda_11.7.0_515.43.04_linux.run
安装时去掉勾选driver
安装完成后通过以下命令查看是否安装成功
/usr/local/cuda/bin/nvcc -V
3. 安装NCCL
yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo
yum install libnccl-2.14.3-1+cuda11.7 libnccl-devel-2.14.3-1+cuda11.7 libnccl-static-2.14.3-1+cuda11.7
如果出现yum-config-manager命令无法找到,则需要先安装对应依赖包
yum -y install yum-utils
4. 配置环境变量
在bashrc中配置环境变量
vi ~/.bashrc
export LD_LIBRARY_PATH=/usr/local/cuda/lib:usr/local/cuda/lib64:/usr/include/nccl.h:/usr/mpi/gcc/openmpi-4.1.5a1/lib64:$LD_LIBRARY_PATH
export PATH=/usr/local/cuda/bin:/usr/mpi/gcc/openmpi-4.1.5a1/bin:$PATH
source ~/.bashrc
5. 安装nccl-test
git clone https://github.com/NVIDIA/nccl-tests.git
cd ./nccl-tests
ls /usr/mpi/gcc/ 查看openmpi版本路径
make MPI=1 MPI_HOME=/usr/mpi/gcc/openmpi-4.1.5a1 -j 8
如果编译失败,可能是缺少g++组件,安装即可
yum install gcc-c++.x86_64
6. nccl-test测试
测试命令
/root/nccl-tests/build/all_reduce_perf -b 8 -e 1024M -f 2 -g 8
测试结果如下
7. 安装docker
yum-config-manager --add-repo https://mirrors.tuna.tsinghua.edu.cn/docker-ce/linux/centos/docker-ce.repo
yum list docker-ce --showduplicates | sort -r 查看当前源的docker版本
yum install docker-ce
systemctl enable docker
systemctl start docker
8 .安装nvidia-container
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.repo | sudo tee /etc/yum.repos.d/nvidia-docker.repo
yum install -y nvidia-container-toolkit
yum install -y nvidia-container-runtime
nvidia-ctk runtime configure --runtime=docker
systemctl restart docker
9. docker验证
拉取官方pytorch镜像并验证
docker run -ti --runtime=nvidia --gpus all pytorch/pytorch:2.0.0-cuda11.7-cudnn8-devel bash
验证结果
10. 挂载NAS/CIFS盘
由于系统中缺少相关依赖软件包,在进行挂载前需要安装对应的依赖工具
yum install nfs-utils -y
yum install cifs-utils -y
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)