Centos7安装更新GPU driver驱动和cuda

举报
福州司马懿 发表于 2024/03/07 15:23:51 2024/03/07
【摘要】 背景最近在做chatGLM3,但是发现模型升级到最新版后,输出反而变慢了。去官方询问得知是NVIDIA驱动版本旧了,需要升级 常用命令 查看显卡信息查看自己的显卡信息:lspci | grep -i nvidia我这里是A100的显卡,由于特殊原因无法显示。对于正常家用的GTX1080显卡,显示如下 查看显卡状态nvidia-smi:GPU驱动版本,dirverAPI(支持的最高cuda版...

背景

最近在做chatGLM3,但是发现模型升级到最新版后,输出反而变慢了。去官方询问得知是NVIDIA驱动版本旧了,需要升级

常用命令

查看显卡信息

查看自己的显卡信息:lspci | grep -i nvidia

图片.png

我这里是A100的显卡,由于特殊原因无法显示。对于正常家用的GTX1080显卡,显示如下

图片.png

查看显卡状态

nvidia-smi:GPU驱动版本,dirverAPI(支持的最高cuda版本)

图片.png

watch -n 1 nvidia-smi:动态监控显卡状态

图片.png

查看CUDAToolkit版本

nvcc -V:CUDAToolkit版本,timeAPI(运行时API)

图片.png

更新CUDA版本

找到NVIDIA版本列表:https://developer.nvidia.com/cuda-toolkit-archive

图片.png

点击下载最新版:Download Latest CUDA Toolkit

图片.png

这里我的电脑是Centos,因此选择Linux。Architecture 可以使用如下命令查看

图片.png

使用uname -m可以查看当前Architecture架构(我这里是x86_64)

图片.png

CUDA 只支持Centos7

图片.png

图片.png

基础安装

在线安装方式如下

sudo yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo
sudo yum clean all
sudo yum -y install cuda-toolkit-12-4

图片.png

图片.png

安装好后,使用该命令可以验证安装是否成功

yum list installed |  grep cuda-toolkit

图片.png

驱动安装

sudo yum -y install nvidia-driver-latest-dkms
sudo yum -y install kmod-nvidia-open-dkms

图片.png

在执行第二条命令时报错了,查阅资料,网上说是因为本机装了太多个NVIDIA驱动,因此要删除旧版驱动

图片.png

使用yum list installed | grep dkms 命令,可以在已安装的软件列表中,搜索关键词带有dkms的软件

图片.png

并且,此时使用nvidia-smi命令会报错如下:

Failed to initialize NVML: Driver/library version mismatch

图片.png

需要去官网(https://www.nvidia.cn/Download/index.aspx?lang=cn)下载最新的驱动。

因为我这台显卡是A100,CUDA用的是最新的12.4,因此选择如下

  • 产品类型:Data Center / Tesla
  • 产品系列:A-Series
  • 产品家族:NVIDIA A100
  • 操作系统:Linux 64-bit RHEL 7
  • CUDA Toolkit:12.4
  • 语言:Chinese(Simplified)

图片.png

然后点击搜索

图片.png

点击下载,从windows这里复制下载地址,然后在centos中,使用wget命令进行下载

wget https://cn.download.nvidia.cn/tesla/550.54.14/nvidia-driver-local-repo-rhel7-550.54.14-1.0-1.x86_64.rpm

图片.png

使用下面进行安装

rpm -ivh nvidia-driver-local-repo-rhel7-550.54.14-1.0-1.x86_64.rpm

图片.png

然后按照文档还要执行如下几个命令

rpm -i nvidia-driver-local-repo-rhel7-460.106.00-1.0-1.x86_64.rpm
yum clean all
yum install cuda-drivers
reboot

图片.png

解决问题

nvidia-smi 报错

Failed to initialize NVML: Driver/library version mismatch
NVML library version: 550.54

cat /proc/driver/nvidia/version 输出如下

NVRM version: NVIDIA UNIX x86_64 Kernel Module 515.86.01 Wed Oct 26 09:12:38 UTC 2022
GCC version: gcc version 8.3.1 20190311 (Red Hat 8.3.1-3) (GCC)

图片.png

把nvidia有关的包全部卸载,然后重装

图片.png

Centos 7默认gcc版本为4.8,有时需要更高版本的,这里以升级至8.3.1版本为例,分别执行下面三条命令即可,无需手动下载源码编译。这个可以参考这篇博客:https://www.cnblogs.com/jixiaohua/p/11732225.html

发生错误时,可以使用如下命令查看日志,对问题进行定位

cat /var/log/nvidia-installer.log

通过查看日志可以得知,是默认的gcc版本太低,切换成高版本的gcc后,通过NVIDIA官网脚本安装即可:https://docs.nvidia.com/datacenter/tesla/tesla-installation-notes/index.html#centos7

图片.png

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。