CentOS安装Nvidia驱动和CUDA ToolKit

举报
William Wang 发表于 2020/03/30 14:31:35 2020/03/30
【摘要】 带有Nvidia GPU的云服务器或主机在使用GPU时必须安装GPU驱动以及上层应用需要用的程序库,本文以CentOS和Nvidia Tesla P100为例,展示了如何安装GPU Driver和CUDA的过程。

配置有GPU的云服务器或物理机需要安装正确的驱动软件才能够使用,以NVIDIA Tesla GPU为例,需要安装Tesla显卡驱动作为硬件驱动程序,还需要安装CUDA作为上层应用程序所需要的库。
本文以Centos系统+Tesla P100 GPU为例,展示GPU驱动和CUDA的安装过程。

Centos 安装 Tesla Driver

Centos上安装Tesla驱动有两种方式:

  • Shell脚本安装,适用于任何Linux发行版

  • 包安装,Centos使用RPM包

环境准备

NVIDIA Telsa GPU的驱动在安装过程中需要编译kernel module,需要安装gcc和kernel devel。

#> yum install gcc kernel-devel-($uname -r) kernel-headers

Shell脚本安装

1. 登录NVIDIA驱动官网

2. 按照操作系统和GPU型号选择安装包,以Tesla P100为例

1585549399417773.png

Operating System 选择 Linux 64-bit 代表下载的 Shell 安装文件,其他具体的选择代表下载的对应的安装包

3. 点击对应 Version,跳转后邮件选择复制链接地址

1585549459206379.jpg

4. 登录需要安装驱动的Centos主机,使用 wget 命令下载驱动

#> wget http://us.download.nvidia.com/tesla/440.64.00/NVIDIA-Linux-x86_64-440.64.00.run

1585549480537230.png5. 对下载的Shell脚本添加权限并执行

#> sudo chmod +x NVIDIA-Linux-x86_64-440.33.01.run
#> sudo /bin/bash ./NVIDIA-Linux-x86_64-440.33.01.run

6. 验证安装效果:运行nvidia-smi,如果显示了如下的GPU信息,说明驱动安装成功。 

1585549515150466.png

安装包安装

RPM 包安装

1. 登录NVIDIA驱动官网

2. 选择对应的RPM包的操作系统,复制链接

#> wget http://us.download.nvidia.com/tesla/440.33.01/nvidia-driver-local-repo-rhel7-440.33.01-1.0-1.x86_64.rpm

3. 运行安装软件包命令

#> rpm -i nvidia-driver-local-repo-rhel7-440.33.01_1.0-1_x86_64.rpm

4. 使用yum清理缓存

#> yum clean all

5. 使用yum安装驱动

#> yum install cuda-drivers

6. 使用reboot重启机器

7. 运行nvidia-smi验证是否安装成功

CUDA安装

CUDA(Compute Unified Device Architecture)是显卡厂商 NVIDIA 推出的运算平台。 CUDA™ 是一种由 NVIDIA 推出的通用并行计算架构,该架构使 GPU 能够解决复杂的计算问题。 它包含了 CUDA 指令集架构(ISA)以及 GPU 内部的并行计算引擎。 开发人员现在可以使用 C 语言, C++ , FORTRAN 来为 CUDA™ 架构编写程序,所编写出的程序可以在支持 CUDA™ 的处理器上以超高性能运行。
对于采用 NVIDIA GPU 的云服务器或主机,需要安装 CUDA 开发运行环境。以目前最常用的 CUDA 7.5 为例,可参照以下步骤进行安装。

安装步骤

1. 登录CUDA官方下载页面

1585549626178649.png

2. 按照系统和安装方式选择安装包,以CentOS 7为例,选择如下 

3. 下载安装包,以wget方式为例,登录GPU实例

#> wget http://developer.download.nvidia.com/compute/cuda/7.5/Prod/local_installers/cuda-repo-rhel7-7-5-local-7.5-18.x86_64.rpm

4. 在 CUDA 安装包所在目录下运行如下命令:

#> sudo rpm -i cuda-repo-rhel7-7-5-local-7.5-18.x86_64.rpm
#> sudo yum clean all
#> sudo yum install cuda

5. 在/usr/local/cuda/samples/1_Utilities/deviceQuery目录下执行make命令,编译出 deviceQuery 程序

6. 使用./deviceQuery命令运行 deviceQuery 程序,如果正常显示如下设备信息,则认为 CUDA 安装正确。 

1585549660916239.png

安装遇到的坑

Q1. 安装 CUDA 时提示 dkms 依赖错误

解决:

  1. 安装额外依赖包 EPEL(Extra Packages for Enterprise Linux),以 CentOS7 为例

#> yum install https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
  1. 安装 dkms

#> yum -y install dkms

Q2. 先安装 NVIDIA Driver 再安装 CUDA 后,再次使用nvidia-smi报错,报错信息为Failed to initialize NVML: Driver/library version mismatch

解决:

  1. 先排查 NVIDIA Driver 对应的 CUDA 版本是否对应,可以在驱动下载官网查看自己下载的驱动版本

  2. 排除驱动版本不对的问题后,重启机器即可

#> sudo reboot now


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。