Ubuntu配置pytorch gpu环境(含Cuda+Cudnn+pytorch-gpu+卸载)

举报
Hermit_Rabbit 发表于 2022/07/26 15:22:36 2022/07/26
【摘要】 概述步骤如下:安装NVIDIA 驱动安装NVIDIA Cuda安装NVIDIA CuDNN安装GPU版本的PyTorch卸载NVIDIA Cuda 零.安装NVIDIA 驱动1、查看自己机器上的显卡型号 lspci -vnn | grep VGA -A 122、下载显卡驱动 https://www.geforce.cn/drivers,或者https://www.nvidia.cn/Do...

概述

步骤如下:

  1. 安装NVIDIA 驱动
  2. 安装NVIDIA Cuda
  3. 安装NVIDIA CuDNN
  4. 安装GPU版本的PyTorch
  5. 卸载NVIDIA Cuda

零.安装NVIDIA 驱动

1、查看自己机器上的显卡型号 lspci -vnn | grep VGA -A 12

2、下载显卡驱动 https://www.geforce.cn/drivers,或者https://www.nvidia.cn/Download/index.aspx?lang=cn
在这里插入图片描述
3、安装显卡驱动

1)卸载之前安装的NVIDIA驱动,$sudo apt-get --purge remove nvidia-*

2)修改配置文件blackconf,

$sudo gedit /etc/modprobe.d/blacklist.conf

在最后添加几行:

blacklist vga16fb

blacklist nouveau

blacklist rivafb

blacklist nvidiafb

blacklist rivatv

options nouveau modeset=0

保存退出。

3)更新系统,$sudo update-initramfs -u

重启系统。(必须要)

4)验证nouveau是否被禁用,$lsmod | grep nouveau

如果没有任何输出,则表示禁用成功。
  在这里插入图片描述

5)按ctrl+alt+F1进入命令行界面。

6)关闭图形界面,$sudo service lightdm stop

7)cd指令进入到.run文件目录,

给.run文件赋予执行权限, $sudo chmod a+x NVIDIA-Linux-x86_64-410.93.run

进行安装,$sudo ./NVIDIA-Linux-x86_64-410.93.run -no-x-check -no-nouveau -no-opengl-files

-no-x-check 安装驱动时关闭X服务,

-no-nouveau 安装驱动时禁用nouveau

-no-opengl-files 只安装驱动,不安装opengl文件。

如果报错:the distribution-provided pre-install script failed! 不用理会,继续安装。

安装过程中的选项:
The distribution-provided pre-install script failed! Are you sure you want to continue? 选择 yes 继续。
Would you like to register the kernel module souces with DKMS? This will allow DKMS to automatically build a new module, if you install a different kernel later? 选择 No 继续。
问题没记住,选项是:install without signing
问题大概是:Nvidia’s 32-bit compatibility libraries? 选择 No 继续。
Would you like to run the nvidia-xconfigutility to automatically update your x configuration so that the NVIDIA x driver will be used when you restart x? Any pre-existing x confile will be backed up. 选择 Yes 继续

这些选项如果选择错误可能会导致安装失败,没关系,只要前面不出错,多尝试几次就好。

8)切换到图形界面,$sudo service lightdm start

9)验证驱动是否安装成功, $nvidia-smi

在这里插入图片描述

一.安装NVIDIA Cuda

安装cuda10.0

1.官网下载cuda安装文件

<1>.进入cuda官网下载,选择10.0版本:
在这里插入图片描述
<2>.选择这里下载,可使用win下迅雷工具下载,速度快。
在这里插入图片描述
2.开始安装cuda10.0
<1>.拷贝完成.run文件后,进入所在目录,对文件添加可执行权限:
sudo chmod a+x cuda_10.0.130_410.48_linux.run
<2>.执行安装: sudo sh cuda_10.0.130_410.48_linux.run
<3>.提示阅读协议,直接Ctrl+C跳过。跳出协议,输入accept。
在这里插入图片描述
<4>.提示安装NVIDIA驱动,选择n,其他都选择y。
在这里插入图片描述
<5>.安装成功
在这里插入图片描述
安装完成后请跳到 三、配置环境变量。

二、安装cuda10.1

1.官网下载cuda安装文件
<1>.首先进入NVIDIA官网cuda下载所需安装文件,这里选择.run文件,以cuda10.1版本为例。
在这里插入图片描述
在这里插入图片描述
<2>.如图中,官方提供了命令行下载和安装方式:

wget http://developer.download.nvidia.com/compute/cuda/10.1/Prod/local_installers/cuda_10.1.243_418.87.00_linux.run
sudo sh cuda_10.1.243_418.87.00_linux.run

注:在命令行下下载速度非常慢,我这2.4G的文件下完需要8h,所以另一个办法,找一台windows电脑用迅雷,复制wget后面的网址用迅雷下载,拷贝文件到ubuntu中。
2.开始安装cuda10.1
<1>.拷贝完成.run文件后,进入所在目录,对文件添加可执行权限:
sudo chmod a+x cuda_10.1.243_418.87.00_linux.run
<2>.执行安装: sudo sh cuda_10.1.243_418.87.00_linux.run
<3>.跳出协议,输入accept。
在这里插入图片描述
注意,这里不要选择安装Nvidia显卡驱动,将第一项用空格键取消X号,再选择install
在这里插入图片描述
安装完成后请跳到 三、配置环境变量。

三、配置环境变量:

<1>.cd到/home/(用户名)目录下,ls -a列出所有文件,找到有一个**.bashrc**的隐藏文件,使用vim或gedit编辑在尾部添加路径,以vim为例:sudo vim .bashrc,按G跳到末尾,添加如下路径:(以下是10.1和10.1两个版本)

## CUDA	10.0版本
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-10.0/lib64
export PATH=$PATH:/usr/local/cuda-10.0/bin
export CUDA_HOME=/usr/local/cuda-10.0

## CUDA	10.1版本
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-10.1/lib64
export PATH=$PATH:/usr/local/cuda-10.1/bin
export CUDA_HOME=/usr/local/cuda-10.1

<2>.添加完成,执行source ~/.bashrc更新。

四、查看cuda是否安装成功:

执行nvcc -V,显示版本号如下,至此cuda安装完成。(出现找不到问题看这里)
在这里插入图片描述

安装NVIDIA CuDNN

1.官网下载cudnn文件:

进入官网下载地址,需要注册账号,点击同意协议,下载的cudnn一定要和cuda版本对应。
在这里插入图片描述
tgz格式压缩文件,下载速度龟速则挪到win下用其他下载工具下载(IDM、迅雷不限)。

2.解压

<1>.命令行执行:tar -xzvf cudnn-10.0-linux-x64-v7.6.4.38.tgz 解压文件,解压出目录cuda。
<2>. 依次执行以下命令:(注意替换自己解压的cuda路径),目的是拷贝头文件、库文件并赋予权限:

sudo cp <路径>/cuda/include/cudnn.h /usr/local/cuda/include
sudo cp <路径>/cuda/lib64/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*

<3>.至此cudnn安装完成。

安装GPU版本的PyTorch

这里选择用pip进行安装,首先需要安装pip:执行命令sudo apt intall python-pip3

(该步骤可以跳过) 现在建议配置pip虚拟环境,为此我们需要配置virtualenv(有关virtualenv的详细介绍可以看看廖雪峰Python3教程官方documentation):

  1. 安装virtualenv:执行命令pip3 install virtualenv
  2. 新建一个虚拟环境(这里取名为env-pytorch):在终端中切换到想要新建env-pytorch的目录下(创建完虚拟环境后此目录下会多一个名为env-pytorch的文件夹,包含该虚拟环境相关的全部文件),执行命令virtualenv --no-site-packages venv -p <PYTHON_EXE>,其中<PYTHON_EXE>是Python的版本号,例如python3.6
    官网选择对应版本之后会得到相应的安装命令,如下图:
    在这里插入图片描述
    为了验证以上安装成功,在终端输入python进入Python交互模式,然后依次输入:
import torch
torch.cuda.is_available()

如果返回结果是True,证明安装成功了

卸载NVIDIA Cuda

执行 cd到 /usr/local/cuda/bin下,执行sudo ./cuda-uninstaller ,用空格键勾选以下几项,选择done,提示Successfully uninstalled 完成卸载。
在这里插入图片描述

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。