且看张小白如何用暗影精灵玩转MindSpore(三)3080的崛起

举报
张辉 发表于 2021/11/17 21:14:06 2021/11/17
【摘要】 搞好3080显卡,为了AI。

 ubuntu和Nvidia好像就是天然死对头似的,去年张小白使用ThinkPad P52工作站的Quardo P1000(4G)显卡安装Ubuntu 18.04的时候,就遇到过一系列问题。

当时张小白还写过一篇博客:

这次是新出炉的Nvidia GeoForce RTX 3080 Laptop显卡,张小白仍然遇到了不少幺蛾子。

好在张小白的心理足够强大,他的朋友圈也足够强大。所以遇到难题都一一化解了。

其实有了上次裸装Ubuntu的经验,这次本来安装Nvidia显卡驱动应该是很快的事情。

比如,应该先删除旧的nvidia驱动:

sudo apt-get purge nvidia*

。。。

sudo vi /etc/modprobe.d/blacklist-nouveau.conf

添加以下内容:

blacklist nouveau
options nouveau modeset=0

sudo update-initramfs -u

重启机器。

sync

sync

sudo reboot

确认nouveau是否已被禁用:

lsmod | grep nouveau

这个时候ubuntu还是有图形界面的。

init 3

先安装gcc,g++,make的ubuntu自带的软件包:

sudo apt install gcc

sudo apt install g++

sudo apt install make

到Nvidia官网下载对应的显卡驱动

打开 https://www.nvidia.cn/Download/index.aspx?lang=cn

按以下方式选择后,点击搜索:

在弹出的结果页面点击download即可下载nvidia驱动。(看support页签是支持3080移动版显卡的)

下载链接如下:

https://us.download.nvidia.com/XFree86/Linux-x86_64/470.86/NVIDIA-Linux-x86_64-470.86.run

下载完毕后将其传到ubuntu服务器上。(或者直接wget下载也行)


由于前面下载类型的选择不同,当时张小白下载的是460.91.03版本:

sudo ./NVIDIA-Linux-x86_64-460.91.03.run -no-x-check -no-nouveau-check -no-opengl-files

进入了界面:

选择continue installation:

一个警告可以忽视掉,好像是32位兼容的什么问题。

问要不要更新X配置。暂时选择No吧。

安装完毕:

查看nvidia-smi:

重启下机器后,ubuntu进不了图形界面了:

但可以按ctrl-alt-F2/F3..进入终端,还可以登录:

张小白又拿前面下载好的 NVIDIA-Linux-x86_64-470.86.run 驱动试了一下,nvidia-smi显示降级了,但是依然报前面的错。

张小白怀疑是CUDA版本问题(当然这种判断后来证明是错误的),于是下载了CUDA 10.1安装盘,然后开始安装:

sudo sh cuda_10.1.105_418.39_linux.run

进入界面:

输入accept

只选 CUDA ToolKit 10.1 ,其他统统不选

选择install

修改PATH和LD_LIBRARY_PATH

export PATH=/usr/local/cuda-10.1/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-10.1/lib64:$LD_LIBRARY_PATH

执行. ~/.bashrc 使得环境变量生效。

打开 https://developer.nvidia.com/rdp/cudnn-archive

下载CUDA 10.1对应的cuDNN 7.6.X的版本:

下载7.6.5吧:

点击Linux版本后:

需要登录:

输入邮箱和密码后:

点击登录:

nvidia会发给你一个邮件:

收到邮件后,点击verify。

前面的页面即可开始下载:

耐心等待下载结束:

上传到ubuntu:

tar -zxvf cudnn*.tgz

将两个目录下的文件拷贝到/usr/local/cuda-10.1对应的目录下去:

cd cuda

sudo cp ./include/* /usr/local/cuda-10.1/include/

sudo cp ./lib64/* /usr/local/cuda-10.1/lib64/

再重启机器,还是老样子:

那么升级到CUDA11.1试一下吧。

打开:https://developer.nvidia.com/cuda-11.1.0-download-archive

下载cuda11.1

wget https://developer.download.nvidia.com/compute/cuda/11.1.0/local_installers/cuda_11.1.0_455.23.05_linux.run


安装11.1的CUDA

sudo sh cuda_11.1.0_455.23.05_linux.run

accept

要不要降级看看能不能匹配上。因为前面 nvidia-smi显示11.2版本,现在这个是11.1版本:

出现提示:

打yes就是,以前指向10.1,现在指向11.1

安装完毕。同样提示修改一下.bashrc

那就更新下吧:

使得环境变量生效:

. ~/.bashrc 

同样的方式下载cuda11.1对应的8.0.5

传到ubuntu上:

解压

tar -zxvf cudnn cudnn-11.1-linux-x64-v8.0.5.39.tgz

老样子,拷贝到/usr/local/cuda-11.1/include和lib64目录:

再重启,还是老样子:

张小白没招了,在模型营的群里面问了一句,还有办法吗?还有王法吗?

@Nishizumimiho 同学给了张小白一个方案:在Ubuntu的系统更新页面去更新驱动。

他还贴出了友好的界面:

张小白恍然大悟,他打开了ubuntu系统更新(software & updates)的页面,切换到Additional Drivers页签,原来的选择是最后一个:

张小白将其改为第一个,然后点击Apply Changes:

耐心等待系统Applying结束:

虽然ubuntu 18.04并没有认出这是个3080显卡。(@Nishizumimiho 的1080Ti的显卡型号可是清清楚楚的显示出来的)

但是到底行不行呢?重启一下试试。

居然有图形界面了!

安装Ubuntu上的Nvidia显卡真的蛮不容易的——张小白感慨地说。

(未完待续)

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。