- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

[工程] pytorch gpu docker 镜像下的无法正常启动应用分析

~大鱼~ 发表于 2021/05/27 14:54:29 2021/05/27

【摘要】目录发现分析解决总结发现在使用了 nvidia/cuda:9.0-cudnn7-devel-ubuntu16.04 作为底层镜像后，重新构建了pytorch的底层镜像做为应用的基础镜像，一切都构建的很顺利，就是在正常启动镜像的时候，出现了如下的错误 CUDA driver version is insufficient for CUDA runtime v...

发现

在使用了 nvidia/cuda:9.0-cudnn7-devel-ubuntu16.04 作为底层镜像后，重新构建了pytorch的底层镜像做为应用的基础镜像，一切都构建的很顺利，就是在正常启动镜像的时候，出现了如下的错误
CUDA driver version is insufficient for CUDA runtime version

分析

按照以往的经验，无非是没有使用nvidia-docker启动，又或者当前实体机的nvidia driver 版本和docker 镜像内的版本不一致，那我们一个一个排除，在使用nvidia-docker 启动镜像后，正常使用docker-compose启动应用，使用命令查看cuda和cudnn版本

nvcc --version

1 2	nvcc --version

输出

nvcc: NVIDIA (R) Cuda compiler driver

Built on Fri_Sep__1_21:08:03_CDT_2017

Cuda compilation tools, release 9.0, V9.0.176

这里对比cuda 版本都是一致的，进一步查看cudnn版本

cat /usr/include/x86_64-linux-gnu/cudnn_v*.h | grep CUDNN_MAJOR -A 2

1 2	cat /usr/include/x86_64-linux-gnu/cudnn_v*.h \| grep CUDNN_MAJOR -A 2

输出

#define CUDNN_MAJOR 7 #define CUDNN_MINOR 1 #define CUDNN_PATCHLEVEL 4 -- #define CUDNN_VERSION (CUDNN_MAJOR * 1000 + CUDNN_MINOR * 100 + CUDNN_PATCHLEVEL)

#define CUDNN_MAJOR 7

#define CUDNN_MINOR 1

#define CUDNN_PATCHLEVEL 4

#define CUDNN_VERSION (CUDNN_MAJOR * 1000 + CUDNN_MINOR * 100 + CUDNN_PATCHLEVEL)

这里最奇怪的是cudnn版本也是一致的…

解决

分析到这里，我想应该有同学猜到，可能是环境变量不一致导致的，查找关于cuda的所有环境变量发现

实体机:

LD_LIBRARY_PATH=/usr/local/cuda-9.0/lib64

1 2	LD_LIBRARY_PATH=/usr/local/cuda-9.0/lib64

docker 内部

LD_LIBRARY_PATH=/usr/local/nvidia/lib:/usr/local/nvidia/lib64

1 2	LD_LIBRARY_PATH=/usr/local/nvidia/lib:/usr/local/nvidia/lib64

为了验证这个想法，这一次不直接使用docker-compose 直接启动应用，使用nvidia-docker run 镜像方式进入docker 内部，正常启动程序，没想启动成功了，OK，那可以完全肯定是环境变量导致的这个问题，为了进一步解决这个问题，我们有两种方式，一是每次部署的时候都要写好环境变量，二是在dockerfile 里面写好ENV，比如

FROM brucedone/torch:gpu MAINTAINER nicefish66@gmail.com ENV LD_LIBRARY_PATH /usr/local/nvidia/lib:/usr/local/nvidia/lib64 ENV LIBRARY_PATH /usr/local/cuda/lib64/stubs RUN mkdir /workdir COPY . /workdir RUN pip install -r /workdir/requirements.txt WORKDIR /workdir

FROM brucedone/torch:gpu

MAINTAINER nicefish66@gmail.com

ENV LD_LIBRARY_PATH /usr/local/nvidia/lib:/usr/local/nvidia/lib64

ENV LIBRARY_PATH /usr/local/cuda/lib64/stubs

RUN mkdir /workdir

COPY . /workdir

RUN pip install -r /workdir/requirements.txt

WORKDIR /workdir

总结

这一次我们主要从错误的提示出发，验证了我们对于错误的猜想，时刻记住，对于docker host 的程序，环境变量对于应用程序来说相当重要。

文章来源: brucedone.com，作者：大鱼的鱼塘，版权归原作者所有，如需转载，请联系作者。

原文链接：brucedone.com/archives/1198

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

[工程] pytorch gpu docker 镜像下的无法正常启动应用分析

目录

发现

分析

解决

总结

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品