深度学习核心技术精讲100篇(六十六)- 基于LXD的GPU算力虚拟化(附解决方案代码)

举报
格图洛书 发表于 2022/02/28 23:25:07 2022/02/28
【摘要】 搭建需求 由于当前算法和模型对GPU的强烈需求,实验室购置了一台性能强悍的GPU云服务器供大家一起使用。如果所有人对这台服务器拥有控制权是十分危险的,例如误删除他人文件,弄乱他人环境等。最简单的方法是为每位同学配置一台虚拟机,但硬件虚拟化造成大量的资源浪费,同时GPU并不支持常规的虚拟化。 •云计算资源因安全措施考虑会进行如下设置:...

搭建需求

由于当前算法和模型对GPU的强烈需求,实验室购置了一台性能强悍的GPU云服务器供大家一起使用。如果所有人对这台服务器拥有控制权是十分危险的,例如误删除他人文件,弄乱他人环境等。最简单的方法是为每位同学配置一台虚拟机,但硬件虚拟化造成大量的资源浪费,同时GPU并不支持常规的虚拟化。

•云计算资源因安全措施考虑会进行如下设置:•设置访问白名单,限制仅实验室环境下访问。外部环境若需要访问计算资源,需先通过VPN接入实验室内网•仅开放用于SSH连接的端口到公网

基于上述背景整理提出以下需求:

•独立:不同用户的环境相互独立,可同时使用。•隔离:用户不能直接操作宿主机,即用户不能逃逸至宿主机。用户访问宿主机的唯一通道是共享文件夹。•自由:用户可以像使用一台自己的Linux机器一样,通过SSH访问,并拥有主机的所有权限。•GPU:核心需求,每位同学可以直接访问GPU和使用宿主机的所有资源,包括CPU、内存、硬盘等。•可控:管理员可以较为方便对每位同学的机器进行管理,如资源争抢严重时,限制每位同学的资源使用上限(GPU, CPU, 内存等)•开销: 为满足这些需求,额外的开销应该尽可能小到可以忽略。•利用率:公用算力的资源应该能得到最大化的利用•复杂度:整套解决方案不能太复杂,便于维护

宿主机硬件配置

•GPU NVIDIA Tesla P40 *2•Memory 64G•Disk 100G SSD 系统盘 + 500G SSD 数据盘•CPU Intel Core (Broadwell, no TSX) @ 16x 2.2GHz•OS Ubuntu 20.04 LTS Server

解决方案

需求中有两个核心点:

文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。

原文链接:wenyusuran.blog.csdn.net/article/details/123040015

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。