多人共用Notebook的使用建议

举报
yangzilong 发表于 2022/05/20 17:16:01 2022/05/20
【摘要】 多人共用实例是一种提升资源ROI的常见方式。 本文将介绍一些多人共用Notebook的注意点和使用建议。

在开发场景下,单人占用单张GPU卡存在利用率低的情况,所以多人共用一个GPU实例是一个普遍接受的方案。在ModelArts中,我们可以多人共用一个Notebook实例,从而提升资源的ROI

但是ModelArtsNotebook实例是基于容器化方案提供的,如果实例异常或者重启,会将整个环境恢复到初始状态。虽然可以通过镜像保存等功能进行环境配置固化,但是在多人共用的场景下可行性较差。

本文将介绍一些多人共用Notebook的注意点和使用建议。

 

Notebook实例的特点:

  1. 基于容器化构建:
    1. 环境修改重启后失效,需要通过镜像保存来固化。
    2. 可以通过注册自定义镜像的方式创建自有环境。
    3. 异常情况下实例会重启。异常场景包括:CPU打满、内存占满、挂载目录容量超过限额等。
  2. 节点网络:可以访问外网,可以配置ssh登陆。
  3. 挂载目录情况“
    1. 目录“/home/ma-user/work”是单独挂载的EVS盘,提供较高的访问性能,且存储内容会持久化存储。
    2. 目录“/cache”是挂载节点的NVMe SSD盘,提供超高的访问性能,但是重启后会重置,容量限额500G

 

SSH&VS Code配置:

建议打开对应配置,多人可以通过VS Code来使用,或者直接通过ssh以命令行方式使用。

相关配置参考博客: https://bbs.huaweicloud.com/blogs/280541

 

Conda环境配置:

建议每人创建自己的conda env以便进行环境隔离。建议把conda的环境和缓存改到“/home/ma-user/work”目录下,以便重启后可以快速恢复对应环境。

路径的设置可以通过编辑“/home/ma-user/.condarc”来实现。添加或修改配置"env_dirs""pkgs_dirs"来设置环境和缓存路径,按顺序第一个路径作为默认存储路径,搜索环境和缓存时按先后顺序在各目录中查找。

配置命令如下:

mkdir -p /home/ma-user/work/envs/
mkdir -p /home/ma-user/work/pkgs/
conda  config  --add  envs_dirs /home/ma-user/work/envs/
conda  config  --add  pkgs_dirs /home/ma-user/work/pkgs/

之后,我们可以使用clone的方式创建一个自己的env,然后再切换到对应的env安装自己需要的包:

conda create -n my_env_name --clone python-3.7.10

参考文档:

https://blog.csdn.net/qq_38262728/article/details/88744268

https://blog.csdn.net/ljx0951/article/details/104121844

https://blog.csdn.net/javastart/article/details/102563461

 

Notebook监控配置:

因为部分异常情况会导致容器重启,所以我们需要找到实例重启的元凶。

建议启动实例后进行实例状态的监控,这样我们就知道是哪个命令导致出错的。如果我们能要求所有用户都在启动命令里增加自己名字信息(比如大家以自己的名字为目录,命令以绝对路径启动),就可以方便的找到责任人。

针对内存和CPU的监控参考博客: https://bbs.huaweicloud.com/blogs/351255

针对/cache目录使用情况的监控,可以使用如下命令来定期查看。

while :; do date; du -hs /cache/*; sleep 300; done


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。