ModelArts专属池训练+SFS场景使用方法

yangzilong 发表于 2021/12/10 16:49:33 2021/12/10
【摘要】 为了更好的兼容客户自定义需求,大型客户一般会使用专属资源池+SFS盘结合的方式来使用ModelArts。 本博客介绍在对应场景下的一些使用的必备操作命令和过程,主要包括:镜像仓库使用、共享硬盘使用、创建训练作业三个部分。

镜像仓库使用

SWR服务简介

容器镜像服务(SoftWare Repository for Container,简称SWR)是一种支持镜像全生命周期管理的服务。通过该服务可快速享有云上的镜像安全托管及高效分发服务,并且可配合云容器引擎 CCE、云容器实例 CCI使用,获得容器上云的顺畅体验。

详细文档介绍参考: https://support.huaweicloud.com/productdesc-swr/swr_03_0001.html

实操步骤

创建组织

进入swr服务再选定region。北京四的页面如: https://console.huaweicloud.com/swr/?region=cn-north-4#/app/dashboard

然后按下图操作创建组织

登陆镜像仓库

按下图操作获取登陆指令

按下图操作获取下载命令,或联系相关人员直接获取

linux服务器上,安装docker软件后,直接载命令行输入对应登陆指令即可登陆,之后再输入下载指令即可下载容器镜像到本地。

镜像改名及上传,其中“${}”为可变量。

docker tag ${image_name}:${image_version} swr.cn-north-4.myhuaweicloud.com/${organization_name}/${image_name}:${image_version}
docker push swr.cn-north-4.myhuaweicloud.com/${organization_name}/${image_name}:${image_version}

其他容器镜像构建及调试操作

参考文档: https://bbs.huaweicloud.com/blogs/285590

 


共享硬盘使用

ECS服务介绍: https://support.huaweicloud.com/productdesc-ecs/zh-cn_topic_0013771112.html

SFS服务介绍: https://support.huaweicloud.com/productdesc-sfs/zh-cn_topic_0034428718.html

ECS节点挂载共享硬盘

前提条件:

1.ECS节点和SFS的共享硬盘在相同的VPC或者对应VPC能够互联

2.ECS节点安装了NFS客户端

操作步骤:

设置华为云镜像源

sudo sed -i "s@http://.*archive.ubuntu.com@http://repo.huaweicloud.com@g" /etc/apt/sources.list
sudo sed -i "s@http://.*security.ubuntu.com@http://repo.huaweicloud.com@g" /etc/apt/sources.list

安装NFS客户端,挂载对应盘

sudo apt-get update
sudo apt-get install nfs-common

获取挂载命令,并挂载NFS存储

首先保证对应目录存在,然后输入对应指令即可。命令参考:

mkdir -p /mnt/sfs_turbo
mount -t nfs -o vers=3,nolock 192.168.0.169:/ /mnt/sfs_turbo

共享硬盘数据操作

数据拷贝操作与linux节点的本地目录一致。

普通节点可以直接ssh登陆,并通过scp上传、下载数据。也可以通过obsutil( https://support.huaweicloud.com/utiltg-obs/obs_11_0001.html )下载OBS桶的数据。

其他特殊场景请联系环境管理员或提工单咨询。

创建训练作业

创建训练作业

进入ModelArts服务,并选定region。北京四链接如: https://console.huaweicloud.com/modelarts/?region=cn-north-4#/trainingJobs

配置训练作业参数,重点关注:镜像id,启动命令,资源规格,挂载路径。其中挂载路径需要和启动命令匹配。

详细配置可以参考截图:

查看作业详情

先打开列表,选择需要的任务。

选择对应版本(默认选择最新版本)

在“日志”、“资源占用情况”子页签分别查看日志信息和各节点的CPUGPU利用率。多子节点时可以手动切换,界面如截图:

查看正在运行的作业列表

在作业列表页,按图片说明进行状态筛选即可

 

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区),文章链接,文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。