专属资源池最佳实践-依赖服务使用简介

举报
yangzilong 发表于 2022/07/16 15:30:02 2022/07/16
【摘要】 在ModelArts专属资源池使用最佳实践里,可能会用到的一些其他服务以及ModelArts的部分功能。本文介绍了这些服务和功能的具体操作流程。

本文档是ModelArts专属池使用的一个子场景说明。

镜像仓库使用

swr服务简介

容器镜像服务(SoftWare Repository for Container,简称SWR)是一种支持镜像全生命周期管理的服务。通过该服务可快速享有云上的镜像安全托管及高效分发服务,并且可配合云容器引擎 CCE、云容器实例 CCI使用,获得容器上云的顺畅体验。

详细文档介绍参考: https://support.huaweicloud.com/productdesc-swr/swr_03_0001.html

实用步骤

创建组织

进入swr服务再选定region。北京四的页面如: https://console.huaweicloud.com/swr/?region=cn-north-4#/app/dashboard

然后按下图操作创建组织

登陆镜像仓库

按下图操作获取登陆指令

按下图操作获取下载命令,或联系相关人员直接获取

linux服务器上,安装docker软件后,直接载命令行输入对应登陆指令即可登陆,之后再输入下载指令即可下载容器镜像到本地。

镜像改名及上传,其中“${}”为可变量。

docker tag ${image_name}:${image_version} swr.cn-north-4.myhuaweicloud.com/${organization_name}/${image_name}:${image_version}

docker push swr.cn-north-4.myhuaweicloud.com/${organization_name}/${image_name}:${image_version}

其他容器镜像构建及调试操作

参考文档: https://bbs.huaweicloud.com/blogs/285590

 

共享硬盘使用

ECS服务介绍: https://support.huaweicloud.com/productdesc-ecs/zh-cn_topic_0013771112.html

SFS服务介绍: https://support.huaweicloud.com/productdesc-sfs/zh-cn_topic_0034428718.html

ECS节点挂载硬盘

前提条件:

1.ECS节点和SFS的共享硬盘在相同的VPC或者对应VPC能够互联

2.ECS节点安装了NFS客户端

操作步骤:

设置华为云镜像源

sudo sed -i "s@http://.*archive.ubuntu.com@http://repo.huaweicloud.com@g" /etc/apt/sources.list

sudo sed -i "s@http://.*security.ubuntu.com@http://repo.huaweicloud.com@g" /etc/apt/sources.list

安装NFS客户端,挂载对应盘

sudo apt-get update

sudo apt-get install nfs-common

获取挂载命令,并挂载NFS存储

首先保证对应目录存在,然后输入对应指令即可。命令参考:

mkdir -p /mnt/sfs_turbo

mount -t nfs -o vers=3,nolock 192.168.0.169:/ /mnt/sfs_turbo

 

专属资源池初始化

专属资源池(老版)

初始化开发环境

配置NAS VPC

进入资源池详情页,然后按图所示配置打通。如果出现异常或错误,请通过工单解决。

专属资源池(新版)

首先创建网络,然后再购买资源池并配置是否可用“训练”或“开发环境”。

细节待补充。

 

创建训练作业

创建训练作业(旧版)

进入ModelArts服务,并选定region。北京四链接如: https://console.huaweicloud.com/modelarts/?region=cn-north-4#/trainingJobs

配置训练作业参数,重点关注:镜像id,启动命令,资源规格,挂载路径。其中挂载路径需要和启动命令匹配。

详细配置可以参考截图:

创建训练作业(新版)

进入ModelArts服务,并选定region。北京四链接如: https://console.huaweicloud.com/modelarts/?region=cn-north-4#/training

配置训练作业参数,重点关注:镜像id,启动命令,资源规格,挂载路径。其中挂载路径需要和启动命令匹配。

详细配置可以参考截图:

查看作业详情

先打开列表,选择需要的任务。

选择对应版本(默认选择最新版本)

在“日志”、“资源占用情况”子页签分别查看日志信息和各节点的CPUGPU利用率。多子节点时可以手动切换,界面如截图:

查看正在运行的作业列表

在作业列表页,按图片说明进行状态筛选即可

 

创建开发环境

创建Notebook

参考:https://support.huaweicloud.com/devtool-modelarts/devtool-modelarts_0004.html

注意资源池要选择专属资源池

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。