- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

ModelArts自定义镜像完成定制化作业训练【玩转华为云】

龙哥手记发表于 2022/11/24 14:05:33 2022/11/24

【摘要】用自定义镜像功能建notebook与训练作业,来满足AI应用开发环境的定制需求

主要内容有：

一容器镜像是啥
二实验条件先准备好
三用自定义镜像建Notebook
四自定义镜像建训练作业

一容器镜像是啥

1.1 先搞清楚定义

它是一种支持镜像全生命周期管理的服务，提供简单易用安全可靠的镜像管理功能，来快速部署容器化服务。

通过使用容器镜像服务，您不用自建和维护镜像仓库，即可享有云上的镜像安全托管及高效分发服务，并且可配合云容器引擎 CCE、云容器实例 CCI使用，获得容器上云的顺畅体验；

容器镜像服务的计费项包括存储空间与流量费用，目前均免费提供给您哈！

1.2 这服务有啥功能呢（具体点）

镜像全生命周期管理
 容器镜像服务支持镜像的全生命周期管理，包括镜像的上传、下载、删除等。
私有镜像仓库
 容器镜像服务提供私有镜像库，并支持细粒度的权限管理，可以为不同用户分配相应的访问权限（读取、编辑、管理）。
镜像加速
 容器镜像服务通过华为自主专利的镜像下载加速技术，使CCE集群下载镜像时在确保高并发下能获得更快的下载速度。
镜像仓库触发器
 容器镜像服务支持容器镜像版本更新自动触发部署。您只需要为镜像设置一个触发器，通过触发器，可以在每次镜像版本更新时，自动更新使用该镜像部署的应用。
镜像安全扫描（这里可集成容器安全服务CGS）

1.3 这服务有啥吗

简单易用

无需自行搭建和运维，即可快速推送拉取容器镜像。
容器镜像服务的管理控制台简单易用，支持镜像的全生命周期管理。

安全可靠

容器镜像服务遵循HTTPS协议保障镜像安全传输，提供帐号间、帐号内多种安全隔离机制，确保用户数据访问的安全。
容器镜像服务依托华为专业存储服务，确保镜像存储更可靠。

镜像加速

容器镜像服务通过华为自主专利的镜像下载加速技术，使CCE集群下载时在确保高并发下能获得更快的下载速度。

1.4 他有什么场景没有

镜像生命周期管理

提供镜像构建、镜像上传、下载、同步、删除等完整的生命周期管理能力。

优势

镜像下载加速：华为自主专利的加速下载技术，提升华为云容器拉取镜像的速度。
高可靠的存储：依托华为OBS专业存储，确保镜像的存储可靠性高达11个9。
更安全的存储：细粒度的授权管理，让用户更精准的控制镜像访问权限。

建议搭配使用

云容器引擎CCE + 云容器实例CCI

二实验条件先准备好

2.1 先创建ECS

1. 控制台服务列表下，找到弹性云服务器ECS，点击进入ECS控制台界面

2. 点击“购买弹性云服务器”

3. 计费模式选择“按需计费”，区域选择“北京四”

4. 选择“x86计算”架构，规格选择“c7.large.2”

5. 镜像选择“Ubuntu 18.04 server 64bit”

6. 系统盘大小增加至100G

7. 点击“下一步：配置”

8. 选择默认VPC

说明：如果没有默认VPC, 可点击“前往控制台创建”：

9. 选择default安全组

说明：如果没有默认安全组，可点击“新建安全组”：

10. 选择“按带宽计费”，带宽大小设置为10

11. 点击“下一步：高级配置”

12. 输入名称、密码，点击“下一步：确认配置”

13. 勾选协议，点击“立即购买”：

创建完成，可在首页看到刚创建的ECS

2.2 配置ECS环境

1. 远程登录ECS

2. 使用CloudShell登录

3. 输入密码后点击“连接”

进入后，如下所示

4. 安装docker环境

命令行终端输入如下命令下载安装脚本

apt-get update

apt -y install docker.io

安装成功如下所示

5. 测试验证

命令行终端执行docker命令，验证docker是否安装成功

2.3 配置SWR容器镜像服务

1. 登录SWR容器镜像服务

服务列表搜索定位至SWR容器镜像服务

点击后进入SWR服务控制台：

2. 创建组织

单击右上角“创建组织”，输入组织名称完成组织创建。您可以自定义组织名称，本示例使用“deep-learning-dcyang”, 请将其替换为自己的名称

3. 获取登录指令

单击右上角“登录指令”，获取登录访问指令

点击复制按钮

4. 终端登录SWR

命令行终端粘贴刚复制的登录命令并执行：

三用自定义镜像建Notebook

3.1 创建基础开发环境

1. 进入ModelArts控制台

服务列表搜索点击进入ModelArts控制台

2. 创建Notebook

ModelArts控制台依次点击“开发环境”、“Notebook”、“创建”

3. 输入名称、描述信息

4. 选择“pytorch1.8”公共镜像

5. 资源规格保持默认CPU规格

6. 存储选择云硬盘EVS，磁盘规格保持默认5GB，点击“立即创建”

返回页，显示“创建中”

7. 打开notebook

待状态显示“运行中”，点击“打开”

打开后，进入jupyterlab界面

8. 新建notebook文件

点击“pytorch_1_8”,新建notebook文件

9. 运行测试

notebook里输入如下代码，验证输出是否正常：

import torch
print(torch.__version__)

如下所示

3.2 将Notebook实例保存为自定义镜像

ModelArts支持将notebook实例导出成自定义镜像，用户可根据自己需要在已创建好的notebook实例上安装其他依赖库后导出成自定义镜像，后续可以基于新的镜像创建notebook。

1. 此处以transformers库为例，在notebook内执行以下语句，安装transformers库

! pip install transformers

2. 回到notebook首页，点击“更多”、“保存镜像”

3. 选择之前SWR控制台创建的组织，镜像名称变更为“pytorch_1_8_transformers”，版本v1，添加描述信息

点击“确定”后，状态显示“快照中”

过程约8分钟，请耐心等待

4. 在镜像管理页面进一步查看

3.3 基于自定义镜像创建notebook

1. 创建新notebook，镜像选择“自定义”，其余步骤同2.1小节

创建成功，如下所示

2. 运行测试

打开新创建的notebook环境，新建notebook文件

notebook内输入如下内容，测试输出是否正常

import transformers

运行成功，输出如下，警告可忽略

四自定义镜像建训练作业

4.1 制作自定义镜像

1. 进入CloudShell命令行终端

2. 创建并进入镜像目录

mkdir -p ~/custom-image/trainjob
cd ~/custom-image/trainjob

3. 执行wget命令下载镜像制作相关文件压缩包

wget https://sandbox-expriment-files.obs.cn-north-1.myhuaweicloud.com:443/20221019/trainjob_image.zip

4. 执行unzip命令解压镜像制作文件压缩包

unzip trainjob_image.zip

执行ls命令确认文件夹内容

ls trainjob_image

其中Dockerfile为构建镜像的文本文件，其余为镜像内需要预置安装的一些工具及依赖库

Dockerfile具体内容如下

# 容器镜像构建主机需要连通公网

# 基础容器镜像, https://github.com/NVIDIA/nvidia-docker/wiki/CUDA
# 
# https://docs.docker.com/develop/develop-images/multistage-build/#use-multi-stage-builds
# require Docker Engine >= 17.05
#
# builder stage
FROM nvidia/cuda:10.2-runtime-ubuntu18.04 AS builder

# 基础容器镜像的默认用户已经是 root
# USER root

# 使用华为开源镜像站提供的 pypi 配置
RUN mkdir -p /root/.pip/
COPY pip.conf /root/.pip/pip.conf

# 拷贝待安装文件到基础容器镜像中的 /tmp 目录
COPY Miniconda3-py37_4.12.0-Linux-x86_64.sh /tmp
COPY torch-1.8.1+cu102-cp37-cp37m-linux_x86_64.whl /tmp
COPY torchvision-0.9.1+cu102-cp37-cp37m-linux_x86_64.whl /tmp
COPY torchaudio-0.8.1-cp37-cp37m-linux_x86_64.whl /tmp

# https://conda.io/projects/conda/en/latest/user-guide/install/linux.html#installing-on-linux
# 安装 Miniconda3 到基础容器镜像的 /home/ma-user/miniconda3 目录中
RUN bash /tmp/Miniconda3-py37_4.12.0-Linux-x86_64.sh -b -p /home/ma-user/miniconda3

# 使用 Miniconda3 默认 python 环境 (即 /home/ma-user/miniconda3/bin/pip) 安装 torch*.whl
RUN cd /tmp && \
    /home/ma-user/miniconda3/bin/pip install --no-cache-dir \
    /tmp/torch-1.8.1+cu102-cp37-cp37m-linux_x86_64.whl \
    /tmp/torchvision-0.9.1+cu102-cp37-cp37m-linux_x86_64.whl \
    /tmp/torchaudio-0.8.1-cp37-cp37m-linux_x86_64.whl

# 构建最终容器镜像
FROM nvidia/cuda:10.2-runtime-ubuntu18.04

# 安装 vim / curl 工具（依然使用华为开源镜像站）
RUN cp -a /etc/apt/sources.list /etc/apt/sources.list.bak && \
    sed -i "s@http://.*archive.ubuntu.com@http://repo.huaweicloud.com@g" /etc/apt/sources.list && \
    sed -i "s@http://.*security.ubuntu.com@http://repo.huaweicloud.com@g" /etc/apt/sources.list && \
    apt-get update && \
    apt-get install -y vim curl && \
    apt-get clean && \
    mv /etc/apt/sources.list.bak /etc/apt/sources.list

# 增加 ma-user 用户 (uid = 1000, gid = 100)
# 注意到基础容器镜像已存在 gid = 100 的组，因此 ma-user 用户可直接使用
RUN useradd -m -d /home/ma-user -s /bin/bash -g 100 -u 1000 ma-user

# 从上述 builder stage 中拷贝 /home/ma-user/miniconda3 目录到当前容器镜像的同名目录
COPY --chown=ma-user:100 --from=builder /home/ma-user/miniconda3 /home/ma-user/miniconda3

# 设置容器镜像预置环境变量
# 请务必设置 PYTHONUNBUFFERED=1, 以免日志丢失
ENV PATH=$PATH:/home/ma-user/miniconda3/bin \
    PYTHONUNBUFFERED=1

# 设置容器镜像默认用户与工作目录
USER ma-user
WORKDIR /home/ma-user

5. 执行以下命令编译镜像

cd trainjob_image

docker build . -t pytorch_trainjob:1.8.1-cuda10.2

编译过程约15分钟，编译完成，如下所示

4.2 上传镜像

1. 使用docker tag命令给上传镜像打标签

docker tag pytorch_trainjob:1.8.1-cuda10.2 swr.cn-north-4.myhuaweicloud.com/deep-learning-dcyang/pytorch_trainjob:1.8.1-cuda10.2

注意：请将上述命令中的“deep-learning-dcyang”替换成自己创建的SWR组织名

2. 使用docker push命令上传镜像

docker push swr.cn-north-4.myhuaweicloud.com/deep-learning-dcyang/pytorch_trainjob:1.8.1-cuda10.2

注意：请将上述命令中的“deep-learning-dcyang”替换成自己创建的SWR组织名

上传过程约5分钟，上传成功，如下所示：

可在SWR控制台主页进一步查看上传的镜像。

4.3 OBS上传实验

1. 服务列表搜索进入OBS控制台

2. 点击右上角“创建桶”按钮

3. 地区选择“北京四”，输入桶名称(桶名称不能重名，请改成自己的桶名称)，策略选择“公共读”，其余保持默认，然后点击“立即创建”：

创建完成，可在桶列表下看到创建的桶：

3. 点击进入桶，点击创建“文件夹”：

4. 分别创建“demo-code”、“log”两个文件夹

5. 将以下链接复制到浏览器地址栏，浏览器自动下载文件至本地：

https://sandbox-expriment-files.obs.cn-north-1.myhuaweicloud.com:443/20221019/pytorch-verification.py

测试代码内容如下：

import torch
import torch.nn as nn

x = torch.randn(5, 3)
print(x)

available_dev = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
y = torch.randn(5, 3).to(available_dev)
print(y)

6. 进入“demo-code”文件夹

7. 点击“上传对象”

8. 点击“添加文件”

9. 选中之前下载的测试代码文件

10. 点击“上传”

完成后，可看到对应的文件

4.4 创建ModelArs训练作业

1. 进入ModelArts控制台

2. 点击“创建训练作业”

3. 名称描述信息

4. 选择自定义算法，自定义镜像

5. 指定代码目录

6. 设置启动命令：

/home/ma-user/miniconda3/bin/python ${MA_JOB_DIR}/demo-code/pytorch-verification.py

7. 选中“公共资源池”，“GPU规格”

8. 设置日志保存路径

9. 提交作业

提交完成，状态显示“等待中”

待状态显示“运行中”，可点击作业名称，查看具体详情

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入