建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
设置昵称

在此一键设置昵称,即可参与社区互动!

确定
我再想想
选择版块
CANN 主题:1153帖子:4762

问题处理中

【问题求助】

使用ModelArts昇腾集群训练模型

Torrenza 2020/7/31 2633

昇腾910是华为公司推出的面向云端训练场景的AI处理器,每颗昇腾910 AI处理器内置32个达芬奇AI Core,单芯片提供256TFLOPS@FP16算力。

华为云通过ModelArts开放昇腾910训练集群服务。当前ModelArts昇腾集群服务处于公测阶段。

公测申请链接:https://console.huaweicloud.com/modelarts/?region=cn-north-4#/dashboard/applyModelArtsAscend910Beta


那么如何使用ModelArts昇腾集群来训练模型呢?

首页,你需要了解需要准备怎样的开发环境。

image.png

ModelArts是华为云上的AI开发平台,用于管理和下发训练任务。

OBS是对像存储服务,训练使用的脚本、数据集,都需要上传至OBS,在新建训练任务时,ModelArts会从OBS上的指定目录下载脚本和数据集。

另外,需要一个安装有MindStudio和Ascend-Toolkit的环境,MindStudio提供了Profiling、精度比对、Auto Tune等工具,用于分析模型的精度和性能数据。


了解完环境信息,再来看下在昇腾910上完成一个模型训练,需要哪些步骤。

模型众筹流程(训练).png


1、你需要评估下模型涉及的算子在昇腾算子库中是否都支持,如果有不支持的算子,可以参考TBE算子开发指南开发。

2、你的模型可能已经在其它平台训练过,那么现在昇腾910上训练之前,需要进行修改适配工作,参考模型迁移指南

3、这时你已经可以通过ModelArts在昇腾910上进行训练了。

4、训练任务可能并不是一切顺利,这时需要根据日志进行问题定位并解决。这时,需要一个MindStudio环境,这里我们提供了docker镜像,参考这个链接搭建环境。MindStudio环境Docker镜像

5、训练完成后,你可能发现模型的精度未能达到预期,这时需要在训练脚本中打开dump开关,分析精度损失的原因。参考精度比对工具使用指导

6、精度OK了,那么来调性能。训练脚本打开profiling、AutoTune开关。参考Profiling工具使用指导Auto Tune工具使用指导。  

到这里,全流程OK。


回复1

caorp
0 0
2021/2/3 12:33

上划加载中
直达楼层
标签
您还可以添加5个标签
  • 没有搜索到和“关键字”相关的标签
  • 云产品
  • 解决方案
  • 技术领域
  • 通用技术
  • 平台功能
取消

采纳成功

您已采纳当前回复为最佳回复

Torrenza

发帖: 3粉丝: 17

级别 : 版主

发消息 + 关注

发表于2020年07月31日 23:27:56 2633 1
直达本楼层的链接
楼主
显示全部楼层
[问题求助] 使用ModelArts昇腾集群训练模型

昇腾910是华为公司推出的面向云端训练场景的AI处理器,每颗昇腾910 AI处理器内置32个达芬奇AI Core,单芯片提供256TFLOPS@FP16算力。

华为云通过ModelArts开放昇腾910训练集群服务。当前ModelArts昇腾集群服务处于公测阶段。

公测申请链接:https://console.huaweicloud.com/modelarts/?region=cn-north-4#/dashboard/applyModelArtsAscend910Beta


那么如何使用ModelArts昇腾集群来训练模型呢?

首页,你需要了解需要准备怎样的开发环境。

image.png

ModelArts是华为云上的AI开发平台,用于管理和下发训练任务。

OBS是对像存储服务,训练使用的脚本、数据集,都需要上传至OBS,在新建训练任务时,ModelArts会从OBS上的指定目录下载脚本和数据集。

另外,需要一个安装有MindStudio和Ascend-Toolkit的环境,MindStudio提供了Profiling、精度比对、Auto Tune等工具,用于分析模型的精度和性能数据。


了解完环境信息,再来看下在昇腾910上完成一个模型训练,需要哪些步骤。

模型众筹流程(训练).png


1、你需要评估下模型涉及的算子在昇腾算子库中是否都支持,如果有不支持的算子,可以参考TBE算子开发指南开发。

2、你的模型可能已经在其它平台训练过,那么现在昇腾910上训练之前,需要进行修改适配工作,参考模型迁移指南

3、这时你已经可以通过ModelArts在昇腾910上进行训练了。

4、训练任务可能并不是一切顺利,这时需要根据日志进行问题定位并解决。这时,需要一个MindStudio环境,这里我们提供了docker镜像,参考这个链接搭建环境。MindStudio环境Docker镜像

5、训练完成后,你可能发现模型的精度未能达到预期,这时需要在训练脚本中打开dump开关,分析精度损失的原因。参考精度比对工具使用指导

6、精度OK了,那么来调性能。训练脚本打开profiling、AutoTune开关。参考Profiling工具使用指导Auto Tune工具使用指导。  

到这里,全流程OK。


举报
分享

分享文章到朋友圈

分享文章到微博

采纳成功

您已采纳当前回复为最佳回复

caorp

发帖: 9粉丝: 9

级别 : 版主

发消息 + 关注

发表于2021年02月03日 12:33:37
直达本楼层的链接
沙发
显示全部楼层

点赞 评论 引用 举报

游客

富文本
Markdown
您需要登录后才可以回帖 登录 | 立即注册

邀请回答
您可以邀请3位专家

结贴

您对问题的回复是否满意?
满意度
非常满意 满意 一般 不满意
我要反馈
0/200