基于ModelArts的昇腾CANN的TensorFlow模型迁移性能优化分析丨【我的华为云体验之旅】

Tianyi_Li 发表于 2021/12/03 16:11:20 2021/12/03
【摘要】 【我的华为云体验之旅】有奖征文火热进行中:https://bbs.huaweicloud.com/blogs/306271

在使用ModelArts做基于昇腾CANN的TensorFlow模型迁移时,有遇到性能瓶颈,在参考了文档和最近进行了CANN训练营第四期 第一课 你为什么这么慢 课程学习,总结如下:

第一课_你为什么这么慢_作业jpg_Page1.jpg

第一课_你为什么这么慢_作业jpg_Page2.jpg

第一课_你为什么这么慢_作业jpg_Page3.jpg

第一课_你为什么这么慢_作业jpg_Page4.jpg

迁移工作基本上基于ModelArts进行,使用的是提供的基于Ascend 910的NoteBook开发,这里有一些关于ModelArts和CANN的建议:

1. 相对GPU来说,ModelArts的Ascend 910训练平台的感受,以下主要是针对CANN这块说明:

首先来说,训练方面没有感受到有什么不同。

但在报错方面,感觉报错时打印信息不太友好,比如GPU在自身报错,而非框架问题报错时,会有一些比较容易读懂的信息打印,而CANN基本是Error + 数字,没有什么方便开发者读懂的信息比较麻烦,个人感觉很难定位问题,如图所示,分别为GPU和Ascend 910报错:

GPU报错截图:

微信截图_20211203162713.png

Ascend 910报错截图:

微信截图_20211203162803.png

最后是ModelArts上对官方推出的Auto Tune和Profiling的支持不太好,比如暂时无法用Auto Tune的RL模式,因为没有root权限,影响Auto Tune的使用。而且好像不支持解析Profiling数据。

2. OBS有时候不稳定。

OBS与NoteBook的交互有时候出问题,无法传输文件,我因此提过工单,当时确实不行,工程师测试也确实如此,但后来再测试就行了,可能是重启后节点发生改变就行了,感觉不太稳定啊。

3. 建议在B站直播的时候,视频的清晰度能高一些,PPT中的代码和框图中的字看不清楚,放大后也看不清楚,影响观感和理解。

最后,就是一点希望了,希望能提供针对平台的性能调优和精度调优工具配置脚本和产品文档相结合的方式,而不是直接仅给产品文档链接了,产品文档感觉不清楚,与具体平台差异很大,需要探索一阵子,才能配置好。而且文档缺乏正确配置运行后的效果提示,开发者有时候无法通过运行知道是否正确运行了,建议加些提示。希望在仓库提交的issue能多回复,多交流,即使暂未找到办法,也回复一下,方便解释沟通了解进度,不仅仅是在未找到办法前就一直搁置。


【我的华为云体验之旅】有奖征文火热进行中:https://bbs.huaweicloud.com/blogs/306271

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区),文章链接,文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。