全部建议
>
建议详情
- 预审中
- 预审通过
- 3 未采纳
【用户体验】modelarts训练作业,GPU长时间不使用,自动停止训练作业 未采纳 编辑 删除
- AI开发平台ModelArts
- 对象存储服务 OBS
- EI基础平台
- 存储
问题描述:我在使用pycharm的toolkit创建训练作业时,有时候返回一个错误代码,比如OSerror,然后模型不在训练,GPU使用为0,但训练作业仍显示运行中,导致明明没有使用,却还是扣钱。
建议方案:GPU长时间不使用,自动停止训练作业(如超过1h),或者让用户自己设置自动停止的时长
JasonCZH
发布于 2021-05-12 13:08:35
2021-05-12
144 2
0%
0%
取消
发表
0/1000
+ 插入图片0/4
仅支持JPG、JPEG、PNG、GIF,数量不超过4张且每张大小不超过2MB
0%
0%
删除建议
全部评论(2)
评论(2)
您好,关于您提交的建议产品和研发团队进行了评估,您的代码有足够的灵活性,需要自己控制对资源的使用和错误的处理,对于异常,可以及时退出以停止资源消耗。平台侧不提供此类通用能力,如果想实现类似功能,可以通过“多线程”方式自主检测GPU使用,在确认异常时主动退出进程,综合考虑整体需求与产品规划,很抱歉未能采纳,还请您谅解。对您造成困扰深表歉意!希望以上可以解决您的疑虑,感谢您的反馈,若在使用还有其它建议,可在云声平台继续反馈,我们收到后会尽快处理。感谢您对华为云的支持!
非常感谢您的反馈,您的建议和诉求已经收到,并已提交至相关产品团队进行核查评估,评估完成后对于建议是否采纳会尽快给您答复,也请您持续关注云声平台,了解反馈建议处理进展,感谢您对华为云的支持!