全部建议 > 建议详情
  • 预审中
  • 预审通过
  • 3 未采纳

【用户体验】modelarts训练作业,GPU长时间不使用,自动停止训练作业 未采纳 编辑 删除

  • AI开发平台ModelArts
  • 对象存储服务 OBS
  • EI基础平台
  • 存储

问题描述:我在使用pycharm的toolkit创建训练作业时,有时候返回一个错误代码,比如OSerror,然后模型不在训练,GPU使用为0,但训练作业仍显示运行中,导致明明没有使用,却还是扣钱。

 

 

 

 

建议方案:GPU长时间不使用,自动停止训练作业(如超过1h),或者让用户自己设置自动停止的时长

 

 

JasonCZH JasonCZH 发布于 2021-05-12 13:08:35 2021-05-12

144 2

0%
0人赞同
0%
0人不赞同

全部评论(2

评论(2

  • 【云声小管家】 思雨 2021-06-03 16:17:54

    您好,关于您提交的建议产品和研发团队进行了评估,您的代码有足够的灵活性,需要自己控制对资源的使用和错误的处理,对于异常,可以及时退出以停止资源消耗。平台侧不提供此类通用能力,如果想实现类似功能,可以通过“多线程”方式自主检测GPU使用,在确认异常时主动退出进程,综合考虑整体需求与产品规划,很抱歉未能采纳,还请您谅解。对您造成困扰深表歉意!希望以上可以解决您的疑虑,感谢您的反馈,若在使用还有其它建议,可在云声平台继续反馈,我们收到后会尽快处理。感谢您对华为云的支持!

  • 【云声小管家】 思雨 2021-05-14 14:23:31

    非常感谢您的反馈,您的建议和诉求已经收到,并已提交至相关产品团队进行核查评估,评估完成后对于建议是否采纳会尽快给您答复,也请您持续关注云声平台,了解反馈建议处理进展,感谢您对华为云的支持!

登录后可评论,请 注册

0/1000

+ 插入图片0/4

仅支持JPG、JPEG、PNG、GIF,数量不超过4张且每张大小不超过2MB

评论
发表评论...
取消 发表

0/1000

评论成功

+ 插入图片0/4

仅支持JPG、JPEG、PNG、GIF,数量不超过4张且每张大小不超过2MB

删除建议

设置昵称

在此一键设置昵称,即可发表云声建议!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。