全部建议 > 建议详情
  • 预审中
  • 预审通过
  • 已采纳
  • 4 已实现

【功能建议】ModelArts训练作业 No space left on device 已实现 编辑 删除

  • AI开发平台ModelArts
  • 对象存储服务 OBS
  • EI基础平台
  • 存储
  • 开发者

问题描述:

在使用ModelArts的训练作业训练时,训练运行了11个小时,不知道为什么就显示运行失败了,查看日志发现显示No space left on device,

我使用的是yolove_resnent18(Ascend  910训练,就是AI市场的算法,数据集是我自己的)

如图:

image.png

训练作业应该是基于容器的话,这是容器存储空间满了?

我创建的训练版本太多,导致每次训练的残余文件不断积累,占满了空间?

还是因为我训练中间保存的中间数据太多,占满了空间?

训练输出是保存在OBS桶中的,应该不会存在满了的情况吧。





建议方案:

建议优化训练作业,训练作业每次即使在前版本修改也是重新训练,既然如此,应该会清空前版本训练数据吧,运行了11个小时,突然显示运行失败,而且训练作业是无法继续训练的,意味着我11个小时的训练白费了,这个有点糟糕啊。

期待能完善一下训练作业,设置恢复训练的选项,或优化训练流程,不要出现这种运行了11个小时,再说运行失败吧。

Tianyi_Li Tianyi_Li 发布于 2020-08-11 09:21:27 2020-08-11

345 2

0%
0人赞同
0%
0人不赞同

全部评论(2

评论(2

  • 【云声小管家】 思雨 2020-12-02 10:10:16

    您提出的建议产品团队已经优化上线解决啦,感谢您的反馈,若在使用还有其它建议,可在云声平台继续反馈,我们收到后会尽快处理。感谢您对华为云的支持!

  • 【云声小管家】 思雨 2020-08-11 14:56:22

    非常感谢您的反馈,您的建议我们已经收到,并已提交至相关产品团队进行核查评估,评估完成后对于建议是否采纳会尽快给您答复,也请您持续关注云声平台,了解建议进一步处理进展,感谢您对华为云的支持!

登录后可评论,请 注册

0/1000

+ 插入图片0/4

仅支持JPG、JPEG、PNG、GIF,数量不超过4张且每张大小不超过2MB

评论
发表评论...
取消 发表

0/1000

评论成功

+ 插入图片0/4

仅支持JPG、JPEG、PNG、GIF,数量不超过4张且每张大小不超过2MB

删除建议

设置昵称

在此一键设置昵称,即可发表云声建议!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。