全部建议
>
建议详情
- 预审中
- 预审通过
- 已采纳
- 4 已实现
【功能建议】ModelArts训练作业 No space left on device 已实现 编辑 删除
- AI开发平台ModelArts
- 对象存储服务 OBS
- EI基础平台
- 存储
- 开发者
问题描述:
在使用ModelArts的训练作业训练时,训练运行了11个小时,不知道为什么就显示运行失败了,查看日志发现显示No space left on device,
我使用的是yolove_resnent18(Ascend 910训练,就是AI市场的算法,数据集是我自己的)
如图:

训练作业应该是基于容器的话,这是容器存储空间满了?
我创建的训练版本太多,导致每次训练的残余文件不断积累,占满了空间?
还是因为我训练中间保存的中间数据太多,占满了空间?
训练输出是保存在OBS桶中的,应该不会存在满了的情况吧。
建议方案:
建议优化训练作业,训练作业每次即使在前版本修改也是重新训练,既然如此,应该会清空前版本训练数据吧,运行了11个小时,突然显示运行失败,而且训练作业是无法继续训练的,意味着我11个小时的训练白费了,这个有点糟糕啊。
期待能完善一下训练作业,设置恢复训练的选项,或优化训练流程,不要出现这种运行了11个小时,再说运行失败吧。
Tianyi_Li
发布于 2020-08-11 09:21:27
2020-08-11
345 2
0%
0%
取消
发表
0/1000
+ 插入图片0/4
仅支持JPG、JPEG、PNG、GIF,数量不超过4张且每张大小不超过2MB
0%
0%
删除建议
全部评论(2)
评论(2)
您提出的建议产品团队已经优化上线解决啦,感谢您的反馈,若在使用还有其它建议,可在云声平台继续反馈,我们收到后会尽快处理。感谢您对华为云的支持!
非常感谢您的反馈,您的建议我们已经收到,并已提交至相关产品团队进行核查评估,评估完成后对于建议是否采纳会尽快给您答复,也请您持续关注云声平台,了解建议进一步处理进展,感谢您对华为云的支持!