全部建议
>
建议详情
- 预审中
- 预审通过
- 3 未采纳
【功能建议】ModelArts中训练管理的训练作业不稳定,无故运行失败 未采纳 编辑 删除
- AI开发平台ModelArts
- 对象存储服务 OBS
- EI基础平台
- 存储
- 开发者
问题描述:
在使用ModelArts的训练管理模块中的训练作业,使用的是AI市场的YOLOv3_Resnet18算法(Ascend 910训练),在训练时,无故出现运行失败的情况,日志中无提示信息,不知道怎么了,如图所示:

并不欠费情况,这是申请的Ascend 910公测,我再次运行后,可以运行,显示在运行中。
建议方案:
建议增加训练作业稳定性,昇腾集群服务正在公测,可能出现问题,建议增强一下稳定性;
已经运行了1个多小时,处在运行中,没有报错,就显示运行失败了,感觉不太好,也希望能增加一下日志的显示。
Tianyi_Li
发布于 2020-08-10 14:33:05
2020-08-10
70 2
0%
0%
取消
发表
0/1000
+ 插入图片0/4
仅支持JPG、JPEG、PNG、GIF,数量不超过4张且每张大小不超过2MB
0%
0%
删除建议
全部评论(2)
评论(2)
您好,关于您提交的建议产品和研发团队进行了评估,技术问题,需复现问题场景,建议您可通过提交工单解决,会有专业工程师对接,紧急情况下可以拨打4000-955-988求助客服。
若有关于华为云产品的功能、用户体验、产品缺陷等建议,可通过云声平台提出,我们会尽快确认后并给您回复。再次感谢您的支持与关注!
非常感谢您的反馈,您的建议我们已经收到,并已提交至相关产品团队进行核查评估,评估完成后对于建议是否采纳会尽快给您答复,也请您持续关注云声平台,了解建议进一步处理进展,感谢您对华为云的支持!