【昇腾】NPU Snt9B裸金属服务器训练中途报错PytorchStreamWriter failed解决方案
【摘要】 1. 问题描述使用华为云昇腾Snt9B裸金属服务器,基于pytorch框架进行大模型训练时,需要迭代训练100轮,在第21轮训练时中途报错:RuntimeError: [enforce fail at inline_container.cc:471] . PytorchStreamWriter failed writing file data: file write failed具体报错信息...
1. 问题描述
使用华为云昇腾Snt9B裸金属服务器,基于pytorch框架进行大模型训练时,需要迭代训练100轮,在第21轮训练时中途报错:
RuntimeError: [enforce fail at inline_container.cc:471] . PytorchStreamWriter failed writing file data: file write failed
具体报错信息为:
2. 问题定位
在训练时往往需要将训练中间结果记录为checkpoint保存在磁盘中,华为云昇腾Snt9B裸金属服务器默认自带200G的系统盘,使用df -h命令查看磁盘使用率,可以看到系统盘已被写满,该报错是由于磁盘容量不够保存checkpoint文件导致的。
3. 解决方案
有如下两种解决方案:
1. 减少checkpoint保存次数,来减少文件的写入。
2. 参考博客 [昇腾]Atlas800(鲲鹏920+昇腾Snt9处理器)环境配置指导,将磁盘合并挂载,并在保存checkpoint时,将保存地址指定在挂载的磁盘中。
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)