【昇腾】NPU Snt9B裸金属服务器训练中途报错PytorchStreamWriter failed解决方案

举报
modelarts-dev-server 发表于 2023/11/21 15:28:48 2023/11/21
【摘要】 1. 问题描述使用华为云昇腾Snt9B裸金属服务器,基于pytorch框架进行大模型训练时,需要迭代训练100轮,在第21轮训练时中途报错:RuntimeError: [enforce fail at inline_container.cc:471] . PytorchStreamWriter failed writing file data: file write failed具体报错信息...

1. 问题描述

使用华为云昇腾Snt9B裸金属服务器,基于pytorch框架进行大模型训练时,需要迭代训练100轮,在第21轮训练时中途报错:

RuntimeError: [enforce fail at inline_container.cc:471] . PytorchStreamWriter failed writing file data: file write failed

具体报错信息为:

2. 问题定位

在训练时往往需要将训练中间结果记录为checkpoint保存在磁盘中,华为云昇腾Snt9B裸金属服务器默认自带200G的系统盘,使用df -h命令查看磁盘使用率,可以看到系统盘已被写满,该报错是由于磁盘容量不够保存checkpoint文件导致的。

3. 解决方案

有如下两种解决方案:

1. 减少checkpoint保存次数,来减少文件的写入。

2. 参考博客 [昇腾]Atlas800(鲲鹏920+昇腾Snt9处理器)环境配置指导,将磁盘合并挂载,并在保存checkpoint时,将保存地址指定在挂载的磁盘中。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。