【ModelArts】【训练作业】bootstrap is exiting with exit code 137是什么意思

举报
づ ̄3 ̄づ╭❤~ 发表于 2023/08/10 18:17:05 2023/08/10
【摘要】 问题:训练作业失败后会在日志中后如下信息bootstrap is exiting with exit code 137。这个日志的意思是启动脚本退出,退出码是137。那么退出码是什么,137又是怎么来的?退出码:像shell/python/c/c++在程序退出时会指定退出码,表示程序结束时的状态。参考:https://tldp.org/LDP/abs/html/exitcodes.html如...

问题:

训练作业失败后会在日志中后如下信息bootstrap is exiting with exit code 137。

这个日志的意思是启动脚本退出,退出码是137。

那么退出码是什么,137又是怎么来的?

退出码:

像shell/python/c/c++在程序退出时会指定退出码,表示程序结束时的状态。

参考:https://tldp.org/LDP/abs/html/exitcodes.html

如下真的仅供参考,实际情况是并不是所有的程序都遵守规范

exit Code Number Meaning Example Comments
0 程序正常退出

1 Catchall for general errors let "var1 = 1/0" Miscellaneous errors, such as "divide by zero" and other impermissible operations
2 Misuse of shell builtins (according to Bash documentation) empty_function() {} Missing keyword or command, or permission problem (and diff return code on a failed binary file comparison).
126 Command invoked cannot execute /dev/null Permission problem or command is not an executable
127 "command not found" illegal_command Possible problem with $PATH or a typo
128 Invalid argument to exit exit 3.14159 exit takes only integer args in the range 0 - 255 (see first footnote)
128+n Fatal error signal "n" kill -9 $PPID of script $? returns 137 (128 + 9)
130 Script terminated by Control-C Ctl-C Control-C is fatal error signal 2, (130 = 128 + 2, see above)
255* Exit status out of range exit -1 exit takes only integer args in the range 0 - 255

遇到异常退出码应该怎么分析

1. 观察日志中是否有Error日志,并根据Error日志尝试分析原因

2. 【困难】如果没有任何有效日志,需要需要进行debug。比如通过日志、通过断点去判断到底是哪里出的错。然后再针对性的进行分析。

举例:如果退出码是137的时候,可能就没有任何日志。他可能是被操作系统给干掉了,比如操作系统内存耗尽,把用户进程kill掉。

参考链接:

https://tldp.org/LDP/abs/html/exitcodes.html

https://www.jianshu.com/p/7649975f0c71

https://cloud.tencent.com/document/product/457/43125

https://zhuanlan.zhihu.com/p/560714542

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。