【ModelArts】【训练作业】bootstrap is exiting with exit code 137是什么意思
【摘要】 问题:训练作业失败后会在日志中后如下信息bootstrap is exiting with exit code 137。这个日志的意思是启动脚本退出,退出码是137。那么退出码是什么,137又是怎么来的?退出码:像shell/python/c/c++在程序退出时会指定退出码,表示程序结束时的状态。参考:https://tldp.org/LDP/abs/html/exitcodes.html如...
问题:
训练作业失败后会在日志中后如下信息bootstrap is exiting with exit code 137。
这个日志的意思是启动脚本退出,退出码是137。
那么退出码是什么,137又是怎么来的?
退出码:
像shell/python/c/c++在程序退出时会指定退出码,表示程序结束时的状态。
参考:https://tldp.org/LDP/abs/html/exitcodes.html
如下真的仅供参考,实际情况是并不是所有的程序都遵守规范
exit Code Number | Meaning | Example | Comments |
---|---|---|---|
0 | 程序正常退出 | ||
1 | Catchall for general errors | let "var1 = 1/0" | Miscellaneous errors, such as "divide by zero" and other impermissible operations |
2 | Misuse of shell builtins (according to Bash documentation) | empty_function() {} | Missing keyword or command, or permission problem (and diff return code on a failed binary file comparison). |
126 | Command invoked cannot execute | /dev/null | Permission problem or command is not an executable |
127 | "command not found" | illegal_command | Possible problem with $PATH or a typo |
128 | Invalid argument to exit | exit 3.14159 | exit takes only integer args in the range 0 - 255 (see first footnote) |
128+n | Fatal error signal "n" | kill -9 $PPID of script | $? returns 137 (128 + 9) |
130 | Script terminated by Control-C | Ctl-C | Control-C is fatal error signal 2, (130 = 128 + 2, see above) |
255* | Exit status out of range | exit -1 | exit takes only integer args in the range 0 - 255 |
遇到异常退出码应该怎么分析
1. 观察日志中是否有Error日志,并根据Error日志尝试分析原因
2. 【困难】如果没有任何有效日志,需要需要进行debug。比如通过日志、通过断点去判断到底是哪里出的错。然后再针对性的进行分析。
举例:如果退出码是137的时候,可能就没有任何日志。他可能是被操作系统给干掉了,比如操作系统内存耗尽,把用户进程kill掉。
参考链接:
https://tldp.org/LDP/abs/html/exitcodes.html
https://www.jianshu.com/p/7649975f0c71
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)