【ModelArts】同样超参、数据、规格、代码的训练作业突然失败之pip源影响
背景
有的用户同样超参、数据、规格、代码的作业之前都是能正常运行的,但是在某个时间之后突然都失败。
这种情况下可能有什么原因呢?
分析
古希腊唯物主义哲学家赫拉克利特的一句名言:人不能两次走进同一条河流
同样的我们也不能创建出完全一样的训练作业。
我们认为的同样的作业背后肯定还是有些什么东西是不一样的。
比如:
1. 计算(GPU卡、CPU)
2. 存储(OBS、SFS)
3. 其他(pip源)
本次我们讨论的是pip源是如何导致作业失败的
失败原因
1. pip源故障
故障原因:
pip源的故障又分好几种。
比如:
1. 机房重保,断开了外网通道,导致无法链接外部的pip源
可能表现出来为链接pip源超时
2. pip源本身故障(扩容断服、高负载限流)
可能表现出来为包找不到
解决办法:
目前没有比较好的办法。只能不要过度依赖pip源。可通过如下方式避免pip源的依赖。
1. 【推荐】提前把需要安装的包打到作业的镜像里面
2. 提前下载好python的whl包(可能会很多),离线进行安装
2. pip源中的包更新
故障原因:
有时候pip源中的包可能会更新版本,我们在安装包的时候pip就会自动取安装最新的版本(可能),而新的版本将会带来很多问题。
1. 新版本包引入的新的BUG
可能表现出来这个包的某个方法调用出错
2. 新版本包和其他包不兼容
可能表现出这个包的某个方法找不到
3. 新版本包引入了其他依赖,而其他依赖又不满足,导致安装失败
可能表现出来是某个so文件找不到
解决办法:
1. 【推荐】提前把需要安装的包打到作业的镜像里面
2. 安装时指定版本号, 如 pip install redis==5.1.0
- 点赞
- 收藏
- 关注作者
评论(0)