【ModelArts】同样超参、数据、规格、代码的训练作业突然失败之pip源影响

举报
づ ̄3 ̄づ╭❤~ 发表于 2023/07/21 17:16:28 2023/07/21
【摘要】 有的用户同样超参、数据、规格、代码的作业之前都是能正常运行的,但是在某个时间之后突然都失败。

背景

有的用户同样超参、数据、规格、代码的作业之前都是能正常运行的,但是在某个时间之后突然都失败。

这种情况下可能有什么原因呢?

分析

古希腊唯物主义哲学家赫拉克利特的一句名言:人不能两次走进同一条河流

同样的我们也不能创建出完全一样的训练作业。

我们认为的同样的作业背后肯定还是有些什么东西是不一样的。

比如:

1. 计算(GPU卡、CPU)

2. 存储(OBS、SFS)

3. 其他(pip源)

本次我们讨论的是pip源是如何导致作业失败的

失败原因

1. pip源故障

故障原因:

pip源的故障又分好几种。

比如:

1. 机房重保,断开了外网通道,导致无法链接外部的pip源

可能表现出来为链接pip源超时

2. pip源本身故障(扩容断服、高负载限流)

可能表现出来为包找不到

解决办法:

目前没有比较好的办法。只能不要过度依赖pip源。可通过如下方式避免pip源的依赖。

1. 【推荐】提前把需要安装的包打到作业的镜像里面

2. 提前下载好python的whl包(可能会很多),离线进行安装

2. pip源中的包更新

故障原因:

有时候pip源中的包可能会更新版本,我们在安装包的时候pip就会自动取安装最新的版本(可能),而新的版本将会带来很多问题。

1. 新版本包引入的新的BUG

可能表现出来这个包的某个方法调用出错

2. 新版本包和其他包不兼容

可能表现出这个包的某个方法找不到

3. 新版本包引入了其他依赖,而其他依赖又不满足,导致安装失败

可能表现出来是某个so文件找不到

解决办法:

1. 【推荐】提前把需要安装的包打到作业的镜像里面

2.  安装时指定版本号, 如 pip install redis==5.1.0

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。