【ModelArts】【训练失败】域名无法解析
背景
在训练过程中如果需要访问第三方服务的时候,可能会出现 no such host或者其他找不到域名,解析不了域名的问题。
分析方法
1. 明确具体是哪个host无法解析
2. 明确此host来源
3. 根据如下可能的原因,进行针对性修改
a. 域名真的不存在
b. dns服务器配置错误
c. dns服务器异常
几种情况:
1. 分布式作业中出现worker1或者其他worker的域名无法解析
原因:
这种情况下一般是由于多个worker的启动时间不一样,有的worker域名的注册上去比较慢,而其他worker又启动的比较快。启动快的worker去访问启动慢的worker就会出现no such host等错误。
解决办法:
每个worker在启动时,可以先进行10次ping 其他worker。保证所有worker域名都注册完成了之后,再启动跟其他worker进行交互。
伪代码:
iteration = 10
n_worker = 4
for w in (0, n_worker):
for i in (0, iteration):
if (ping host of w == success):
break;
2. obs或者其他域名无法解析
原因:
1. 部分局点的OBS域名没有注册到公网。
2. 用户的桶并不存在,比如在公有云局点去访问私有云局点的桶。
3. 不同局点的pip源地址可能不一样
解决办法:
1. 配置/etc/hosts(具体配置需要联系对于局点的环境管理员)
2. 获取正确的域名并修改(具体配置需要联系对于局点的环境管理员)
3. pip源可从 env | grep pip获取
3. 偶现的域名无法解析
原因:大量的域名解析请求会导致k8s的core dns负载过高
解决办法:
1. 减少调用量
4. 所有域名都无法解析
原因:/etc/resolve 错误 (只要不特地修改,默认配置都是可用的)
解决办法:
1. 找其他可以正常解析的机器拷贝可用的配置。
- 点赞
- 收藏
- 关注作者
评论(0)