【ModelArts】【训练失败】域名无法解析
【摘要】 背景在训练过程中如果需要访问第三方服务的时候,可能会出现 no such host或者其他找不到域名,解析不了域名的问题。分析方法1. 明确具体是哪个host无法解析2. 明确此host来源3. 根据如下可能的原因,进行针对性修改a. 域名真的不存在b. dns服务器配置错误c. dns服务器异常几种情况:1. 分布式作业中出现worker1或者其他worker的域名无法解析原因:这种...
背景
在训练过程中如果需要访问第三方服务的时候,可能会出现 no such host或者其他找不到域名,解析不了域名的问题。
分析方法
1. 明确具体是哪个host无法解析
2. 明确此host来源
3. 根据如下可能的原因,进行针对性修改
a. 域名真的不存在
b. dns服务器配置错误
c. dns服务器异常
几种情况:
1. 分布式作业中出现worker1或者其他worker的域名无法解析
原因:
这种情况下一般是由于多个worker的启动时间不一样,有的worker域名的注册上去比较慢,而其他worker又启动的比较快。启动快的worker去访问启动慢的worker就会出现no such host等错误。
解决办法:
每个worker在启动时,可以先进行10次ping 其他worker。保证所有worker域名都注册完成了之后,再启动跟其他worker进行交互。
伪代码:
iteration = 10
n_worker = 4
for w in (0, n_worker):
for i in (0, iteration):
if (ping host of w == success):
break;
2. obs或者其他域名无法解析
原因:
1. 部分局点的OBS域名没有注册到公网。
2. 用户的桶并不存在,比如在公有云局点去访问私有云局点的桶。
3. 不同局点的pip源地址可能不一样
解决办法:
1. 配置/etc/hosts(具体配置需要联系对于局点的环境管理员)
2. 获取正确的域名并修改(具体配置需要联系对于局点的环境管理员)
3. pip源可从 env | grep pip获取
3. 偶现的域名无法解析
原因:大量的域名解析请求会导致k8s的core dns负载过高
解决办法:
1. 减少调用量
4. 所有域名都无法解析
原因:/etc/resolve 错误 (只要不特地修改,默认配置都是可用的)
解决办法:
1. 找其他可以正常解析的机器拷贝可用的配置。
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
作者其他文章
评论(0)