【ModelArts】【训练失败】域名无法解析

举报
づ ̄3 ̄づ╭❤~ 发表于 2023/08/07 15:14:31 2023/08/07
【摘要】 背景在训练过程中如果需要访问第三方服务的时候,可能会出现 no such host或者其他找不到域名,解析不了域名的问题。分析方法1.  明确具体是哪个host无法解析2.  明确此host来源3.  根据如下可能的原因,进行针对性修改a. 域名真的不存在b. dns服务器配置错误c. dns服务器异常几种情况:1. 分布式作业中出现worker1或者其他worker的域名无法解析原因:这种...

背景

在训练过程中如果需要访问第三方服务的时候,可能会出现 no such host或者其他找不到域名,解析不了域名的问题。

分析方法

1.  明确具体是哪个host无法解析

2.  明确此host来源

3.  根据如下可能的原因,进行针对性修改

a. 域名真的不存在

b. dns服务器配置错误

c. dns服务器异常


几种情况:

1. 分布式作业中出现worker1或者其他worker的域名无法解析

原因:

这种情况下一般是由于多个worker的启动时间不一样,有的worker域名的注册上去比较慢,而其他worker又启动的比较快。启动快的worker去访问启动慢的worker就会出现no such host等错误。

解决办法:

每个worker在启动时,可以先进行10次ping 其他worker。保证所有worker域名都注册完成了之后,再启动跟其他worker进行交互。

伪代码:

iteration = 10

n_worker = 4

for w in (0, n_worker):

  for  i  in (0, iteration):

    if (ping host of w == success):

        break;

2. obs或者其他域名无法解析

原因:

1. 部分局点的OBS域名没有注册到公网。

2. 用户的桶并不存在,比如在公有云局点去访问私有云局点的桶。

3. 不同局点的pip源地址可能不一样

解决办法:

1. 配置/etc/hosts(具体配置需要联系对于局点的环境管理员)

2. 获取正确的域名并修改(具体配置需要联系对于局点的环境管理员)

3. pip源可从 env | grep pip获取

3. 偶现的域名无法解析

原因:大量的域名解析请求会导致k8s的core dns负载过高

解决办法:

1. 减少调用量

4. 所有域名都无法解析

原因:/etc/resolve 错误 (只要不特地修改,默认配置都是可用的)

解决办法:

1. 找其他可以正常解析的机器拷贝可用的配置。


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。