- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【昇腾】NPU Snt9B裸金属服务器多机分布式训练时报错connection timeout解决方案

modelarts-dev-server 发表于 2023/12/09 11:03:08 2023/12/09

【摘要】 1. 问题描述使用两台在同一vpc网络下的Snt9B裸金属服务器通过torch.distributed.launch进行多机分布式训练时，出现如下报错，显示连接超时：2. 解决方案在使用torch.distributed.launch进行多机分布式训练时，需要指定一个主节点，并且保证每个节点都在相同的vpc网络内（即节点间ping vpc ip可以ping通），所有节点均需要指定如下参数。-...

1. 问题描述

使用两台在同一vpc网络下的Snt9B裸金属服务器通过torch.distributed.launch进行多机分布式训练时，出现如下报错，显示连接超时：

2. 解决方案

在使用torch.distributed.launch进行多机分布式训练时，需要指定一个主节点，并且保证每个节点都在相同的vpc网络内（即节点间ping vpc ip可以ping通）。此外，还需要保证多台机器的RoCE网络在同一子网内。

所有节点均需要指定如下参数。

--nproc_per_node $NPUS_PER_NODE  # 每个节点的npu数目
--nnodes $NNODES  # 节点数目
--node_rank $NODE_RANK  # 节点标识
--master_addr $MASTER_ADDR  # 主节点ip地址，私有vpc ip
--master_port $MASTER_PORT  # 主节点端口

其中，主节点的ip地址不能使用公网ip，而要使用内网vpc ip。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

【昇腾】NPU Snt9B裸金属服务器多机分布式训练时报错connection timeout解决方案

1. 问题描述

2. 解决方案

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

【昇腾】NPU Snt9B裸金属服务器多机分布式训练时报错connection timeout解决方案

1. 问题描述

2. 解决方案

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品