pytorch No rendezvous handler for env://
【摘要】
目录
参考文章:
1、尝试将 backend=‘nccl’ 修改为 backend=‘gloo’,原因是win10暂时不支持nccl模式。
结果:未解决。
2、尝试更新pytorch至1.8。(为了提高 NCCL 稳定性,PyTorch 1.8 将支持稳定的异步错误/超时处理;支持 RPC 分析。此外,还增加了对管道并...
目录
1、尝试将 backend=‘nccl’ 修改为 backend=‘gloo’,原因是win10暂时不支持nccl模式。
结果:未解决。
2、尝试更新pytorch至1.8。(为了提高 NCCL 稳定性,PyTorch 1.8 将支持稳定的异步错误/超时处理;支持 RPC 分析。此外,还增加了对管道并行的支持,并可以通过 DDP 中的通讯钩子进行梯度压缩。)
参考文章:
参考1:
RunTimeError:No rendezvous handler for env:// - 知乎
参考2:
torch.distributed 的优势如下:
1. 每个进程对应一个独立的训练过程,且只对梯度等少量数据进行信息交换。
2. 每个进程包含独立的解释器和 GIL。
二 分布式训练介绍
分布式训练可以分为:
单机多卡,DataParallel(最常用,最简单)
单机多卡,DistributedDataParallel(较高级)
多机多卡,DistributedDataParallel(最高级)
文章来源: blog.csdn.net,作者:AI视觉网奇,版权归原作者所有,如需转载,请联系作者。
原文链接:blog.csdn.net/jacke121/article/details/124658030
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)