torch distributed.init out of memory
【摘要】
torch distributed.init out of memory
设置环境gpu:
os.environ["CUDA_VISIBLE_DEVICES"] = "1, 2, 3"
local_rank=0
torch.cuda.set_device(local_rank)
cuda(0)默认是第0块显卡,
但是设置...
torch distributed.init out of memory
设置环境gpu:
os.environ["CUDA_VISIBLE_DEVICES"] = "1, 2, 3"
local_rank=0
torch.cuda.set_device(local_rank)
cuda(0)默认是第0块显卡,
但是设置CUDA_VISIBLE_DEVICES后:
cuda(0)就是CUDA_VISIBLE_DEVICES里面的第一个gpu。
distributed.init 报错out of memory
import argparse
import logging
import os
import time
import torch
import torch.distributed as dist
import torch.nn.functional as F
import torch.utils.data.distributed
def main(args):
try:
world_size = int(os.environ['WORLD_SIZE'])
rank = int(os.environ['RANK'])
dist_url = "tcp://{}:{}".format(os.environ["MASTER_ADDR"], os.environ["MASTER_PORT"])
except KeyError:
world_size = 1
rank = 0
dist_url = "tcp://127.0.0.1
文章来源: blog.csdn.net,作者:AI视觉网奇,版权归原作者所有,如需转载,请联系作者。
原文链接:blog.csdn.net/jacke121/article/details/124748293
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)