他的回复:
非常感谢,已成功验证了 Mindspore-GPU 1.0.1版本引擎使用 Infiniband 网卡支持 RDMA 的分布式训练。主要的环境与要求:openmpi 使用具备 TCP 信道的基本版本就可以了,它仅仅是任务启动器。把宿主机的Infiniband设备节点与ibverbs库文件目录均挂载到容器中,MIndSpore-GPU引擎代码中 NCCL 通信的 代码中会自动找到并优先使用 RDMA协议;容器中运行分布式训练,需要在启动容器时使能 sharememory,设定为比较大的值。启动训练的参数命令行:mpirun -np 2 --allow-run-as-root --mca pml ob1 --mca btl tcp,self -mca btl_tcp_if_include ib0 --prefix /usr/local/openmpi-4.0.3 --hostfile hostfile-1-1 -x PATH -x DATA_PATH -x NCCL_IB_HCA=mlx5_2:1 pytest /var/mindsp-data/distributed_training/resnet50_distributed_training.py