GPU Ant系列裸金属服务器RDMA网卡未加载配置至操作系统的解决方案
【摘要】 1. 问题描述笔者购买了一篇Ant1 GPU裸金属服务器, 服务器配置8*100GE的RoCE网卡,但是发现这批机器中的一台裸金属服务器的RoCE网卡未加载至操作系统中,选择的操作系统是华为云DevServer AIGC镜像:Ubuntu-20.04-x86-64bit-SDI3-for-A100-BareMetal-with-RoCE-and-NVIDIA-525-CUDA-12.0-AI...
1. 问题描述
笔者购买了一篇Ant1 GPU裸金属服务器, 服务器配置8*100GE的RoCE网卡,但是发现这批机器中的一台裸金属服务器的RoCE网卡未加载至操作系统中,
选择的操作系统是华为云DevServer AIGC镜像:Ubuntu-20.04-x86-64bit-SDI3-for-A100-BareMetal-with-RoCE-and-NVIDIA-525-CUDA-12.0-AIGC
执行ifconfig 命令无法看到8张网卡的配置信息,只能看到:
这是有问题的。 笔者如何解决, 将娓娓道来。
2. 原因分析
笔者首先想到硬件故障, 排查了华为云裸金属服务相关依赖的交换机、带外、BMS等故障监控信息,都未发现有硬件故障。然后执行lspci命令发现设备是在机器上的
这是显示RDMA网卡(PCI设备信息).
问题应该是操作系统中,安装的IB驱动可能没有正常启动:
执行以下命令查看:
果然问题再这里。 因为驱动没有把RDMA设备激活, 因此需要重启解决。
3. 解决方案
(1) 先把nv_peer_mem停止,不要加载至内核,否则IB驱动无法重启
(2) 重启ib驱动
执行命令: /etc/init.d/openibd restart
执行完成后
(3) 验证网卡设备是否已经被加载
(4) 记得把nv_peer_mem再加载回去
打完收工。
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)