GPU Ant系列裸金属服务器RDMA网卡未加载配置至操作系统的解决方案

举报
modelarts-dev-server 发表于 2023/08/17 16:06:03 2023/08/17
【摘要】 1. 问题描述笔者购买了一篇Ant1 GPU裸金属服务器, 服务器配置8*100GE的RoCE网卡,但是发现这批机器中的一台裸金属服务器的RoCE网卡未加载至操作系统中,选择的操作系统是华为云DevServer AIGC镜像:Ubuntu-20.04-x86-64bit-SDI3-for-A100-BareMetal-with-RoCE-and-NVIDIA-525-CUDA-12.0-AI...

1. 问题描述

笔者购买了一篇Ant1 GPU裸金属服务器, 服务器配置8*100GE的RoCE网卡,但是发现这批机器中的一台裸金属服务器的RoCE网卡未加载至操作系统中,

选择的操作系统是华为云DevServer AIGC镜像:Ubuntu-20.04-x86-64bit-SDI3-for-A100-BareMetal-with-RoCE-and-NVIDIA-525-CUDA-12.0-AIGC 

执行ifconfig 命令无法看到8张网卡的配置信息,只能看到:


图片1.png

这是有问题的。 笔者如何解决, 将娓娓道来。

2. 原因分析

笔者首先想到硬件故障, 排查了华为云裸金属服务相关依赖的交换机、带外、BMS等故障监控信息,都未发现有硬件故障。然后执行lspci命令发现设备是在机器上的

这是显示RDMA网卡(PCI设备信息).


图片2.png

问题应该是操作系统中,安装的IB驱动可能没有正常启动:
执行以下命令查看:

20230817-155208(WeLinkPC).png

果然问题再这里。 因为驱动没有把RDMA设备激活, 因此需要重启解决。

3. 解决方案

(1) 先把nv_peer_mem停止,不要加载至内核,否则IB驱动无法重启

图片3.png

(2) 重启ib驱动

执行命令: /etc/init.d/openibd restart

图片4.png

执行完成后

图片5.png

(3) 验证网卡设备是否已经被加载

图片6.png

(4) 记得把nv_peer_mem再加载回去

图片7.png

打完收工。




【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。