【VPC-运维案例】05 IB网络出现问题时,如何排查?
两台IB弹性云服务器RDMA通信异常
1、检查Pkey是否一致。
查看弹性云服务器内部分配到的Pkey:
cat /sys/class/infiniband/mlx5_0/ports/1/pkeys/* | grep -v "0x0000"
图1 检查Pkey是否一致
如果环境中查出来的Pkey只有一个,请联系技术支持人员。
如果环境中能查出来两个Pkey,请确保两台弹性云服务器内的Pkey是完全一致的。
2、检查防火墙是否关闭。
service firewalld status
图2 检查防火墙
3、如果没有关闭,请执行以下命令将防火墙进行关闭:
service firewalld stop
测试RDMA通信命令是否正确。
弹性云服务器1作为客户端:
ib_write_lat -x 0 --pkey_index 0 192.168.0.218
弹性云服务器2作为服务端:
ib_write_lat -x 0 --pkey_index 0
弹性云服务器内IB口没有IP
执行ifconfig命令发现,IB口上没有IP地址。
排查Pkey。
cat /sys/class/infiniband/mlx5_0/ports/1/pkeys/* | grep -v "0x0000"
图3 排查Pkey
如果环境中查出来的Pkey只有一个,请联系技术支持人员。
尝试手动获取IP地址。
dhclient ib0
如果一直卡住,没有返回,说明无法通过DHCP协议获取到IP,请联系技术人员。
联系技术支持人员。
如果按照上述操作进行确认后IB网络依然无法通信或IB口无法获取IP地址,请联系技术支持人员进行解决,并提供如下表格中的信息:
Item
如何使用
注释
您的值
VPC1 ID
VPC1的ID
示例:fef65559-c154-4229-afc4-9ad0314437ea
-
VM1 ID
VPC1下的弹性云服务器1 ID
示例:f7619b12-3683-4203-9271-f34f283cd740
-
VM2 ID
VPC1下的弹性云服务器2 ID
示例:f75df766-68aa-4ef3-a493-06cdc26ac37a
-
- 点赞
- 收藏
- 关注作者
评论(0)