【华为云网络技术分享】【第九弹】IB网络故障排查指导
本文的主要目的是在客户的IB网络出现问题后,用于指导客户进行配置收集和检查。
1.1 两台IB虚拟机RDMA通信异常
1.1.1 检查Pkey是否一致
查看虚拟机内部分配到的Pkey
cat /sys/class/infiniband/mlx5_0/ports/1/pkeys/* | grep -v "0x0000"
如果环境中查出来的Pkey只有一个,请联系华为技术支持人员。
如果环境中能查出来两个Pkey,请确保两台虚拟机内的Pkey是完全一致的。
1.1.2 检查防火墙是否关闭
service firewalld status
如果没有关闭,请执行以下命令将防火墙进行关闭
service firewalld stop
1.1.1 测试RDMA通信命令是否正确
虚拟机1作为客户端:
ib_write_lat -x 0 --pkey_index 0 192.168.0.218
虚拟机2作为服务端:
ib_write_lat -x 0 --pkey_index 0
1.2 虚拟机内IB口没有IP
执行ifconfig命令发现,IB口上没有IP地址。
1.2.1 排查Pkey
cat /sys/class/infiniband/mlx5_0/ports/1/pkeys/* | grep -v "0x0000"
如果环境中查出来的Pkey只有一个,请联系华为技术支持人员。
1.1.1 尝试手动获取IP地址
dhclient ib0
如果一直卡住,没有返回,说明无法通过DHCP协议获取到IP,请联系华为技术人员。
1.2 客户需要做的运维协助操作
如果按照1.3节客户自查指导的操作进行确认后IB网络依然无法通信或IB口无法获取IP地址,则需联系华为技术支持人员进行解决,并向华为技术支持人员提供如下表格中的信息:
Item | 如何使用 | 注释 | 您的值 |
VPC1 id | VPC1的id | 示例:fef65559-c154-4229-afc4-9ad0314437ea | |
VM1 id | VPC1下的虚拟机1 id | 示例: f7619b12-3683-4203-9271-f34f283cd740 | |
VM2 id | VPC1下的虚拟机2 id | 示例: f75df766-68aa-4ef3-a493-06cdc26ac37a |
- 点赞
- 收藏
- 关注作者
评论(0)