【VPC-运维案例】05 IB网络出现问题时,如何排查?

举报
VPC小蜜蜂 发表于 2018/05/16 15:46:15 2018/05/16
【摘要】 两台IB弹性云服务器RDMA通信异常检查Pkey是否一致。查看弹性云服务器内部分配到的Pkey:cat /sys/class/infiniband/mlx5_0/ports/1/pkeys/* | grep -v "0x0000"如果环境中查出来的Pkey只有一个,请联系技术支持人员。如果环境中能查出来两个Pkey,请确保两台弹性云服务器内的Pkey是完全一致的。检查防火墙是否关闭。serv...

两台IB弹性云服务器RDMA通信异常

1、检查Pkey是否一致。

查看弹性云服务器内部分配到的Pkey

cat /sys/class/infiniband/mlx5_0/ports/1/pkeys/* | grep -v "0x0000"

图1 检查Pkey是否一致

 1.png


  • 如果环境中查出来的Pkey只有一个,请联系技术支持人员。

  • 如果环境中能查出来两个Pkey,请确保两台弹性云服务器内的Pkey是完全一致的。

2、检查防火墙是否关闭。

service firewalld status

图2 检查防火墙

2.png

3、如果没有关闭,请执行以下命令将防火墙进行关闭:

service firewalld stop

测试RDMA通信命令是否正确。

弹性云服务器1作为客户端:

ib_write_lat -x 0 --pkey_index 0 192.168.0.218

弹性云服务器2作为服务端:

ib_write_lat -x 0 --pkey_index 0

弹性云服务器内IB口没有IP

执行ifconfig命令发现,IB口上没有IP地址。

  1. 排查Pkey。

    cat /sys/class/infiniband/mlx5_0/ports/1/pkeys/* | grep -v "0x0000"

    图3 排查Pkey 
    3.png

    如果环境中查出来的Pkey只有一个,请联系技术支持人员。

  2. 尝试手动获取IP地址。

    dhclient ib0

    如果一直卡住,没有返回,说明无法通过DHCP协议获取到IP,请联系技术人员。

  3. 联系技术支持人员。

    如果按照上述操作进行确认后IB网络依然无法通信或IB口无法获取IP地址,请联系技术支持人员进行解决,并提供如下表格中的信息:

    Item

    如何使用

    注释

    您的值

    VPC1 ID

    VPC1的ID

    示例:fef65559-c154-4229-afc4-9ad0314437ea

    -

    VM1 ID

    VPC1下的弹性云服务器1 ID

    示例:f7619b12-3683-4203-9271-f34f283cd740

    -

    VM2 ID

    VPC1下的弹性云服务器2 ID

    示例:f75df766-68aa-4ef3-a493-06cdc26ac37a

    -


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。