云社区 > 云博客 > 博客详情
云社区 > 云博客 > 博客详情

【华为云网络技术分享】【第九弹】IB网络故障排查指导

樱桃小丸子 发表于 2018-02-03 11:20:5602-03 11:20
樱桃小丸子 发表于 2018-02-03 11:20:5602-03 11:20
0
0

【摘要】 本文的主要目的是在客户的IB网络出现问题后,用于指导客户进行配置收集和检查。

本文的主要目的是在客户的IB网络出现问题后,用于指导客户进行配置收集和检查。

1.1 两台IB虚拟机RDMA通信异常

1.1.1 检查Pkey是否一致

查看虚拟机内部分配到的Pkey

cat /sys/class/infiniband/mlx5_0/ports/1/pkeys/* | grep -v "0x0000"

image.png

如果环境中查出来的Pkey只有一个,请联系华为技术支持人员。

如果环境中能查出来两个Pkey,请确保两台虚拟机内的Pkey是完全一致的。

1.1.2 检查防火墙是否关闭

service firewalld status

image.png

如果没有关闭,请执行以下命令将防火墙进行关闭

service firewalld stop

1.1.1 测试RDMA通信命令是否正确

虚拟机1作为客户端:

ib_write_lat -x 0 --pkey_index 0 192.168.0.218

虚拟机2作为服务端:

ib_write_lat -x 0 --pkey_index 0

1.2 虚拟机内IB口没有IP

执行ifconfig命令发现,IB口上没有IP地址。

1.2.1 排查Pkey

cat /sys/class/infiniband/mlx5_0/ports/1/pkeys/* | grep -v "0x0000"

image.png

如果环境中查出来的Pkey只有一个,请联系华为技术支持人员。

1.1.1 尝试手动获取IP地址

dhclient ib0

如果一直卡住,没有返回,说明无法通过DHCP协议获取到IP,请联系华为技术人员。

1.2 客户需要做的运维协助操作

    如果按照1.3节客户自查指导的操作进行确认后IB网络依然无法通信或IB口无法获取IP地址,则需联系华为技术支持人员进行解决,并向华为技术支持人员提供如下表格中的信息:

Item

如何使用

注释

您的值

VPC1 id

VPC1的id

示例:fef65559-c154-4229-afc4-9ad0314437ea


VM1 id

VPC1下的虚拟机1 id

示例:

f7619b12-3683-4203-9271-f34f283cd740


VM2 id

VPC1下的虚拟机2 id

示例:

f75df766-68aa-4ef3-a493-06cdc26ac37a


 


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区),文章链接,文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:huaweicloud.bbs@huawei.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。

分享文章到微博
分享文章到朋友圈

相关文章


评论(0)


0/1000
评论

登录后可评论,请 登录注册

评论
温馨提示

您确认删除评论吗?

确定
取消
温馨提示

您确认删除评论吗?

删除操作无法恢复,请谨慎操作。

确定
取消
温馨提示

您确认删除博客吗?

确定
取消

确认删除

您确认删除博客吗?

确认删除

您确认删除评论吗?

温馨提示

登录超时或用户已下线,请重新登录!!!

确定
取消