GPU A系列裸金属服务器RoCE带宽不足问题解决方法

举报
modelarts-dev-server 发表于 2023/11/21 09:48:57 2023/11/21
【摘要】 GPU A系列裸金属服务器RoCE带宽不足问题解决方法

问题现象:

NVIDIA Ant8支持RoCE网卡, Ubuntu20.04场景,在进行nccl-tests时,总线带宽理论峰值可达90GB/s; 但实际测试下来的结果只有35GB/s.

问题定位:

先介绍nv_peer_memory,nv_peer_mem是一个Linux 内核模块,它允许支持P2P(Peer-to-Peer)的NVIDIA GPU直接进行内存访问(DMA)。这意味着数据可以直接在多个GPU之间传输,而无需经过CPU或系统内存,这可以显著降低延迟并提高带宽。

所以既然nccl-tests能正常测试, 但是达不到预期: 可能是nv_peer_mem异常:

(1) dpkg -i | grep peer,查看该软件是否安装, 若未安装则需要安装,安装方法参考博客装机指导https://bbs.huaweicloud.com/blogs/398214, 若已安装则进入下一检测项;

(2) lsmod | grep peer, 查看该软件是否已经加载至内核,若没有则需要重新加载至内核,加载方法

/etc/init.d/nv_peer_mem start  , 如果执行失败,可能是未加载nv_peer_mem.conf至/etc/infiniband/中


也遇到找不到相关文件的问题,可以搜一下相关文件在哪里,然后复制到指定目录;如下

cp /tmp/nvidia-peer-memory-1.3/nv_peer_mem.conf  /etc/infiniband/

cp /tmp/nvidia-peer-memory-1.3/debian/tmp/etc/init.d/nv_peer_mem   /etc/init.d/

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。