华为云CCE GPU集群中安装nvidia-fabricmanager失败的问题分析

举报
modelarts-dev-server 发表于 2023/11/21 09:42:54 2023/11/21
【摘要】 华为云CCE GPU集群中安装nvidia-fabricmanager失败的问题分析

1. 问题现象

笔者在华为云CCE集群(多个Ant8节点组成), 安装nvidia-fabricmanager后,无法正常启动。报错信息如下:

nvidia-fabric-manager.png

2.  解决方案

从报错信息看是nvidia-fabricmanager要使用服务器的6666端口, 但是似乎无法占用, 那么可能的原因就是

这个端口被CCE的其它组件已经占用了, 解决的方法就是删除icagent。 这个组件是daemonset在每个集群上都有, 删除后发现nvidia-fabricmanager可以正常启动,

查看了下nvidia-fabricmanager是否会占用主机端口, 一个比较好的回答,供各位看官参考:

nvidia-fabricmanager-solution.png

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。