[昇腾]Atlas800(鲲鹏920+昇腾Snt9处理器)训练服务器硬件指南

举报
modelarts-dev-server 发表于 2023/06/18 21:30:51 2023/06/18
【摘要】 本文给出Atlas800(鲲鹏920+昇腾910处理器)训练服务器硬件相关指南,包括三维视图、备件信息,HCCL常用方法以及网卡配置信息。

1. Atlas 800训练服务器三维视图

Atlas 800 训练服务器(型号9000)是基于华为鲲鹏920+昇腾Snt9处理器的AI训练服务器,实现完全自主可控,广泛应用于深度学习模型开发和AI训练服务场景。

硬件三维视图请阅:  https://info.support.huawei.com/computing/server3D/res/server/atlas8009000Liquid/index.html?lang=cn

2. Atlas 800训练服务器 HCCN Tool

本文档主要描述集群网络工具hccn_tool对外接口说明书,包括配置RoCE网卡的IP、网关,配置网络检测对象IP和查询LLDP信息等。


https://support.huawei.com/enterprise/zh/doc/EDOC1100251951

3. Atlas 800训练服务器备件查询助手

本文档可以帮助你查询服务器的所有部件、规格描述,数量等详细信息; 结合第一章节的三维视图,能够让你全面了解Atlas800.

https://info.support.huawei.com/computing/spareparts/#/spareparts

打开后请输入SN编码(该服务器的某编码): 2102313LNR10P5100077 , 若失效可以提工单至华为云ModelArts查询.

4. 附Atlas 800训练服务器的网卡配置问题

问题1: 机头网卡配置是什么?
(1) 四个 2*100GE网卡,是RoCE网卡,插在NPU板;
(2) 一个 4*25GE/10GE, 是Hi1822网卡,插在主板上的;

问题2: ifconfig能看到的网卡信息详解
(1) 能看到主板上的网卡信息,也就是VPC分配的私有IP;  
(2) 如若要看RoCE网卡的命令需要执行hccn_tools命令查看;参考第二节给的链接详情;

问题3: NPU上的网卡在哪里可以看到, 会健康检查吗?
回答: 8*NPU的网卡就是机头上配置的四个2*100GE网卡; 华为云有网卡健康状态监控机制;   


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。