【昇腾】NPU Snt9B裸金属服务器运行态RoCE带宽监控方法

举报
modelarts-dev-server 发表于 2023/12/18 20:38:03 2023/12/18
【摘要】 1. 背景介绍笔者使用华为云ModelArts弹性裸金属服务器-Ascend Snt9B服务器,选择的服务器镜像为:  EulerOS-2.10-Arm-rc3-64bit-for-Snt9B-BareMetal-with-CANN7.0.RC1Ascend Snt9B服务器中的hccl_tool集群网络工具,可以对硬件资源进行管理、监控、配置、查询等。2. 方案介绍本文通过hccn_too...

1. 背景介绍

笔者使用华为云ModelArts弹性裸金属服务器-Ascend Snt9B服务器,选择的服务器镜像为:  EulerOS-2.10-Arm-rc3-64bit-for-Snt9B-BareMetal-with-CANN7.0.RC1

Ascend Snt9B服务器中的hccl_tool集群网络工具,可以对硬件资源进行管理、监控、配置、查询等。

hccl_tool命令参考: hccn_tool全量命令

2. 方案介绍

本文通过hccn_tool的bandwidth命令查询RoCE网口实时带宽,单位为MB/sec

hccn_tool [-i %d] -bandwidth -g

参数说明:

参数

说明

-i

指定设备ID。取值范围:0~7。

-bandwidth

指定bandwidth属性。

-g

查询属性。

3. 举例

笔者使用两台Ascend Snt9B服务器进行两机分布式训练,训练中途NPU信息如下:


11.png

使用hccl_tool查询0号RoCE网口实时带宽,结果如下:

10.png

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。