【昇腾】Ascend Snt9B服务器HCCL_TEST profiling工具使用指导

举报
modelarts-dev-server 发表于 2023/11/30 09:37:28 2023/11/30
【摘要】 Ascend Snt9B服务器上HCCL_TEST profiling工具使用

0. 环境描述

笔者使用2台华为云ModelArts弹性裸金属服务器-Ascend Snt9B服务器进行HCCL_TEST profiling工具使用.

选择的服务器镜像是:  EulerOS-2.10-Arm-rc3-64bit-for-Snt9B-BareMetal-with-CANN7.0.RC1

该镜像已经安装CANN和mpich,并进行了环境配置,若选择其他镜像需要先配置环境。

1.设置 profiling

export HCCL_TEST_PROFILING=1

默认值为"0",即默认关闭状态。

设置值为"1" ,profiling 工具将开启

2.示例

a. 这里以allreduce算子双机测试举例,如何执行请参考:【昇腾】Ascend Snt9B集合通信算子多机多卡性能测试指导

mpirun -f hostfile -n 16 ./bin/all_reduce_test -b 8k -e 2048M -f 2 -d fp32 -o sum -p 8

b. 分别在两台裸金属上查看结果

cd /var/log/npu/profiling/  

如下图所示,该目录下会生成每张卡的profiling日志目录。

1.png

2.png

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。