【昇腾】HCCL 集合通信算子性能测试工具mpirun使用指导

举报
modelarts-dev-server 发表于 2023/11/16 09:59:19 2023/11/16
【摘要】 1. 前言本文旨在解释在华为云昇腾裸金属服务器上使用HCCL工具进行集合通信算子性能测试命令参数详情执行示例请参考单机场景:【昇腾】Ascend Snt9B集合通信算子单机多卡性能测试多机场景:【昇腾】Ascend Snt9B集合通信算子多机多卡性能测试2. 命令格式命令格式示例如下:mpirun -f hostfile -n number executable_file [-p npus]...

1. 前言

本文旨在解释在华为云昇腾裸金属服务器上使用HCCL工具进行集合通信算子性能测试命令参数详情

执行示例请参考

2. 命令格式

命令格式示例如下:

mpirun -f hostfile -n number executable_file [-p npus] [-b minbytes] [-e maxbytes] [-f stepfactor] [-o operator] [-r root] [-d datatype] [-n iters] [-w warmup_iters] [-c <0/1>]

2.1 参数说明

mpirun命令的参数说明如下:

  • -f:hostfile节点列表文件。hostfile文件的位置一般在/usr/local/Ascend/ascend-toolkit/latest/tools/hccl_test
  • -n:需要启动的节点数量。即具体的裸金属服务器台数
  • executable_file:指定集合通信性能测试工具的可执行文件。例如./bin/all_gather_test。当前可指定文件有:all_gather_test,all_reduce_test,alltoallv_test,broadcast_test,reduce_scatter_test,reduce_test

集合通信性能测试工具支持的参数说明如下:

  • 单个计算节点中包含的NPU个数

    -p,--npus <npus used for one node>:每个计算节点上,参与训练的NPU个数,默认:当前节点的NPU总数。

    说明:集合通信测试工具会按照用户配置的参与训练的NPU个数拉起相应的Device,Device的约束可参见规格约束

  • 数据量大小
    • -b,--minbytes <min size in bytes>:数据量起始值,默认:64M。
    • -e,--maxbytes <max size in bytes> :数据量结束值,默认:64M。
    • 数据增量通过增量步长或乘法因子参数设置
      • -i,--stepbytes <increment size> 增量步长,默认值:(max-min)/10

        注:当输入增量步长(-i)为0时,会对数据量起始值(-b)进行持续测试。

      • -f,--stepfactor <increment factor>:乘法因子,默认:不开启。

      说明:增量步长与乘法因子,需要二选一。

  • HCCL操作参数
    • -o,--op <sum/prod/min/max>:reduce相关的规约操作,默认为:sum。这里reduce相关的算子一般指:all_reduce_test,reduce_scatter_test,reduce_test
    • -r,--root <root>:指定的根节点,默认为:0,代表0节点。
    • -d,--datatype <int8/int16/int/fp16/fp32/int64/uint64/uint8/uint16/uint32/fp64>: 数据类型,默认:fp32(即float32)。

      HCCL operation

      Datatype Supported

      allreduce/reducescatter/reduce

      fp32/int8/int/fp16

      broadcast/allgather/alltoallv

      int8/int16/int/fp16/fp32/int64/uint64/uint8/uint16/uint32/fp64

  • 性能
    • -n,--iters <iteration count>:迭代次数,默认: 20。
    • -w,--warmup_iters <warmup iteration count>:预热迭代次数(不参与性能统计,仅影响HCCL Tests执行耗时),默认值:5
  • 结果校验

    -c,--check <0/1>:是否开启集合通信操作结果正确性校验,0标识不开启校验,1代表开启校验。默认值:1(开启)。

    说明:大规模集群场景下,开启结果校验会使HCCL Tests执行耗时增加。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。