高性能算力中心 — RDMA — NVIDIA SHARP

举报
云物互联 发表于 2022/07/15 23:46:29 2022/07/15
7.6k+ 0 0
【摘要】 目录 文章目录 目录 SHARP SHARP SHARP(Scalable Hierarchical Aggregation and Reduction Prot...

目录

文章目录

SHARP

SHARP(Scalable Hierarchical Aggregation and Reduction Protocol,可扩展分层次聚合和归约协议)是一种聚合通信(e.g. ML 梯度聚合、FL 模型聚合)网络卸载技术。

  • SHARPv1:在 Switch-IB2 EDR InfiniBand 上实现,最大支持 256Byte 聚合通信卸载。
  • SHARPv2:在 Quantum HDR InfiniBand 上实现,最大支持 2GByte 聚合通信卸载。

在各种 HPC 和 AI 场景中,常常存在多种聚合类通信协议,这些聚合类通信由于涉及全局网络,常常会对 Application 的并行效率产生巨大的影响。

业内研究了多种优化聚合类通信效率的软件方法,但依旧没有很好的解决必须要在全局网络中进行多次通信才能完成整体聚合操作,且很容易引入网络拥塞。经过多种方法优化后,聚合类通信的延迟仍然比点对点通信高一个数量级以上。

针对这种情况,NVIDIA Mellanox 从 EDR InfiniBand Switch 开始引入了 SHARP 技术,在交换机芯片中集成了计算引擎单元,可以支持 16bit、32bit 及 64bit 定点计算或浮点计算,可以支持求和、求最小值、求最大值、求与、求或及异或等计算,可以支持 Barrier、Reduce、All-Reduce 等操作。

SHARP

文章来源: is-cloud.blog.csdn.net,作者:范桂飓,版权归原作者所有,如需转载,请联系作者。

原文链接:is-cloud.blog.csdn.net/article/details/125777957

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

作者其他文章

评论(0

抱歉,系统识别当前为高风险访问,暂不支持该操作

    全部回复

    上滑加载中

    设置昵称

    在此一键设置昵称,即可参与社区互动!

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。