作者小头像 Lv.5
更多个人资料
1567 成长值
1 关注
96 粉丝
+ 关注 私信

个人介绍

昇腾异构计算架构CANN,助力释放硬件澎湃算力!

感兴趣或擅长的领域

人工智能
个人勋章
TA还没获得勋章~
成长雷达
1520
27
0
0
20

个人资料

个人介绍

昇腾异构计算架构CANN,助力释放硬件澎湃算力!

感兴趣或擅长的领域

人工智能

达成规则

以上满足项可达成此勋章

  • 博客
  • 关注
  • 粉丝
  • 论坛
全部时间
全部时间
最近三天
最近一周
最近一月
  • 全部
  • Ascend C
如何高效处理Ascend C非对齐数据?优化技巧全解析
对于Ascend C算子开发者而言,为了更高效地操作变量,通常需要满足相应的数据对齐要求。例如在使用DataCopy接口进行数据传输时,必须确保搬运的数据长度和操作数在UB上的起始地址为32字节对齐;在进行向量计算时,操作数的起始地址也需满足32字节对齐的要求。然而,在大多数场景下,会遇到大量非对齐的数据情况。本文提供了完整的处理方案,帮助开发者更加灵活地应对数据非对齐的情况。1. 数据非对...
API 昇腾
作者小头像 昇腾CANN 2025-06-30 20:01:50
153
0
0
2025-06-30 20:01:50
153
0
0
Ascend C矢量编程文档升级:带你掌握多核复杂场景下的Tiling数据切分
昇腾Ascend C编程语言发布以来,许多开发者已通过官方教程文档快速掌握了Ascend C算子的开发方法。然而,对于一些深度开发者而言,需要了解在多核、Tiling切分等复杂场景下的更深入内容介绍,以及更详尽的理论知识和实践方法,以便熟练掌握自定义算子的开发。
昇腾
作者小头像 昇腾CANN 2025-06-17 09:33:27
482
3
2
2025-06-17 09:33:27
482
3
2
昇腾CANN LLM-DataDist开发指南全新发布,快来社区体验吧
LLM-DataDist作为大模型分布式集群和数据管理组件,提供了高性能、零拷贝的点对点数据传输的能力,该能力通过简易的API开放给用户。LLM-DataDist利用昇腾集群多样化通信链路(RoCE/HCCS),可实现跨实例和集群的高效KV Cache传输,支持与主流LLM推理框架vLLM等的集成,并可用于构筑分布式数据管理系统。
昇腾
作者小头像 昇腾CANN 2025-06-16 15:05:15
276
1
0
2025-06-16 15:05:15
276
1
0
昇腾CANN集合通信技术解读——细粒度分级流水算法
在分级网络中,采用Server内Server间的分级算法往往存在带宽利用率低的问题,昇腾CANN通过HCCL细粒度分级流水算法可有效提升算法性能,本文将围绕该技术展开详细介绍,使能高性能分布式训练与推理业务。
昇腾 网络
作者小头像 昇腾CANN 2025-06-12 16:34:29
654
3
2
2025-06-12 16:34:29
654
3
2
深度解读昇腾CANN多流并行技术,提高硬件资源利用率
随着人工智能应用日益成熟,文本、图片、音频、视频等非结构化数据的处理需求呈指数级增长,数据处理过程从通用计算逐步向异构计算过渡。面对多样化的计算需求,昇腾AI处理器内置丰富的硬件计算资源用于处理不同的计算任务。其中,AI Core、Vector Core与AI CPU分别负责AI计算场景下的矩阵、向量与标量计算,DVPP支持图像、视频等数据的加速处理,而HCCL作为华为集合通信库,则提供单机多卡及
人工智能 昇腾
作者小头像 昇腾CANN 2025-05-23 16:34:31
11131
0
0
2025-05-23 16:34:31
999+
0
0
基于Ascend C的MC²通算融合算子性能优化最佳实践
根据不同的应用场景,昇腾CANN的算子加速库内置了多种MC²通算融合类算子,典型算子包括AllGatherMatMul、MatMulReduceScatter、MatMulAllReduce等。这些算子将AllReduce、ReduceScatter、AllGather等通信过程与MatMul计算进行融合,使SP、TP等并行场景下的通信和矩阵计算实现流水并行,从而加速大模型的执行。
昇腾
作者小头像 昇腾CANN 2025-04-08 09:58:11
1240
0
0
2025-04-08 09:58:11
999+
0
0
昇腾CANN算子共建仓CANN-Ops正式上线Gitee,首批算子已合入
打造“开发者共同驱动”的AI创新平台
昇腾
作者小头像 昇腾CANN 2025-04-01 21:24:02
1638
1
0
2025-04-01 21:24:02
999+
1
0
昇腾CANN《AOL算子加速库文档》上新,快来昇腾社区文档中心体验吧!
算子加速库(Ascend Operator Library,简称AOL )提供了丰富的深度优化、硬件亲和的高性能算子,包括神经网络(Neural Network,NN)算子库、DVPP(Digital Video Pre-Processor)算子库、以及加速大模型计算的Flash Attention等融合算子库,为神经网络在昇腾硬件上加速计算奠定了基础。
API 昇腾
作者小头像 昇腾CANN 2025-03-03 10:26:45
19602
0
0
2025-03-03 10:26:45
999+
0
0
深度学习的分布式训练与集合通信(三)
本文将会介绍一些更高阶的并行方式,如序列并行(SP),上下文并行(CP),混合序列并行Ulysess,ZeRO系列并行优化策略,完全分片数据并行(FSDP)。并且,在文章最后将汇总所有介绍过的并行方案与它们的通信模式,帮助读者初步建立起分布式训练与集合通信的知识结构体系。
分布式 机器学习 深度学习
作者小头像 昇腾CANN 2025-02-12 16:20:35
62705
0
0
2025-02-12 16:20:35
999+
0
0
Ascend C常见问题案例:含有Matmul高层API的算子精度问题
本节针对含有Matmul高层API的算子,为排查在开发过程中遇到的精度问题,是否为算子中Matmul高层API调用方式导致,提供初步的问题定界和定位指导。
昇腾
作者小头像 昇腾CANN 2025-01-24 10:47:30
19307
0
0
2025-01-24 10:47:30
999+
0
0
总条数:139
10
10
20
50
100
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • ...
  • 14

上滑加载中

https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=sed%20%E6%9B%BF%E6%8D%A2%E5%AD%97%E7%AC%A6%E4%B8%B2&rsv_pq=c7db61a600035dc5&rsv_t=5e19yEsbV9N5fIvdlGRU
作者小头像
作者小头像
快速交付
+ 关注