作者小头像 Lv.5
更多个人资料
1577 成长值
1 关注
102 粉丝
+ 关注 私信

个人介绍

昇腾异构计算架构CANN,助力释放硬件澎湃算力!

感兴趣或擅长的领域

人工智能
个人勋章
  • 小有名气
成长雷达
1530
27
0
0
20

个人资料

个人介绍

昇腾异构计算架构CANN,助力释放硬件澎湃算力!

感兴趣或擅长的领域

人工智能

达成规则

以上满足项可达成此勋章

  • 博客
  • 关注
  • 粉丝
  • 论坛
全部时间
全部时间
最近三天
最近一周
最近一月
  • 全部
  • Ascend C
深度解读昇腾CANN动态Shape图调度加速技术
在AI模型运行过程中,通常需要CPU和AI专用处理器(如昇腾AI处理器)协同工作。CPU所在位置称为主机端(Host),而NPU所在位置称为设备端(Device)。主机端擅长处理复杂的逻辑计算,而设备端擅长进行高并行计算。通过高效的计算调度机制,实现Host和Device之间的高效协同是提高AI模型性能的关键,能够显著提升异构系统资源的利用率。
kernel 昇腾
作者小头像 昇腾CANN 2025-09-16 15:58:09
25
0
0
2025-09-16 15:58:09
25
0
0
深度解读昇腾CANN模型下沉技术,提升模型调度性能
如何减少Host Bound模型的Device空闲时间,从而优化模型执行性能显得尤其重要,GE(Graph Engine)图引擎通过图模式的Host调度和模型下沉调度的方式,可提升模型调度性能,缩短模型E2E执行时间。
人工智能 昇腾
作者小头像 昇腾CANN 2025-09-16 15:35:45
10573
0
0
2025-09-16 15:35:45
999+
0
0
如何高效处理Ascend C非对齐数据?优化技巧全解析
对于Ascend C算子开发者而言,为了更高效地操作变量,通常需要满足相应的数据对齐要求。例如在使用DataCopy接口进行数据传输时,必须确保搬运的数据长度和操作数在UB上的起始地址为32字节对齐;在进行向量计算时,操作数的起始地址也需满足32字节对齐的要求。然而,在大多数场景下,会遇到大量非对齐的数据情况。本文提供了完整的处理方案,帮助开发者更加灵活地应对数据非对齐的情况。1. 数据非对...
API 昇腾
作者小头像 昇腾CANN 2025-06-30 20:01:50
7797
0
0
2025-06-30 20:01:50
999+
0
0
Ascend C矢量编程文档升级:带你掌握多核复杂场景下的Tiling数据切分
昇腾Ascend C编程语言发布以来,许多开发者已通过官方教程文档快速掌握了Ascend C算子的开发方法。然而,对于一些深度开发者而言,需要了解在多核、Tiling切分等复杂场景下的更深入内容介绍,以及更详尽的理论知识和实践方法,以便熟练掌握自定义算子的开发。
昇腾
作者小头像 昇腾CANN 2025-06-17 09:33:27
1170
3
2
2025-06-17 09:33:27
999+
3
2
昇腾CANN LLM-DataDist开发指南全新发布,快来社区体验吧
LLM-DataDist作为大模型分布式集群和数据管理组件,提供了高性能、零拷贝的点对点数据传输的能力,该能力通过简易的API开放给用户。LLM-DataDist利用昇腾集群多样化通信链路(RoCE/HCCS),可实现跨实例和集群的高效KV Cache传输,支持与主流LLM推理框架vLLM等的集成,并可用于构筑分布式数据管理系统。
昇腾
作者小头像 昇腾CANN 2025-06-16 15:05:15
872
1
0
2025-06-16 15:05:15
872
1
0
昇腾CANN集合通信技术解读——细粒度分级流水算法
在分级网络中,采用Server内Server间的分级算法往往存在带宽利用率低的问题,昇腾CANN通过HCCL细粒度分级流水算法可有效提升算法性能,本文将围绕该技术展开详细介绍,使能高性能分布式训练与推理业务。
昇腾 网络
作者小头像 昇腾CANN 2025-06-12 16:34:29
1680
3
3
2025-06-12 16:34:29
999+
3
3
深度解读昇腾CANN多流并行技术,提高硬件资源利用率
随着人工智能应用日益成熟,文本、图片、音频、视频等非结构化数据的处理需求呈指数级增长,数据处理过程从通用计算逐步向异构计算过渡。面对多样化的计算需求,昇腾AI处理器内置丰富的硬件计算资源用于处理不同的计算任务。其中,AI Core、Vector Core与AI CPU分别负责AI计算场景下的矩阵、向量与标量计算,DVPP支持图像、视频等数据的加速处理,而HCCL作为华为集合通信库,则提供单机多卡及
人工智能 昇腾
作者小头像 昇腾CANN 2025-05-23 16:34:31
11964
0
0
2025-05-23 16:34:31
999+
0
0
基于Ascend C的MC²通算融合算子性能优化最佳实践
根据不同的应用场景,昇腾CANN的算子加速库内置了多种MC²通算融合类算子,典型算子包括AllGatherMatMul、MatMulReduceScatter、MatMulAllReduce等。这些算子将AllReduce、ReduceScatter、AllGather等通信过程与MatMul计算进行融合,使SP、TP等并行场景下的通信和矩阵计算实现流水并行,从而加速大模型的执行。
昇腾
作者小头像 昇腾CANN 2025-04-08 09:58:11
9440
0
0
2025-04-08 09:58:11
999+
0
0
昇腾CANN算子共建仓CANN-Ops正式上线Gitee,首批算子已合入
打造“开发者共同驱动”的AI创新平台
昇腾
作者小头像 昇腾CANN 2025-04-01 21:24:02
2219
1
0
2025-04-01 21:24:02
999+
1
0
昇腾CANN《AOL算子加速库文档》上新,快来昇腾社区文档中心体验吧!
算子加速库(Ascend Operator Library,简称AOL )提供了丰富的深度优化、硬件亲和的高性能算子,包括神经网络(Neural Network,NN)算子库、DVPP(Digital Video Pre-Processor)算子库、以及加速大模型计算的Flash Attention等融合算子库,为神经网络在昇腾硬件上加速计算奠定了基础。
API 昇腾
作者小头像 昇腾CANN 2025-03-03 10:26:45
20386
0
0
2025-03-03 10:26:45
999+
0
0
总条数:140
10
10
20
50
100
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • ...
  • 14

上滑加载中

https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=sed%20%E6%9B%BF%E6%8D%A2%E5%AD%97%E7%AC%A6%E4%B8%B2&rsv_pq=c7db61a600035dc5&rsv_t=5e19yEsbV9N5fIvdlGRU
作者小头像
作者小头像
快速交付
+ 关注