昇腾CANN的博客_云社区-华为云

Lv.5

昇腾CANN

更多个人资料

1617 成长值

1 关注

107 粉丝

+ 关注私信

个人介绍

昇腾异构计算架构CANN，助力释放硬件澎湃算力！

感兴趣或擅长的领域

人工智能

个人勋章

小有名气

成长雷达

1570

个人资料

个人介绍

昇腾异构计算架构CANN，助力释放硬件澎湃算力！

感兴趣或擅长的领域

人工智能

达成规则

以上满足项可达成此勋章

博客
关注
粉丝
论坛

全部时间

最近一月

全部
Ascend C

基于CANN开源算子库的二次开发实践：CrossEntropyLoss与Zloss融合

1.背景与问题在AI大模型训练过程中，性能优化是永恒的主题。如何快速、高效地实现算子级优化，进一步提升整网训练效率，成为很多开发者与企业的核心诉求。昇腾CANN开放了算子源码，并提供了Ascend C编程能力，使用户能够根据自身业务需求开发高性能算子。本实践聚焦于两个紧密相关的损失函数：交叉熵损失（CrossEntropyLoss）和ZLoss。在客户的某大模型训练场景中，使用Mind St...

机器学习深度学习

昇腾CANN 2025-11-27 10:54:35

272

2025-11-27 10:54:35

272

CANN 开源赋能协同创新：SGLang+Mooncake+CANN HIXL的PD分离D2D部署

一、CANN开源破壁垒：大模型PD分离部署D2D特性快速落地在大模型推理场景中，预填充（Prefill）与解码（Decode）阶段的计算特性差异显著：Prefill 阶段需处理长序列输入，对算力需求集中；Decode 阶段则以 token-by-token 生成为主，存在频繁的数据交互开销。传统部署方案将两者绑定在同一硬件节点，Prefill和Decode阶段共享硬件资源，且存在资源冗余现象...

开发者昇腾

昇腾CANN 2025-11-19 09:19:39

3689

2025-11-19 09:19:39

999+

CANN亮相2025长沙1024程序员节，以开源开放铸就AI算力新基座

10月24日~25日，以 “AI 构建世界，智能引领未来” 为主题的2025 长沙·1024程序员日在长沙·智谷成功举办。华为首席开源联络官任旭东在本次大会上发表了题为《开源开放，激发创新，共创智能世界新生态》的主题演讲。在这场聚焦AI与开源未来的行业盛会上，CANN作为智能算力核心基座，展现了在推动AI技术普及与行业落地中的关键作用。华为首席开源联络官任旭东 CANN开源开放，激发AI创新...

开发者

昇腾CANN 2025-10-28 10:24:49

919

2025-10-28 10:24:49

919

CANN首个训练样例仓库来袭！手把手带你玩转Qwen RL训练，揭秘DeepSeek-R1 RL训练性能优化之道！

在大模型技术飞速发展的当下，LLM（大语言模型）与多模态模型训练已成为 AI 领域创新的核心驱动力。然而，开发者在实际训练过程中，常常面临模型适配难、算法优化复杂、硬件资源利用率低等难题。为了方便广大开发者使用昇腾环境进行大模型的微调、续训，即将开源的cann-recipes-train仓库，针对LLM与多模态模型训练业务中的典型模型、算法，提供基于CANN平台的优化样例，帮助开发者简单、快...

开发者机器学习

昇腾CANN 2025-10-28 08:43:57

1261

2025-10-28 08:43:57

999+

深度解读昇腾CANN动态Shape图调度加速技术

在AI模型运行过程中，通常需要CPU和AI专用处理器（如昇腾AI处理器）协同工作。CPU所在位置称为主机端（Host），而NPU所在位置称为设备端（Device）。主机端擅长处理复杂的逻辑计算，而设备端擅长进行高并行计算。通过高效的计算调度机制，实现Host和Device之间的高效协同是提高AI模型性能的关键，能够显著提升异构系统资源的利用率。

kernel 昇腾

昇腾CANN 2025-09-16 15:58:09

27215

2025-09-16 15:58:09

999+

深度解读昇腾CANN模型下沉技术，提升模型调度性能

如何减少Host Bound模型的Device空闲时间，从而优化模型执行性能显得尤其重要，GE（Graph Engine）图引擎通过图模式的Host调度和模型下沉调度的方式，可提升模型调度性能，缩短模型E2E执行时间。

人工智能昇腾

昇腾CANN 2024-07-12 10:47:58

11946

2024-07-12 10:47:58

999+

如何高效处理Ascend C非对齐数据？优化技巧全解析

对于Ascend C算子开发者而言，为了更高效地操作变量，通常需要满足相应的数据对齐要求。例如在使用DataCopy接口进行数据传输时，必须确保搬运的数据长度和操作数在UB上的起始地址为32字节对齐；在进行向量计算时，操作数的起始地址也需满足32字节对齐的要求。然而，在大多数场景下，会遇到大量非对齐的数据情况。本文提供了完整的处理方案，帮助开发者更加灵活地应对数据非对齐的情况。1. 数据非对...

API 昇腾

昇腾CANN 2025-06-30 20:01:50

17159

2025-06-30 20:01:50

999+

Ascend C矢量编程文档升级：带你掌握多核复杂场景下的Tiling数据切分

昇腾Ascend C编程语言发布以来，许多开发者已通过官方教程文档快速掌握了Ascend C算子的开发方法。然而，对于一些深度开发者而言，需要了解在多核、Tiling切分等复杂场景下的更深入内容介绍，以及更详尽的理论知识和实践方法，以便熟练掌握自定义算子的开发。

昇腾

昇腾CANN 2025-06-17 09:33:27

2416

2025-06-17 09:33:27

999+

昇腾CANN LLM-DataDist开发指南全新发布，快来社区体验吧

LLM-DataDist作为大模型分布式集群和数据管理组件，提供了高性能、零拷贝的点对点数据传输的能力，该能力通过简易的API开放给用户。LLM-DataDist利用昇腾集群多样化通信链路（RoCE/HCCS），可实现跨实例和集群的高效KV Cache传输，支持与主流LLM推理框架vLLM等的集成，并可用于构筑分布式数据管理系统。

昇腾

昇腾CANN 2025-06-16 15:05:15

1673

2025-06-16 15:05:15

999+

昇腾CANN集合通信技术解读——细粒度分级流水算法

在分级网络中，采用Server内Server间的分级算法往往存在带宽利用率低的问题，昇腾CANN通过HCCL细粒度分级流水算法可有效提升算法性能，本文将围绕该技术展开详细介绍，使能高性能分布式训练与推理业务。

昇腾网络

昇腾CANN 2025-06-12 16:34:29

2804

2025-06-12 16:34:29

999+

总条数：144

100

上滑加载中

https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=sed%20%E6%9B%BF%E6%8D%A2%E5%AD%97%E7%AC%A6%E4%B8%B2&rsv_pq=c7db61a600035dc5&rsv_t=5e19yEsbV9N5fIvdlGRU

快速交付

+ 关注