作者小头像 Lv.7
更多个人资料
8697 成长值
29 关注
84 粉丝
+ 关注 私信

个人介绍

菠萝菠萝蜜,急急如律令

感兴趣或擅长的领域

自动化运维、人工智能、测试、网络技术
个人勋章
  • 活跃之星
  • 考证狂人
成长雷达
6100
1602
525
450
20

个人资料

个人介绍

菠萝菠萝蜜,急急如律令

感兴趣或擅长的领域

自动化运维、人工智能、测试、网络技术

达成规则

以上满足项可达成此勋章

  • 博客
  • 关注
  • 粉丝
  • 论坛
全部时间
全部时间
最近三天
最近一周
最近一月
  • 全部
  • MindSpore
  • CUDA
  • DeepSeek
  • 昇腾
  • DPDK
  • 监控观察
  • 网络基础
  • 流媒体
  • Firewall
  • 数据安全
  • IoT
  • 编程语言
  • 鸿蒙
  • 虚拟化
  • 鲲鹏
  • Linux
  • AI
  • 大数据-数仓
  • 网络安全
triton_ascend入门学习二
昇腾与GPU的开发差异,分为三方面:多核任务并行、单核数据搬运、编译优化(AscendNPU IR优化)(略)。NPU是物理核强绑定模式,与GPU逻辑维度并行+硬件自动物理映射的模式不同维度GPU(NVIDIA)昇腾(Ascend)grid 本质逻辑任务维度(和物理核解耦)物理核组映射(绑定 AI Core 拓扑)核数 / 维度限制grid 维度 / 大小无硬限制grid 大小≤AI Cor...
作者小头像 黄生 2026-04-08 21:04:54
85
1
0
2026-04-08 21:04:54
85
1
0
triton_ascend入门学习一
从Triton Ascend文档的快速入门(https://triton-ascend.readthedocs.io/zh-cn/latest/quick_start.html)开始,环境可以选择gitcode的vllm(高性能大语言模型推理框架)那个镜像。atomgit@676982cc8b2dd94c4aac433a:~$ git clone https://gitcode.com/As...
作者小头像 黄生 2026-04-07 09:17:07
144
0
0
2026-04-07 09:17:07
144
0
0
CANN学习资源开源仓的算子性能优化
开源仓的tutorials到这里结束了。感觉有点虎头蛇尾,记录点理论知识吧。切分数据切分后,部分核有计算拖尾,即需要部分尾核来计算尾块数据,此时,部分核始终处于空闲状态,从而使得算子的整体性能变差。假设总的数据量为[45, 20480],原Tiling设计每个核计算20480个数据,使用40个Vector核(假设设备有40个Vector核可用),多余的数据由前5个核每个核多处理20480个数...
作者小头像 黄生 2026-04-03 10:26:43
118
0
0
2026-04-03 10:26:43
118
0
0
CANN学习资源开源仓的算子调试三msProf及仿真
使用CANN包自带msProf上板模式抓取单算子API调用程序执行时算子的性能数据。 参数名 作用 --kernel-name 要采集的算子名称,支持使用算子名前缀进行模糊匹配。如果不指定,则只对程序运行过程中调度的第一个算子进行采集。 --launch-count 可以采集算子的最大数量,默认值为1,取值范围为1~5000之间的整数。...
作者小头像 黄生 2026-04-02 20:09:31
197
0
0
2026-04-02 20:09:31
197
0
0
msopgen生成的CANN自定义算子add的构建过程
msopgen也没个版本号可看,CANN8.5里面带的会比较旧,使用gitcode上的源码项目。本文是CANN学习资源开源仓的中级算子开发一的扩展。算子目录结构custom_op/├── build.sh # 构建脚本├── CMakeLists.txt # 主CMake配置├── CMakePresets.json ...
作者小头像 黄生 2026-04-02 15:36:11
127
0
0
2026-04-02 15:36:11
127
0
0
CANN学习资源开源仓的算子调试二打印和日志
DumpTensor 在算子执行过程中打印 Tensor 的内容,支持附加自定义信息(desc 参数,仅支持 uint32_t 类型),例如行号或标识符,以便在多处调用时区分不同输出。 参数 说明 tensor 支持 LocalTensor(位于 Unified Buffer/L1/L0C)或 GlobalTenso...
作者小头像 黄生 2026-04-01 11:49:03
158
1
0
2026-04-01 11:49:03
158
1
0
CANN学习资源开源仓的算子调试
在非昇腾设备上,可以利用CPU仿真环境进行算子开发和测试,实际上是通过标准的GCC编译器编译算子Kernel程序,链接CPU调测库,编译生成的可执行文件,完成算子CPU域的运行验证。比如,使用AI Core数量为8核,CPU调试中会创建8个线程模拟并行。add.cpp 是CPU侧验证工程的核心文件,包含头文件引入与常量定义、算子核函数实现以及CPU侧主程序调用三部分。注意这里忽略tiling...
作者小头像 黄生 2026-03-31 14:09:48
137
0
0
2026-03-31 14:09:48
137
0
0
CANN学习资源开源仓的算子贡献开发二UT和ST测试
无需编译部署算子包,通过UT(单元测试)方式验证Infershape推导结果、Tiling实现逻辑、Kernel实现逻辑是否符合预期。UT目录结构需手工创建。Tiling UT文件 tests/ut/op_host/test_add_custom_tiling.cpp#include <iostream>#include <gtest/gtest.h>#include "tiling_con...
作者小头像 黄生 2026-03-30 20:01:28
153
1
0
2026-03-30 20:01:28
153
1
0
CANN学习资源开源仓的算子贡献开发一
第04部分是cube算子,第05部分是融合算子,暂时略过,下面是06开源仓贡献部分。下载源码编译安装gawk5.3.0因为镜像无此命令。开源算子仓提供四类仓库,是内置算子的集合,支持多个算子同时编译出包。 仓库 地址 说明 ops-nn 不在华为云博客白名单中,无法发布 下同 提供神经网络计算能力的高阶算子库,包括matmul类、activation类等算子 op...
作者小头像 黄生 2026-03-30 15:55:04
166
0
0
2026-03-30 15:55:04
166
0
0
CANN学习资源开源仓的中级算子开发三workspace和属性及tilingkey
workspace是设备侧Global Memory上的一块内存,分为两部分:系统workspace和用户workspace。给人感觉这个东西好像是提升开发便利,但会降低性能的东西。系统workspace:Ascend C API需要预留的,API在计算过程需要一些作为缓存,大小通过GetLibApiWorkSpaceSize接口获取。用户workspace:算子实现使用到的,算子内部需要通...
kernel
作者小头像 黄生 2026-03-29 13:54:31
439
0
0
2026-03-29 13:54:31
439
0
0
总条数:385
10
10
20
50
100
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • ...
  • 39

上滑加载中

https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=sed%20%E6%9B%BF%E6%8D%A2%E5%AD%97%E7%AC%A6%E4%B8%B2&rsv_pq=c7db61a600035dc5&rsv_t=5e19yEsbV9N5fIvdlGRU
作者小头像
作者小头像
快速交付
+ 关注