RaceSnail的博客_云社区-华为云

Lv.2

RaceSnail

更多个人资料

100 成长值

0 关注

1 粉丝

+ 关注私信

个人介绍

这个人很懒，什么都没有留下

感兴趣或擅长的领域

暂无数据

个人勋章

TA还没获得勋章~

成长雷达

100

个人资料

个人介绍

这个人很懒，什么都没有留下

感兴趣或擅长的领域

暂无数据

达成规则

以上满足项可达成此勋章

博客
关注
粉丝
论坛

全部时间

最近一月

全部
暂无专栏分类

飞桨x昇腾生态适配方案：15_loop算子缺失（下）：for循环替换loop

接上一章节内容，将ONNX模型拆分成loop算子部分和非loop算子部分后，分别转换成OM模型，并用for循环替换loop算子计算逻辑，比较OM模型和ONNX模型的推理结果是否一致，验证结果如果一致则证明该方案有效。 onnx模型转om loop算子前面的图-Aatc --model=./mode_loop_input2_i_cond.onnx --framework=5 \ --o...

昇腾深度学习

RaceSnail 2025-05-18 11:55:25

1000

2025-05-18 11:55:25

999+

飞桨x昇腾生态适配方案：14_loop算子缺失（上）：ONNX模型拆分

方案背景当在线推理的速度无法满足客户要求，使用atc工具将onnx转为om模型走离线推理路径时，遇到NPU不支持LOOP算子的问题，本文提供一种解决方案。本方案的设计思路是，onnx文件分成loop算子和不含loop算子的两部分，把loop算子的子图提取出来，单独推理。实际操作中可能需要分成3份乃至更多，因此，本方案使用于关键路径上的loop算子，否则工作量会很大。构造包含loop算子的...

昇腾深度学习

RaceSnail 2025-05-18 11:53:21

1610

2025-05-18 11:53:21

999+

飞桨x昇腾生态适配方案：13_API离线推理

ais_bench提供的python API可供使能基于昇腾硬件的离线模型(.om模型)推理。具体介绍可参考[API_GUIDE](https://gitee.com/ascend/tools/blob/master/ais-bench_workload/tool/ais_bench/API_GUIDE.md#api%E7%AE%80%E4%BB%8B)下面列举几个常用的API推理场景使用方...

昇腾深度学习

RaceSnail 2025-05-18 11:46:08

1126

2025-05-18 11:46:08

999+

飞桨x昇腾生态适配方案：12_动态OM推理

动态BatchSize OM推理以档位1 2 4 8档为例，设置档位为2，本程序将获取实际模型输入组Batch，每2个输入为一组，进行组Batch。示例命令：python3 -m ais_bench --model ./inference/om/dynamic_batch_size_det.om --input ./inference/input/ --output ./inference...

昇腾深度学习

RaceSnail 2025-05-18 11:42:44

1210

2025-05-18 11:42:44

999+

飞桨x昇腾生态适配方案：11_静态OM推理

推理环境准备 ais_bench推理工具简介昇腾离线OM模型的推理后端是ACL（Ascend Computing Language），其底层采用C实现，后来在ACL基础上又做了一套Python接口，命名为pyACL，为了方便开发，华为工程师又基于pyacl开发出一款推理工具ais_bench，此工具支持使用命令进行快捷地推理，并测试推理模型的性能（包括吞吐率、时延），同时ais_bench...

昇腾深度学习

RaceSnail 2025-05-18 11:38:15

2091

2025-05-18 11:38:15

999+

飞桨x昇腾生态适配方案：10_ONNX转OM

本章节介绍 ONNX 模型如何转化为 OM 模型，并在昇腾AI处理器上做离线推理。昇腾张量编译器（Ascend Tensor Compiler，简称ATC）是异构计算架构CANN体系下的模型转换工具，它可以将开源框架的网络模型或Ascend IR定义的单算子描述文件（json格式）转换为昇腾AI处理器支持的.om格式离线模型。ATC功能详见：https://www.hiascend.com...

昇腾深度学习

RaceSnail 2025-05-18 11:34:45

4323

2025-05-18 11:34:45

999+

飞桨x昇腾生态适配方案：09_Paddle转ONNX

本节介绍 PP-OCRv4 模型如何转化为 ONNX 模型。环境准备需要准备 PaddleOCR、Paddle2ONNX 模型转化环境，和 ONNXRuntime 推理环境。安装 Paddle2ONNXPaddle2ONNX 支持将 PaddlePaddle 模型格式转化到 ONNX 模型格式，安装命令如下：python3 -m pip install paddle2onnx 安装 ON...

昇腾深度学习

RaceSnail 2025-05-18 11:27:34

3417

2025-05-18 11:27:34

999+

飞桨x昇腾生态适配方案：08_性能调优方法

性能优化问题定界在通过分析 profiling 文件找出性能瓶颈后，接下来将介绍相关的优化方法。算子时长主要由计算时间和调度时间两部分构成，下面将分别对计算时间长和调度时间长这两种情况进行探讨。计算时间长的情况分析与优化计算时间长可能由以下三种情况导致：算子运行于 AI_CPU若底层未对 AI_CORE 提供支持，就必须开发新的算子；若已有相关支持，计算时间长大概率是由 64 位数据类...

昇腾深度学习

RaceSnail 2025-05-18 11:26:00

1189

2025-05-18 11:26:00

999+

飞桨x昇腾生态适配方案：07_性能数据分析

性能调优思路性能优化是一项系统性工作，建议采用 “分析 - 定位 - 优化” 的流程，通过性能分析工具定位瓶颈后实施针对性优化。通过 profiling 工具获取算子级性能数据定位性能瓶颈点，主要涉及算子计算时间与调度通信时间。常用优化策略中，计算时间过长需依靠算子自身优化升级，可收集算子的 shape 和 dtype 向算子开发部门提交工单并跟踪进展；调度过程包含多个环节，目前最突出的问...

昇腾深度学习

RaceSnail 2025-05-18 11:24:19

1243

2025-05-18 11:24:19

999+

飞桨x昇腾生态适配方案：06_算子适配举例

本节介绍aclnn算子的三种适配场景。 Paddle-API 与 CANN-Kernel 差异剖析及适配策略对于Paddle-API与CANN-Kernel两者中常见的差别与适配方法如下： Paddle参数缺失或者参数无法直接对应如果Paddle算子只需要CANN提供的某个参数为默认值的功能，则可通过默认赋值的方式完成考虑通过计算取得需要参数 CANN参数缺失CANN算子没有某个Paddle...

昇腾深度学习

RaceSnail 2025-05-18 11:17:49

1121

2025-05-18 11:17:49

999+

总条数：16

100

上滑加载中

https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=sed%20%E6%9B%BF%E6%8D%A2%E5%AD%97%E7%AC%A6%E4%B8%B2&rsv_pq=c7db61a600035dc5&rsv_t=5e19yEsbV9N5fIvdlGRU

快速交付

+ 关注