zjun的博客_云社区-华为云

Lv.3

zjun

更多个人资料

176 成长值

1 关注

3 粉丝

+ 关注私信

个人介绍

AI追风者

感兴趣或擅长的领域

人工智能、开发语言、昇腾

个人勋章

TA还没获得勋章~

成长雷达

170

个人资料

个人介绍

AI追风者

感兴趣或擅长的领域

人工智能、开发语言、昇腾

达成规则

以上满足项可达成此勋章

博客
关注
粉丝
论坛

全部时间

最近一月

全部
Ascend

初识华为RazorAttention

论文原文https://openreview.net/pdf?id=tkiZQlL04w最近学习华为的RazorAttention，水平有限，根据论文做了初步了解。 1 背景：KV缓存成为部署模型的主要瓶颈长上下文大型语言模型（LLM）在不同任务的自然语言处理方面具有显著的先进性。在LLM 模型的应用场景中，KV（Key-Value）缓存需要保存所有词元的Key与Value，以便节省后续解码...

zjun 2025-04-07 20:12:25

1001

2025-04-07 20:12:25

999+

NPU上如何使能pytorch图模式

1 Pytorch的compile技术PyTorch 的 torch.compile 是一个强大的功能，用于优化 PyTorch 模型的性能。它通过将 PyTorch 的动态图转换为静态图，并利用 Just-In-Time（JIT）编译技术，显著提高模型的推理速度和训练效率。 1.1 PyTorch torch.compile 的作用torch.compile 是 PyTorch 的一个实...

pytorch 昇腾

zjun 2025-03-24 15:33:38

1731

2025-03-24 15:33:38

999+

NPU上运行onnxruntime

## 1 问题背景在Ascend环境上，使用onnxruntime推理时，报错：```bash/onnxruntime_src/onnxruntime/core/session/provider_bridge_ort.cc:1193 onnxruntime::Provider& onnxruntime::ProviderLibrary::Get() [ONNXRuntimeError] : ...

zjun 2025-03-10 19:36:53

2024

2025-03-10 19:36:53

999+

MindIE BenchMark

1 BenchMark工具服务化MindIE Benchmark工具是通过部署昇腾服务化配套包后，以调用终端命令的方式测试大语言模型在不同配置参数下的推理性能和精度，并通过表格的形式展示模型在各个阶段的推理耗时（例如FirstTokenTime、DecodeTime等），以及对应时延的平均值、最小值、最大值、75分位（P75）、90分位（P90、SLO_P90）和99分位（P99）概率统计值...

网络

zjun 2025-02-24 19:51:58

2279

2025-02-24 19:51:58

999+

Ascend+FastAPI+ Uvicorn 实现推理

1、FastAPI & Uvicorn FastAPIFastAPI 是一个用于构建 API 的现代、快速（高性能）的 Python Web 框架，专为在 Python 中构建 RESTful API 而设计，具有以下特点：高性能性能卓越：FastAPI 的性能可与 NodeJS 和 Go 等语言的高性能 Web 框架相媲美，是最快的 Python Web 框架之一。这得益于其底层的 St...

API Python

zjun 2025-01-20 10:07:44

1901

2025-01-20 10:07:44

999+

解决Ascend上vllm运行时出现urllib3.exceptions.SSLError: [SSL: CERTIFICATE

背景尝试使用vllm模型，脚本代码如下：from vllm import LLM, SamplingParamsprompts = [ "Hello, my name is", "The president of the United States is", "The capital of France is", "The future of AI is",]sam...

人工智能昇腾神经网络

zjun 2025-01-06 15:10:59

10760

2025-01-06 15:10:59

999+

AscendC编程中的double buffer是什么？

执行于AI Core上的指令队列主要包括如下几类，即：Vector指令队列（V）Matrix指令队列（M）存储移动指令队列（MTE2、MTE3）。不同指令队列间的相互独立性和可并行执行性，是double buffer优化机制的基石。矢量计算CopyIn、CopyOut过程使用存储移动指令队列（MTE2、MTE3），Compute过程使用Vector指令队列（V），意味着CopyIn、Copy...

人工智能昇腾

zjun 2024-12-24 09:54:29

17135

2024-12-24 09:54:29

999+

Ascend Extension for PyTorch是个what？

1 Ascend Extension for PyTorchAscend Extension for PyTorch 插件是基于昇腾的深度学习适配框架，使昇腾NPU可以支持PyTorch框架，为PyTorch框架的使用者提供昇腾AI处理器的超强算力。项目源码地址请参见LINK。昇腾为基于昇腾处理器和软件的行业应用及服务提供全栈AI计算基础设施。您可以通过访问昇腾社区，了解关于昇腾的更多信息...

pytorch 昇腾

zjun 2024-11-08 19:24:05

2122

2024-11-08 19:24:05

999+

如何使用Ascend的ATB加速库？

Ascend Transformer Boost加速库（下文简称为ATB加速库）是一款高效、可靠的加速库，基于华为Ascend AI处理器，专门为Transformer类模型的训练和推理而设计

人工智能昇腾机器学习深度学习神经网络

zjun 2024-11-08 19:44:19

3410

2024-11-08 19:44:19

999+

ATB算子实现原理解读

在Ascend Transformer Boost加速库（ATB）中存在三种类型的算子，那么这三种类型的算子，它们的执行流程是什么，和其它的CANN中的算子有什么区别。

人工智能昇腾深度学习

zjun 2024-11-08 19:42:57

2296

2024-11-08 19:42:57

999+

总条数：26

100

上滑加载中

https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=sed%20%E6%9B%BF%E6%8D%A2%E5%AD%97%E7%AC%A6%E4%B8%B2&rsv_pq=c7db61a600035dc5&rsv_t=5e19yEsbV9N5fIvdlGRU

快速交付

+ 关注