AI布道Mr_jin的博客_云社区-华为云

Lv.3

AI布道Mr_jin

更多个人资料

238 成长值

1 关注

0 粉丝

+ 关注私信

个人介绍

这个人很懒，什么都没有留下

感兴趣或擅长的领域

暂无数据

个人勋章

TA还没获得勋章~

成长雷达

220

个人资料

个人介绍

这个人很懒，什么都没有留下

感兴趣或擅长的领域

暂无数据

达成规则

以上满足项可达成此勋章

博客
关注
粉丝
论坛

全部时间

最近一月

全部
暂无专栏分类

MindIE-LLM ATB模型推理全流程解析

最近，有很多小伙伴问我，如果他们想自己基于MindIE镜像中的文件适配新模型，可以怎么做？为了实现这个目标，首先需要了解MindIE-LLM模型在推理过程中的代码调用流程，然后根据新模型的算法进行适配。背景知识MindIE-LLM组件采用ATB算子构建模型。ATB全称Ascend transformer boost，是一款高效、可靠的加速库，基于华为Ascend AI处理器，专门为Tran...

NAT

AI布道Mr_jin 2025-06-26 14:23:05

1286

2025-06-26 14:23:05

999+

MindIE DeepSeek MTP特性定位策略

最近MindIE开始支持DeepSeek MTP（multi token prediction）特性了，用于推理加速。但是有些开发者打开MTP开关后，没有发现明显的性能提升。这篇文章提供一种定位策略。原理很简单，就是看一下每次MTP推理后，模型是输出1个token还是多个token。由于MTP的token处理算法是用python实现的，所以可以在镜像的python代码中添加日志，可以在2个地...

AI布道Mr_jin 2025-06-23 15:42:51

939

2025-06-23 15:42:51

939

大模型推理显存和计算量估计方法

最近做吞吐量调试涉及到输入batch_size的设置，为了把算力和显存用起来，同时不触发out of memory，需要提前估计大模型推理过程中的显存占用，我参考了MindIE官网的这个文档完成了估计：https://www.hiascend.com/document/detail/zh/mindie/20RC2/mindieservice/servicedev/mindie_service...

深度学习

AI布道Mr_jin 2025-06-22 21:36:07

1358

2025-06-22 21:36:07

999+

DeepSeek-R1源码解读

最近和开发者做了很多DeepSeek-R1模型相关的推理项目，这两天抽时间把hugging face上面的源码拉下来仔细看了一遍，在这里做一个分享。主要是解析MOE部分的代码，包括EP并行的代码实现。整体结构查看hugging face上面的modeling_deepseek.py文件和config.json文件，可以发现代码结构和DeepSeek-V3是完全相同的。DeepseekV3D...

AI布道Mr_jin 2025-06-20 15:38:30

916

2025-06-20 15:38:30

916

昇腾训练建链超时定位策略

使用torch+mindspeed训练时，可能出现类似“wait socket establish timeout, role[0] rank[1] timeout[120]”的报错，plog日志内容如下：上图中给出以下信息：1，本端device id（5）、本端rank（1）、对端rank（2）。本端rank和对端rank表示的是在通信域内的rank编号，如果是子通信域，需要注意devic...

昇腾机器学习

AI布道Mr_jin 2025-06-12 11:12:03

1090

2025-06-12 11:12:03

999+

Mooncake 论文笔记

最近昇腾提供的大EP PD分离推理解决方案非常火，很多开发者都开始使用了。正好这两天也看了一篇PD分离的经典论文，就是Kimi采用的PD分离架构：Mooncake。背景传统的大模型推理方式存在一个问题，就是一个batch内的所有请求输出长度很可能不同，导致有的输入已经完成推理了，但是必须要等最后一个请求完成推理后，这个batch推理才算完成，才会进行下一个batch的计算，这就造成了计算资...

网络

AI布道Mr_jin 2025-05-30 17:32:00

1999

2025-05-30 17:32:00

999+

MindIE PD分离部署Q&A

PD分离是一种近年来兴起的推理加速部署方案，kimi、deepseek都进行了工程落地。昇腾MindIE组件也支持了PD分离部署能力，参考链接为 https://www.hiascend.com/document/detail/zh/mindie/20RC1/mindieservice/servicedev/mindie_service0140.html 。部署过程中会出现一些问题，在这里记...

AI布道Mr_jin 2025-05-27 20:28:30

2097

2025-05-27 20:28:30

999+

attention计算过程的一些细节

最近，有粉丝问我，attention结构中计算qkv的时候，为什么要做kvcache呢？他看了一些文章，没看懂。为什么要做kvcache？假设模型的输入序列长度是2，隐藏层的维度是H，那么q、k、v的维度分别是[2, H]假设它们的值分别是：q=[q1, q2]k=[k1, k2]v=[v1, v2]那么首先q*k的结果为：[q1*k1, q1*k2 q2*k1, q2*k2]...

AI布道Mr_jin 2025-05-27 20:01:54

1004

2025-05-27 20:01:54

999+

qwen模型 MindIE PD分离部署问题定位

背景使用MindIE提供的PD分离特性部署qwen2-7B模型，使用k8s拉起容器，参考这个文档进行部署：https://www.hiascend.com/document/detail/zh/mindie/100/mindieservice/servicedev/mindie_service0060.html，1个Prefill，1个Decode。最后一步测试推理请求的时候，出现报错：mo...

容器

AI布道Mr_jin 2025-05-06 09:48:19

1286

2025-05-06 09:48:19

999+

DeepSeek模型MOE结构代码详解

其实在DeepSeek-R1爆火之前，DeepSeek V2在我们行业就已经妇孺皆知了，它独特的MOE结构值得研究一下。这篇文章是基于 @ZOMI酱的2个视频写的，这2个视频讲的很好，建议大家都学习一下：《MOE终于迎来可视化解读！傻瓜都能看懂MoE核心原理！》和《使用昇腾NPU手撕MoE单机版代码！没想到如此简单！》。这篇文章是把我自己的理解梳理一下，加强自己的理解和记忆。 MOE结构概...

Python 深度学习

AI布道Mr_jin 2025-04-21 12:41:32

4682

2025-04-21 12:41:32

999+

总条数：25

100

上滑加载中

https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=sed%20%E6%9B%BF%E6%8D%A2%E5%AD%97%E7%AC%A6%E4%B8%B2&rsv_pq=c7db61a600035dc5&rsv_t=5e19yEsbV9N5fIvdlGRU

快速交付

+ 关注