作者小头像 Lv.3
更多个人资料
198 成长值
0 关注
0 粉丝
+ 关注 私信

个人介绍

这个人很懒,什么都没有留下

感兴趣或擅长的领域

暂无数据
个人勋章
TA还没获得勋章~
成长雷达
180
3
0
15
0

个人资料

个人介绍

这个人很懒,什么都没有留下

感兴趣或擅长的领域

暂无数据

达成规则

以上满足项可达成此勋章

  • 博客
  • 关注
  • 粉丝
  • 论坛
全部时间
全部时间
最近三天
最近一周
最近一月
  • 全部
  • 暂无专栏分类
昇腾训练建链超时定位策略
使用torch+mindspeed训练时,可能出现类似“wait socket establish timeout, role[0] rank[1] timeout[120]”的报错,plog日志内容如下:上图中给出以下信息:1,本端device id(5)、本端rank(1)、对端rank(2)。本端rank和对端rank表示的是在通信域内的rank编号,如果是子通信域,需要注意devic...
昇腾 机器学习
作者小头像 AI布道Mr_jin 2025-06-12 11:12:03
38
0
0
2025-06-12 11:12:03
38
0
0
Mooncake 论文笔记
最近昇腾提供的大EP PD分离推理解决方案非常火,很多开发者都开始使用了。正好这两天也看了一篇PD分离的经典论文,就是Kimi采用的PD分离架构:Mooncake。 背景传统的大模型推理方式存在一个问题,就是一个batch内的所有请求输出长度很可能不同,导致有的输入已经完成推理了,但是必须要等最后一个请求完成推理后,这个batch推理才算完成,才会进行下一个batch的计算,这就造成了计算资...
网络
作者小头像 AI布道Mr_jin 2025-05-30 17:32:00
130
0
0
2025-05-30 17:32:00
130
0
0
MindIE PD分离部署Q&A
PD分离是一种近年来兴起的推理加速部署方案,kimi、deepseek都进行了工程落地。昇腾MindIE组件也支持了PD分离部署能力,参考链接为 https://www.hiascend.com/document/detail/zh/mindie/20RC1/mindieservice/servicedev/mindie_service0140.html 。部署过程中会出现一些问题,在这里记...
作者小头像 AI布道Mr_jin 2025-05-27 20:28:30
112
0
0
2025-05-27 20:28:30
112
0
0
attention计算过程的一些细节
最近,有粉丝问我,attention结构中计算qkv的时候,为什么要做kvcache呢?他看了一些文章,没看懂。 为什么要做kvcache?假设模型的输入序列长度是2,隐藏层的维度是H,那么q、k、v的维度分别是[2, H]假设它们的值分别是:q=[q1, q2]k=[k1, k2]v=[v1, v2]那么首先q*k的结果为:[q1*k1, q1*k2 q2*k1, q2*k2]...
作者小头像 AI布道Mr_jin 2025-05-27 20:01:54
100
0
0
2025-05-27 20:01:54
100
0
0
qwen模型 MindIE PD分离部署问题定位
背景使用MindIE提供的PD分离特性部署qwen2-7B模型,使用k8s拉起容器,参考这个文档进行部署:https://www.hiascend.com/document/detail/zh/mindie/100/mindieservice/servicedev/mindie_service0060.html,1个Prefill,1个Decode。最后一步测试推理请求的时候,出现报错:mo...
容器
作者小头像 AI布道Mr_jin 2025-05-06 09:48:19
229
0
0
2025-05-06 09:48:19
229
0
0
DeepSeek模型MOE结构代码详解
其实在DeepSeek-R1爆火之前,DeepSeek V2在我们行业就已经妇孺皆知了,它独特的MOE结构值得研究一下。这篇文章是基于 @ZOMI酱 的2个视频写的,这2个视频讲的很好,建议大家都学习一下:《MOE终于迎来可视化解读!傻瓜都能看懂MoE核心原理!》和《使用昇腾NPU手撕MoE单机版代码!没想到如此简单!》。这篇文章是把我自己的理解梳理一下,加强自己的理解和记忆。 MOE结构概...
Python 深度学习
作者小头像 AI布道Mr_jin 2025-04-21 12:41:32
3337
0
0
2025-04-21 12:41:32
999+
0
0
MindIE LLM场景快速上手实验
MindIE是昇腾自研推理框架,本实验手册可指导小白用户快速掌握MindIE在LLM(large language model)场景的基本功能,包括:大模型推理功能测试、大模型性能测试、大模型精度测试、服务化推理部署、benchmark测试等。 1 实验准备 1.1 软硬件环境本实验使用的设备是800I A2服务器,已经参考官网文档(安装驱动和固件-MindIE安装指南-环境准备-MindI...
昇腾
作者小头像 AI布道Mr_jin 2025-04-09 09:24:20
532
0
0
2025-04-09 09:24:20
532
0
0
昇腾 msmodelslim w8a8量化代码解析
​最近有很多朋友都在部署deepseek模型,而且都用到了模型量化这个功能,目的是减少显存占用、提升推理速度。上图是w8a8量化算法流程,主要包含4步:①,使用昇腾 msmodelslim 仓库提供的量化接口对原始模型权重进行量化,生成int8格式的权重文件,以及后续在推理的时候要用到的激活值的量化参数和 matmul 结果的反量化参数;②,推理执行过程中,把Matmul的激活值(也就是输入...
昇腾
作者小头像 AI布道Mr_jin 2025-03-31 10:59:30
720
0
0
2025-03-31 10:59:30
720
0
0
qwen2.5 7b 量化推理
最近qwen2.5系列模型有点火,在昇腾上跑了一下,发现性能稍微有点弱,于是想采用量化推理来提升一下性能,在昇腾官网找到了这篇指导:https://www.hiascend.com/software/modelzoo/models/detail/bd96097296c3426aa3827a8a7cbeb8c6于是决定采用w8a8量化进行推理性能优化。 1. 下载模型权重建议从魔乐社区下载权重...
作者小头像 AI布道Mr_jin 2025-03-24 10:23:26
580
0
0
2025-03-24 10:23:26
580
0
0
DeepSeekV2-lite 昇腾8卡训练实验指导
本实验指导共包含实验环境准备、训练数据集准备、模型权重准备和预训练4个部分。1 环境准备1.1 拉取镜像本次实验使用的python环境来自昇腾官网提供的镜像,我们选择2024.rc3-arm版本的镜像环境。点击“立即下载后”,会提示登录昇腾账号,登录后会出现拉取镜像的命令(第一次拉取镜像会提示用户填写申请资料):按照上述截图中的步骤执行命令,结果如下:为了提升实验效率,也可以直接加载实验环境...
作者小头像 AI布道Mr_jin 2025-03-01 21:02:49
619
0
0
2025-03-01 21:02:49
619
0
0
总条数:21
10
10
20
50
100
  • 1
  • 2
  • 3

上滑加载中

https://www.baidu.com/s?ie=utf-8&f=3&rsv_bp=0&rsv_idx=1&tn=baidu&wd=sed%20%E6%9B%BF%E6%8D%A2%E5%AD%97%E7%AC%A6%E4%B8%B2&rsv_pq=c7db61a600035dc5&rsv_t=5e19yEsbV9N5fIvdlGRU
作者小头像
作者小头像
快速交付
+ 关注