吕昱峰的论坛回复_云社区-华为云

作者小头像

Lv.1

吕昱峰

更多个人资料

54 成长值

0 关注

2 粉丝

+ 关注私信

个人介绍

这个人很懒，什么都没有留下

感兴趣或擅长的领域

暂无数据

个人勋章

TA还没获得勋章~

成长雷达

15

39

0

0

0

个人资料

个人介绍

这个人很懒，什么都没有留下

感兴趣或擅长的领域

暂无数据

达成规则

以上满足项可达成此勋章

主题(0) | 回复(13)

【昇腾专题直播有奖提问】DTSE Tech Talk 技术直播 NO.47：看直播提问题赢华为云定制保温杯、华为云定制无线鼠标等好礼！

发布时间 2023/11/01 09:59:31 最后回复吕昱峰 2023/11/07 11:20:15 版块 DTSE TECH TALK

218 2 0

1.MoE技术和持续终身学习的碰撞，使大模型具备终身学习成为可能。那么，MoE技术和持续终身学习是如何结合起来的呢？因为MoE结构的Expert设计可以让大模型变得可拔插，因此可以进行持续学习。2.除了MoE技术和持续终身学习，还有哪些技术手段可以提高大模型的性能和效果？目前还有强化学习、量化等方式

【昇腾专题直播有奖提问】DTSE Tech Talk 技术直播 NO.35：看直播提问题赢华为云定制长袖卫衣、华为云定制Polo衫等好礼！

发布时间 2023/06/30 17:44:56 最后回复程序员法医 2023/07/15 13:37:33 版块 DTSE TECH TALK

182 24 1

增量推理实际上业界都是统一的做法，就是使用KV Cache，具体可以参考这篇文章：https://zhuanlan.zhihu.com/p/393812996

【昇腾专题直播有奖提问】DTSE Tech Talk 技术直播 NO.35：看直播提问题赢华为云定制长袖卫衣、华为云定制Polo衫等好礼！

发布时间 2023/06/30 17:44:56 最后回复程序员法医 2023/07/15 13:37:33 版块 DTSE TECH TALK

182 24 1

MindSpore的布道师发展计划可以参考：https://mindspore.cn/community/developer

【昇腾专题直播有奖提问】DTSE Tech Talk 技术直播 NO.35：看直播提问题赢华为云定制长袖卫衣、华为云定制Polo衫等好礼！

发布时间 2023/06/30 17:44:56 最后回复程序员法医 2023/07/15 13:37:33 版块 DTSE TECH TALK

182 24 1

分布式并行训练可参考：https://mindspore.cn/tutorials/experts/zh-CN/master/parallel/pangu_alpha.html 应用案例可参考：https://mindspore.cn/largeModel

【昇腾专题直播有奖提问】DTSE Tech Talk 技术直播 NO.35：看直播提问题赢华为云定制长袖卫衣、华为云定制Polo衫等好礼！

发布时间 2023/06/30 17:44:56 最后回复程序员法医 2023/07/15 13:37:33 版块 DTSE TECH TALK

182 24 1

1. 自动并行技术就是通过对硬件资源和模型结构、参数量进行建模，来搜索最优切分策略。切分策略的优劣会直接影响训练速度，但是对模型性能没有直接影响。具体可以参考我们的分布式并行设计：https://mindspore.cn/docs/zh-CN/r2.0/design/distributed_training_design.html 2. 大模型场景，模型体量越大越有优势 3. 大规模分布式训练的准确性其实是由硬件使能库和通信库保证，如CANN/CUDA和NCCL/HCCL。针对稳定性我们有故障恢复的设计，参考：参考：https://mindspore.cn/tutorials/experts/zh-CN/r2.0/parallel/fault_recover.html

【昇腾专题直播有奖提问】DTSE Tech Talk 技术直播 NO.35：看直播提问题赢华为云定制长袖卫衣、华为云定制Polo衫等好礼！

发布时间 2023/06/30 17:44:56 最后回复程序员法医 2023/07/15 13:37:33 版块 DTSE TECH TALK

182 24 1

MindSpore提供的高级特性有很多，包括： 1.MindSpore设计概览 2.编程范式 3.函数式微分编程 4.中间表示MindIR 5.全场景统一 6.动静态图结合 7.分布式并行 8.图算融合加速引擎 9.高性能数据处理引擎具体可参考：https://mindspore.cn/docs/zh-CN/r2.0/design/overview.html

【昇腾专题直播有奖提问】DTSE Tech Talk 技术直播 NO.35：看直播提问题赢华为云定制长袖卫衣、华为云定制Polo衫等好礼！

发布时间 2023/06/30 17:44:56 最后回复程序员法医 2023/07/15 13:37:33 版块 DTSE TECH TALK

182 24 1

增量推理实际上业界都是统一的做法，就是使用KV Cache，具体可以参考这篇文章：https://zhuanlan.zhihu.com/p/393812996

【昇腾专题直播有奖提问】DTSE Tech Talk 技术直播 NO.35：看直播提问题赢华为云定制长袖卫衣、华为云定制Polo衫等好礼！

发布时间 2023/06/30 17:44:56 最后回复程序员法医 2023/07/15 13:37:33 版块 DTSE TECH TALK

182 24 1

"半自动或手动的情况下，需要根据实际情况测试：一般情况下： 1. 高通信带宽用模型并行，低通信带宽用pipeline并行 2. pipeline切分是机器间，模型切分不跨节点 3. 模型并行一般并行度为2、4、8"

【昇腾专题直播有奖提问】DTSE Tech Talk 技术直播 NO.35：看直播提问题赢华为云定制长袖卫衣、华为云定制Polo衫等好礼！

发布时间 2023/06/30 17:44:56 最后回复程序员法医 2023/07/15 13:37:33 版块 DTSE TECH TALK

182 24 1

分布式并行并不是大模型专属，只是小模型一般在单卡能放得下的情况下，最多会开数据并行

【昇腾专题直播有奖提问】DTSE Tech Talk 技术直播 NO.35：看直播提问题赢华为云定制长袖卫衣、华为云定制Polo衫等好礼！

发布时间 2023/06/30 17:44:56 最后回复程序员法医 2023/07/15 13:37:33 版块 DTSE TECH TALK

182 24 1

本身大模型的参数量巨大决定了必须要使用分布式并行技术，分布式并行技术在通信、模型正确性、训练性能、开发难度等各方面都比较复杂