昇思MindSpore技术公开课·大模型专题(第二期)第十课:MoE
CQU弟中弟 昇思MindSpore易用性专家;Steven 昇思MindSpore高级工程师
昇思MindSpore技术公开课大模型专题课程即将为大家带来第十讲——MoE。
2023年末,Mistral 发布了一个激动人心的大语言模型: Mixtral 8x7b,该模型把开放模型的性能带到了一个新高度,并在许多基准测试上表现优于 GPT-3.5。Mixtral模型把MoE(mixture of experts) 结构的稀疏大模型再次带到主流大模型的视野当中,那么MoE结构是什么样的?相较于传统Transformer稠密结构有哪些优势?本节公开课将带领大家全面学习MoE的相关内容,并使用MindSpore进行演示。
回顾中