5月13日直播|多模态生成推理优化的"三板斧":算得轻、算得少、算得巧

举报
昇腾CANN 发表于 2026/05/12 20:15:48 2026/05/12
【摘要】 背景随着多模态生成模型参数量与序列长度持续攀升,高分辨率长时视频生成的推理面临的长序列挑战日益严峻。如何在保证生成质量的前提下,走通高性能与低占存的算法与工程化路径?本次直播以典型开源模型为例,带大家了解如何在昇腾上实践多模态生成的典型优化:稀疏Attention模式设计、量化Attention低精度策略、分布式并行方案选型,以及DiT层级特征Cache与复用机制。结合昇腾NPU集群通信拓扑...

背景

随着多模态生成模型参数量与序列长度持续攀升,高分辨率长时视频生成的推理面临的长序列挑战日益严峻。如何在保证生成质量的前提下,走通高性能与低占存的算法与工程化路径?

本次直播以典型开源模型为例,带大家了解如何在昇腾上实践多模态生成的典型优化:稀疏Attention模式设计、量化Attention低精度策略、分布式并行方案选型,以及DiT层级特征Cache与复用机制。结合昇腾NPU集群通信拓扑与CANN软件栈特性,从算法原理到算子落地,分享多模态生成的全栈适配经验与可复现的优化方法论,帮助多模态生成模型“算得轻,算得少,算得巧”。

干货密集,从稀疏量化到并行和缓存复用,带你走通多模态生成Infra的实践落地路径。敬请期待。

欢迎锁定直播间,一起探讨视频生成模型的工程化解法。

通过本次直播,我们希望能和大家一起学习

  • 了解稀疏Attention在视频生成模型中的模式设计原理,理解如何在长序列建模与计算效率之间取得平衡;
  • 学习量化Attention在昇腾NPU上的落地策略,在低精度约束下保持生成质量的同时获取加速收益;
  • 了解面向多模态生成的分布式并行(SPCFGP等),充分利用多卡环境机并行加速计算;
  • 理解DiT层级特征Cache复用机制,如何利用扩散模型自身特点进行优化,并缓解cache内存问题;

相关样例已在https://gitcode.com/cann/cann-recipes-infer开源欢迎行业开发者交流和提交多模态生成Infra的实践经验,共促训推优化生态繁荣。

0513海报.png

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。