- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

5月13日直播|多模态生成推理优化的"三板斧"：算得轻、算得少、算得巧

昇腾CANN 发表于 2026/05/12 20:15:48 2026/05/12

【摘要】背景随着多模态生成模型参数量与序列长度持续攀升，高分辨率长时视频生成的推理面临的长序列挑战日益严峻。如何在保证生成质量的前提下，走通高性能与低占存的算法与工程化路径？本次直播以典型开源模型为例，带大家了解如何在昇腾上实践多模态生成的典型优化：稀疏Attention模式设计、量化Attention低精度策略、分布式并行方案选型，以及DiT层级特征Cache与复用机制。结合昇腾NPU集群通信拓扑...

背景

随着多模态生成模型参数量与序列长度持续攀升，高分辨率长时视频生成的推理面临的长序列挑战日益严峻。如何在保证生成质量的前提下，走通高性能与低占存的算法与工程化路径？

本次直播以典型开源模型为例，带大家了解如何在昇腾上实践多模态生成的典型优化：稀疏Attention模式设计、量化Attention低精度策略、分布式并行方案选型，以及DiT层级特征Cache与复用机制。结合昇腾NPU集群通信拓扑与CANN软件栈特性，从算法原理到算子落地，分享多模态生成的全栈适配经验与可复现的优化方法论，帮助多模态生成模型“算得轻，算得少，算得巧”。

干货密集，从稀疏量化到并行和缓存复用，带你走通多模态生成Infra的实践落地路径。敬请期待。

欢迎锁定直播间，一起探讨视频生成模型的工程化解法。

通过本次直播，我们希望能和大家一起学习：

了解稀疏Attention在视频生成模型中的模式设计原理，理解如何在长序列建模与计算效率之间取得平衡；
学习量化Attention在昇腾NPU上的落地策略，在低精度约束下保持生成质量的同时获取加速收益；
了解面向多模态生成的分布式并行（SP、CFGP等），充分利用多卡环境机并行加速计算；
理解DiT层级特征Cache复用机制，如何利用扩散模型自身特点进行优化，并缓解cache内存问题；

相关样例已在https://gitcode.com/cann/cann-recipes-infer开源。欢迎行业开发者交流和提交多模态生成Infra的实践经验，共促训推优化生态繁荣。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

5月13日直播|多模态生成推理优化的"三板斧"：算得轻、算得少、算得巧

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

5月13日直播|多模态生成推理优化的"三板斧"：算得轻、算得少、算得巧

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品