- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【愚公系列】《AI短视频创作一本通》011-AI 短视频分镜头设计（AI绘画工具的选择）

愚公搬代码发表于 2026/03/03 16:00:13 2026/03/03

【摘要】 💎【行业认证·权威头衔】✔ 华为云天团核心成员：特约编辑/云享专家/开发者专家/产品云测专家✔ 开发者社区全满贯：CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主✔ 技术生态共建先锋：横跨鸿蒙、云计算、AI等前沿领域的技术布道者🏆【荣誉殿堂】🎖 连续三年蝉联"华为云十佳博主"（2022-2024）🎖 双冠加冕CSDN"年度博客之星TOP...

💎【行业认证·权威头衔】
✔ 华为云天团核心成员：特约编辑/云享专家/开发者专家/产品云测专家
✔ 开发者社区全满贯：CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主
✔ 技术生态共建先锋：横跨鸿蒙、云计算、AI等前沿领域的技术布道者

🏆【荣誉殿堂】
🎖 连续三年蝉联"华为云十佳博主"（2022-2024）
🎖 双冠加冕CSDN"年度博客之星TOP2"（2022&2023）
🎖 十余个技术社区年度杰出贡献奖得主

📚【知识宝库】
覆盖全栈技术矩阵：
◾ 编程语言：.NET/Java/Python/Go/Node…
◾ 移动生态：HarmonyOS/iOS/Android/小程序
◾ 前沿领域：物联网/网络安全/大数据/AI/元宇宙
◾ 游戏开发：Unity3D引擎深度解析

🚀前言

本章将建构分镜头设计的基本流程，讲解AI绘画工具的选择。同时，本章也将提供AI绘画提示词的基础知识，并借助实例，介绍如何用AI绘制分镜头，帮助短视频创作者更有效地掌握分镜头的设计技能。

🚀一、AI绘画工具的选择

面对层出不穷的AI绘画工具，初学者常感到眼花缭乱，难以在众多选择中找到真正适合自己的一款。本节将为您拨开迷雾，系统梳理国内外主流工具的核心特点、适用场景与选择策略，助您快速定位属于您的“神笔”。

🔎1.主流AI绘画工具及特点

🦋1.1 主流AI绘画工具全景图与核心特性对比

当前，AI绘画领域已形成多元化的生态格局。国际与国内工具各有千秋，选择的关键在于明确自身需求与使用门槛。下表为您清晰对比四大主流工具的核心维度：

特性维度	Stable Diffusion (SD)	Midjourney (MJ)	DALL-E 3	Dreamina（即梦）
核心定位	开源、高自由度、专业可控的“实验室”	艺术感与审美优先的“艺术家”	精准理解、安全易用的“优等生”	集成化、视频生成见长的“全能选手”
易用性	★★☆☆☆ (复杂)	★★★★☆ (中等)	★★★★★ (简单)	★★★★★ (简单)
可控性	★★★★★ (极高)	★★★☆☆ (中等)	★★★★☆ (高)	★★★★☆ (高)
成本	本地免费，云服务/插件需付费	订阅制（约$10-$120/月）	通过ChatGPT Plus订阅或API付费	免费额度+付费套餐
突出优势	完全开源免费，支持本地部署，可通过插件（如ControlNet）实现精准控制（姿势、线条、深度图）。	默认出图审美极高，艺术风格浓郁，社区氛围活跃，极易产出“惊艳”作品。	对自然语言提示词理解能力最强，能精准处理复杂构图与文字描述，图像连贯性好。	中文优化极佳，与剪映生态无缝集成，支持“图生视频”，非常适合短视频内容创作者。
主要门槛	需一定技术基础进行安装、调试和模型管理；对电脑显卡（建议NVIDIA，显存≥8GB）要求高。	需在Discord平台使用，操作在聊天频道中进行，隐私性较弱；生成次数受订阅计划限制。	生成权限受OpenAI内容政策限制较严格；无法通过开源社区获得无限扩展。	高级功能和更高生成次数需付费；在极致的艺术风格探索上略逊于MJ。
最适合谁	技术爱好者、专业创作者、对图像控制有极致要求的团队。	艺术设计师、创意工作者、追求“开箱即用”高品质视觉的普通用户。	内容营销人员、教育工作者、需要精准实现复杂想法的非专业用户。	国内短视频创作者、自媒体运营、需要快速进行图文到视频转化的用户。

这几年，国内的AI绘画工具发展得非常快，智谱清言、字节、百度、美图、阿里、腾讯、360等，均推出了自己研发的AI绘画工具，在图像生成方面，都展现出卓越的绘画能力。在图像创作、连续性以及图像质量等方面有着不俗的表现。它们各具特色，彼此之间的竞争也非常激烈。

🦋1.2 四大工具深度解析与场景应用

1. Stable Diffusion：无限可能的开源引擎
SD不是一个单一的软件，而是一个庞大的开源生态。其核心优势在于“掌控权”。

场景应用：
- 角色一致性创作：通过训练专属的LoRA模型，可以稳定生成同一角色在不同场景下的图像，是创作漫画、系列插画的核心。
- 商业级精准输出：结合ControlNet插件，能严格遵循用户提供的线稿、姿势图或深度图进行生成，满足广告、产品设计等商业级需求。
- 本地化与隐私保护：所有数据在本地处理，非常适合处理敏感题材或需要绝对隐私的创作。
一句话总结：如果你不惧技术挑战，并渴望拥有一个完全由你定制、无所不能的AI绘画“工作站”，SD是你的终极选择。

2. Midjourney：审美在线的灵感迸发器
MJ的核心魔力在于其经过精心调校的模型，总能在艺术性和创意之间找到令人惊叹的平衡点。

场景应用：
- 概念设计与氛围图：快速为游戏、电影、小说生成高质量的概念艺术和场景氛围图。
- 品牌视觉与灵感板：为品牌营销、社交媒体创作具有独特美感和记忆点的视觉内容。
- 个人艺术创作：轻松将任何天马行空的想法转化为具有大师质感的艺术作品。
经典提示词示例（风格化输出）：

“A cyberpunk samurai standing in a neon-lit rain-soaked alley, cinematic lighting, detailed, art by Greg Rutkowski and Makoto Shinkai, vibrant color palette --ar 16:9 --v 6.0”
一句话总结：当你不知道如何让画面变“高级”，输入MJ，它总能给你带来超出预期的审美惊喜。

例如输入“一位女士穿着风衣仰望天空，大雨滂沱，彩色的飘带飘满天空，真实风格”，就会得到与提示词描述非常接近的画面。MJ的绘画作品示例如图所示。

3. DALL-E 3：最懂你心思的“文字大师”
集成在ChatGPT中的DALL-E 3，将自然语言理解能力发挥到了极致。

场景应用：
- 复杂场景还原：能出色处理包含多个物体、明确空间关系和细节描述的复杂提示词（例如：“一幅画，左边一只猫在看报纸，右边一只狗在泡茶，中间桌子上有台老式收音机”）。
- 文本内嵌图像：生成包含特定文字标语、招牌或书籍封面的图像，准确率远超其他工具。
- 安全的内容创作：生成内容符合主流安全规范，适合教育、儿童内容及企业级安全要求高的场景。
经典提示词示例（精准理解）：

“A detailed watercolor painting of a cozy bookstore cafe. A sign on the window says ‘Open Pages Café’. Inside, people are reading, and a tabby cat sleeps on a stack of books by the fireplace. The style should be warm and inviting.”
一句话总结：如果你厌倦了“抽卡”式的随机生成，希望AI能像助手一样精准还原你脑海中的画面，DALL-E 3是最可靠的选择。

4. Dreamina（即梦）：植根中国生态的创作利器
作为国产工具的佼佼者，即梦深度融入了国内创作者的工作流。

场景应用：
- 短视频素材快速生产：文生图后，可直接使用“图生视频”功能让静态图片动起来，无缝衔接短视频制作。
- 本土化风格与元素：对中国传统文化元素、现代都市景观的理解和生成更为地道。
- 图像智能扩展与编辑：提供强大的“智能扩图”、“相似生成”、“局部重绘”等功能，方便对已有图片进行二次创作。
一句话总结：对于以抖音、视频号等平台为主阵地，追求“从想法到成片”最快路径的中文内容创作者，即梦是集成度最高、最便捷的解决方案。

🦋1.3 如何选择：从需求出发的决策树

面对选择，您可以遵循以下决策路径：

首先，问自己核心问题：我主要用于做什么？（个人艺术玩票？商业设计？短视频制作？）
其次，评估自身条件：我的预算是多少？我的电脑配置如何？我是否愿意学习技术？
最后，参照决策树：
- 如果你是零技术基础的绝对新手，追求简单和惊艳效果 → 优先尝试 Midjourney 的免费额度或初级订阅。
- 如果你需要精准实现具体、复杂的想法，且常用ChatGPT → DALL-E 3 是最直观的选择。
- 如果你是国内短视频/自媒体从业者，追求一站式工作流 → Dreamina（即梦） 是效率首选。
- 如果你有一定电脑技术基础，或从事专业创作，渴望完全掌控和定制 → 深入学习 Stable Diffusion 将回报巨大。

🦋1.4 进阶提示：国内其他优秀工具一览

除了“即梦”，国内市场还有诸多优秀选择，可满足不同细分需求：

文心一格（百度）：背靠文心大模型，中文理解强，颇具中国风特色。
通义万相（阿里）：与阿里云生态结合紧密，在电商场景应用上有优势。
混元（腾讯）：与腾讯系产品联动性好，风格较为大众化。
360智绘（360）：提供免费的AI绘画服务，是体验入门的不错选择。

最终建议：没有“最好”的工具，只有“最适合”的工具。最有效的方法是根据上述指南，优先选择1-2款最匹配您当前阶段的工具进行深度体验，掌握其提示词技巧和特性后，您的创作效率和作品质量必将获得质的飞跃。

🔎2.选择AI绘画工具的核心考量因素：从图像质量到版权归属

选择AI绘画工具并非简单的“选最好的”，而是“选最适合的”。这需要综合评估多个维度，平衡个人需求、技术门槛与创作成本。以下是七个最关键的决策因素。

🦋2.1 图像质量：风格、细节与一致性

图像质量是首要考量，但“质量”本身是一个多维概念：

艺术感与审美：Midjourney (MJ) 在该维度上普遍领先。其模型经过海量艺术作品的训练，在色彩构成、光影氛围和整体构图上具有卓越的“开箱即用”美感，尤其擅长生成令人惊艳的概念艺术和插图。
细节精度与可控性：Stable Diffusion (SD) 在细节呈现上潜力巨大。通过使用高质量的检查点模型和LoRA，可以生成毛孔、发丝、织物纹理等超精细细节。其最大的优势在于一致性，一旦通过微调锁定角色或风格，便能稳定输出符合要求的图像。
提示词理解与准确性：DALL-E 3 在准确还原复杂文字描述方面表现最佳。它能更好地理解物体间的空间关系、数量关系和属性描述，生成“所见即所得”的图像，减少了随机性。
场景应用：若追求社交媒体上的“惊艳感”，选MJ；若进行需要角色统一的系列创作（如漫画、绘本），SD是基石；若需要严格按文字脚本生成特定场景，DALL-E 3效率最高。

🦋2.2 生成速度：从实时到批量

速度直接影响工作流和创意试错成本。

本地部署的SD：速度完全取决于本地硬件（主要是GPU）。高端显卡（如NVIDIA RTX 4090）可实现秒级出图，并能利用脚本进行大批量、多参数的并行生成，适合需要海量素材或快速迭代的场景。
云端服务的MJ/DALL-E/Dreamina：速度依赖于服务提供商的算力分配和当前负载。通常单次生成需要10-60秒。它们的速度相对稳定，但受订阅计划限制，高峰期可能排队。
核心权衡：SD提供了“用硬件换速度与免费”的可能性，前期投入高，但后期边际成本低。云端服务则是“用订阅费购买稳定的算力”，无需担心硬件。

🦋2.3 操作易用性：从开箱即用到深度控制

易用性决定了学习曲线的陡峭程度。

即开即用型：MJ（在Discord中输入命令）、DALL-E 3（在ChatGPT中对话）、Dreamina（网页/App界面） 都属于此类。用户几乎无需任何前置知识，通过自然语言描述即可生成图像，界面直观。
可配置型：SD通过WebUI（如AUTOMATIC1111或ComfyUI） 提供了大量参数和扩展插件。初学者可能被界面吓退，但这也意味着无限的可能性。学习使用负面提示词、采样器、模型融合等，是提升出图质量的关键。
进化路径：多数用户会从“即开即用型”开始，随着创作需求深化，逐步转向可控性更强的SD。

🦋2.4 中文支持：母语创作的优势

对中文用户而言，母语支持至关重要。

原生中文工具：Dreamina（即梦）、文心一格、通义万相、美图AI 等国内工具，对中文提示词的理解更符合本土语境和文化意象（如“仙气飘飘”、“烟火气”、“大唐盛世”），生成东方面孔和场景也更为自然。
英文工具的中文适配：SD、MJ 主要依赖英文提示词。虽然可通过翻译工具或插件（如双语SD WebUI）辅助，但在语义细微处的损耗仍不可避免。DALL-E 3 在ChatGPT中能处理中文提示词，但效果可能略逊于英文。
建议：优先使用中文工具快速实现创意，或在创作具有强烈中国文化元素的内容时使用。追求国际通用的艺术风格或进行技术探索时，可转向主流英文工具。

🦋2.5 成本模型：免费、订阅与一次性投入

成本结构多样，需根据使用频率评估。

订阅制 (SaaS)：
- MJ：提供分层订阅（约$10-$120/月），区别在于GPU时间、并发数量和隐私功能。
- DALL-E 3：包含在ChatGPT Plus订阅（约$20/月）中，有使用上限；或通过API按次付费。
- Dreamina等国内工具：通常提供免费额度，超额后需购买积分包或订阅会员。
本地部署 (一次性投入)：
- SD：软件本身免费。主要成本在于高性能电脑（尤其是GPU）的购置成本，以及电费。适合高频、重度用户，长期来看可能更经济。
云服务 (按需付费)：
- 一些平台提供在线运行SD的服务（如Replicate, RunPod），按GPU使用时长付费，适合不想投资硬件或偶尔使用的用户。

🦋2.6 性价比：综合性能与需求的匹配

性价比是价格、功能、产出质量和效率之间的综合平衡。

轻度/体验用户：免费额度或最低档订阅的Dreamina、文心一格最具性价比，能满足尝鲜和零星创作需求。
高频/专业创作者：MJ 的 Standard 或 Pro 计划，为其稳定的高质量输出和创意激发付费，性价比很高。对于需要极致控制的SD用户，投资一块好显卡的性价比，远超长期订阅云端服务。
团队/商业应用：需要考虑生成速度、统一输出标准、版权清晰度。可能SD（自建服务器） 或 DALL-E 3 / MJ 的企业API 是更合适的选择，尽管单价可能更高，但确保了生产流程的稳定和自主权。

🦋2.7 版权归属：厘清作品的所有权

这是商业使用的法律基石，各平台政策不同。

Midjourney：付费用户拥有其使用服务生成图像的所有权（包括商用权利），但MJ官方保留使用这些图像的权利。免费用户则权利受限。
Stable Diffusion：使用开源模型在本地生成的图像，版权完全归用户所有。但需注意，如果使用了他人有版权限制的LoRA或模型，可能涉及衍生权利问题。
DALL-E 3 (OpenAI)：用户拥有生成图像的使用权，可以商用，但OpenAI的条款声明，模型可能生成与已有作品相似的内容，用户需自行承担侵权风险。
Dreamina等国内工具：通常规定用户享有生成内容的知识产权，但平台方会保留为提供服务而使用内容等权利。务必在使用前详细阅读各平台最新的《用户协议》和《AI生成内容服务协议》。

🔎3.决策指南：针对不同用户的精准建议

🦋3.1 初学者：以最低门槛启动，培养兴趣与直觉

核心目标：快速看到成果，建立信心，理解“提示词-图像”的基本关系。
首选工具：Dreamina（即梦）、豆包、文心一格或DALL-E 3（通过ChatGPT）。
理由：中文界面、操作极度简单、免费额度充足。可以像聊天一样输入“一只戴着宇航员头盔的猫，在月球上钓鱼，卡通风格”，立即获得有趣的结果，完美满足“好奇-尝试-满足”的快速反馈回路。
行动路线：在此阶段不要纠结参数，专注于练习用清晰、具体的语言描述你想要的画面。

🦋3.2 专业设计师/艺术家：追求极致表现与工作流整合

核心目标：获得高质量、高一致性、可用于商业项目的视觉资产；将AI无缝嵌入现有创作流程。
首选工具组合：
- 灵感激发与概念设计：Midjourney。用于快速探索风格、色彩和构图，制作情绪板和概念草图。
- 精细化生产与定制：Stable Diffusion。通过ControlNet控制姿态和构图，训练专属LoRA固定角色或画风，生成可用于印刷、网页或视频的高分辨率素材。
理由：MJ提供审美标杆和创意火花，SD提供工业化生产的精准控制。两者结合，覆盖了从“创意”到“成品”的全过程。
进阶提示：专业用户应深入探索SD的生态，学习使用LoRA、ControlNet、Regional Prompter等高级技术，并建立自己的模型库和素材工作流。

🦋3.3 有特定风格或主题需求的创作者

核心目标：在某一垂直领域（如中国风、二次元、产品渲染）获得最优、最稳定的输出。
选择策略：
- 中国风/国漫：优先选择Dreamina、文心一格。它们在国风模型训练上投入更多，对东方美学元素（如水墨、工笔、古风服饰、建筑）的理解和生成更为地道。
- 二次元/动漫：SD 是绝对王者。拥有最丰富、最成熟的动漫风格检查点模型和LoRA（如Anything系列、Counterfeit），社区资源浩瀚如海。
- 高精度产品/建筑渲染：SD 结合特定的现实风格模型和ControlNet（如Canny边缘检测、Depth深度图），可以实现堪比3D渲染的精确效果。
- 追求特定艺术家风格：研究该风格是否有现成的MJ风格代码 或 SD的LoRA模型。MJ社区积累了大量的“—style raw”参数和艺术家名字关键词；SD则可以通过LoRA近乎复刻任何画风。

🔎4.未来趋势与长期主义选择

AI绘画技术日新月异。在选择工具时，也应考虑其生态活力和进化潜力。

Stable Diffusion 代表开源和可定制化的未来，其社区驱动模式确保它总能最快集成最新研究（如视频生成、3D生成）。
Midjourney、DALL-E 代表闭源但体验优化的未来，它们在提升模型理解力、安全性和用户友好度上持续投入。
国内工具 则代表应用落地和本土化集成的未来，与国内主流内容平台（如抖音、小红书）的融合会越来越深。

最终建议：不要试图寻找“唯一”的工具。建立你的 “工具矩阵”：一个用于日常快速创作（如Dreamina），一个用于激发灵感（如MJ），一个用于严肃项目生产（如SD）。根据项目需求灵活调用，才是AI时代创作者的最高效策略。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

【愚公系列】《AI短视频创作一本通》011-AI 短视频分镜头设计（AI绘画工具的选择）

🚀前言

🚀一、AI绘画工具的选择