AI生成图片工作流介绍
功能简介
使用场景
输入文字描述,AI图片生成可以实时生成高质量图像,并支持多种风格,零门槛打造专属视觉内容,让创意快速落地。该agent主要包含以下核心能力:
文生图像(Text-to-Image):通过人工智能技术将文本描述转换为对应图像的过程。其核心技术结合了自然语言处理(NLP)与计算机视觉(CV),通过深度学习模型解析文本语义并生成视觉内容。该工作流主要采用了华为MAAS平台提供的stable-diffusion-xl文生图能力。
搭建工作流
工作流中变量介绍:
工作流页面展示如图1:
图1:工作流首页面
系统在整个对话生命周期内会维护一组用户变量和会话变量,其中用户变量用于界面定义和采集用户输入,会话变量用于保存状态信息、传递上下文、避免重复工作并最终生成完整报告。用户变量和会话变量定义如图2:
图2:用户变量与会话变量定义
详情见如下表格:
用户变量 |
描述 |
功能介绍 |
会话变量 |
描述 |
功能介绍 |
picture_pixel |
图片尺寸 |
在选择文生图像时,用户可以选择生成的图像尺寸大小 |
image_px |
图片尺寸 |
用于在会话中存储和传递图片尺寸数值。并方便在工作流中进行逻辑判断和赋值,并传给模型。 |
seed |
随机种子 |
在文生视频、图生视频、文生图像,随机种子,用于控制生成内容的随机性 |
seed_result |
随机种子 |
用于在会话中存储和传递随机种子数值。并方便在工作流中进行逻辑判断和赋值,并传给模型。 |
工作流核心能力编排介绍:
1)用户变量与会话变量逻辑判断和赋值:将用户变量赋值给会话变量,并进行逻辑判空和默认值赋值,可以增强用户体验,用户可以不做任何数值输入便可以调用工作流完成内容创作,见图3。
图3.用户变量与会话变量处理
2)文生图像,主要流程包括使用大语言模型对用户输入的提示词进行改写,然后调用Qwen-Image模型进行内容生成。本分支提示词改写采用调用华为maas平台deepseek-v3能力,内容生成采用调用maas上的Qwen-Image模型,用户可以到maas平台开通这两个模型,并创建api key。创建一个api key可以多模型共享。图4展示调用deepseek-v3进行提示词改写。图6展示如何调用maas Qwen-Image模型,注意该模型需要maas开白后才能使用。调用maas平台上的Qwen-Image模型可以参考指导文档:https://support.huaweicloud.com/usermanual-maas-modelarts/maas-modelarts-1184.html,文生图节点需要在环境变量“ENV”添加MaaS API Key,如图5。调用状态判断后,需要进行结果提取,因为返回的body体是json结构,图片内容在b64_json字段中,所以要写代码块进行提取,并进行了base64编码。图7和图8分别展示字段提取,和内容解码。
图4.文生图提示词改写
图5.添加MaaS API Key
图6.调用Qwen-Image模型
图7.Qwen-Image接口返回字段提取
图8.图片内容解码
调试预览
在编排工作流时,点击右上方工具栏中的预览按钮可基于当前编排的工作流进行调试。
应用发布
需要发布应用时,依次点击右上方工具栏中的发布、发布更新按钮,然后点击运行可查看发布后的应用。
应用监控
在工作流编排页面,点击监控按钮可查看工作流运行状况
点击左侧工具栏日志与标注,可查看工作流历史运行记录
- 点赞
- 收藏
- 关注作者
评论(0)