- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

轻松生成测试数据：Dify工作流结合大模型，实现百万级逼真数据生成

霍格沃兹测试学社发表于 2025/11/17 22:33:55 2025/11/17

【摘要】本文介绍如何利用Dify工作流与大语言模型结合，构建自动化测试数据生成方案。通过可视化编排实现批量生成符合业务规则的仿真数据，有效解决测试数据准备效率低、真实性不足等问题，大幅提升数据构造的智能化水平。

在软件研发、数据分析和机器学习项目中，构建高质量、高覆盖度的测试数据是确保产品质量的关键环节。然而，手动创建测试数据不仅耗时耗力，还常常面临数据单调、缺乏真实性、难以模拟复杂业务逻辑等痛点。尤其是在进行压力测试、性能基准测试或训练复杂模型时，对百万级逼真测试数据的需求，往往让开发者和测试工程师们头疼不已。

今天，我们将介绍一种革命性的解决方案：利用 Dify 工作流 结合 大语言模型（LLM），以可视化、自动化的方式，智能生成海量、逼真且符合业务规则的测试数据。

一、为什么选择 Dify + LLM？

智能化与逼真度：大语言模型（如 GPT-4、ChatGLM、文心一言等）拥有强大的自然语言理解和世界知识，能够生成高度拟人化的姓名、地址、产品描述、评论等文本数据，远超传统随机字符串生成器。
业务逻辑理解：通过精心设计的提示词（Prompt），我们可以引导 LLM 理解并遵循复杂的业务规则。例如，“生成一个年龄在18-65岁之间、位于华东地区的用户数据，其购买力与职业相关”。
流程自动化与规模化：Dify 的工作流功能允许我们将数据生成、格式转换、循环扩增、质量校验等步骤串联成一个自动化管道。一个节点的一次调用，可以轻松扩展为生成成千上万条记录。
可视化编排：无需编写复杂的脚本，通过拖拽节点和连接线，即可构建完整的数据生成流水线，大大降低了技术门槛。

二、实战：构建一个“百万级电商用户数据生成器”

我们将通过一个具体的例子，演示如何在 Dify 中搭建一个工作流，用于生成包含用户基本信息、购买行为和产品偏好的测试数据集。

目标： 生成 1000 条结构化的 JSON 格式用户数据。

最终工作流概览：开始 -> 循环器（设置循环次数） -> 数据生成节点（LLM） -> 代码节点（格式处理） -> 答案节点（输出结果）

步骤 1：在 Dify 中创建新应用和工作流

登录 Dify，点击“创建新应用”，选择“工作流”类型。
给你的应用起一个名字，例如“电商测试数据生成器”。

步骤 2：搭建工作流

我们将从左侧的组件库中拖拽所需的节点到画布上。

节点 1：开始节点

这是工作流的入口。

节点 2：循环器节点

将其连接到“开始”节点。
这是实现批量生成的关键。在节点的配置中，设置循环次数为 1000。
为了在后续节点中知道当前是第几次循环，我们可以定义一个循环变量，例如 {{index}}。

节点 3：大语言模型节点（核心）

将其连接到“循环器”节点。
选择模型：根据你的需要和可用性，选择一个能力强的大模型，如 GPT-4。
编写提示词（Prompt）：这是引导 LLM 生成正确数据的核心。我们需要一个高度结构化、明确的提示词。

示例提示词：

你是一个测试数据生成专家。请生成一条高度逼真、虚构的中国电商用户数据记录，包含基本信息、行为数据和偏好。要求： 1. 数据必须为 JSON 格式。 2. 所有字段必须使用中文，但字段名使用英文。 3. 数据必须逼真，符合常理。请严格按照以下 JSON 结构输出，不要有任何额外的解释： { "user_id": “根据循环索引自动生成，这里先占位”, "name": “一个随机的中文姓名”, "age": 一个18至65之间的整数, "city": “一个随机的中国城市名”, "membership_level": “从['普通', '白银', '黄金', '铂金', '钻石']中随机选择”, "last_login_days": 一个1至30之间的整数, "total_orders": 一个1至200之间的整数, "average_order_value": 一个50至500之间的浮点数，保留一位小数, "favorite_category": “从['电子产品', '服装', '家居', '美食', '图书']中随机选择”, "recent_search_keyword": “一个与偏好品类相关的搜索关键词” } 注意：user_id 字段请生成一个以“U”开头，后接9位数字的字符串，例如“U100000001”。

关键点：

我们通过示例 JSON 结构强制 LLM 输出标准格式。
字段设计涵盖了多种数据类型（字符串、整数、浮点数、枚举）。
提示词中包含了业务规则（如年龄范围、会员等级等）。

节点 4：代码节点（用于数据组装）

将其连接到“LLM 节点”。
这个节点的作用是处理 LLM 返回的文本，并将其解析成真正的 JSON 对象，同时可以整合循环变量。
选择 Python 作为语言。
输入代码示例：

# 从上游节点获取输入 llm_output = ‘’ # 这里假设 LLM 节点的变量键是 ‘llm_output’ loop_index = 0 # 这里假设循环器的索引变量键是 ‘index’ try: # 解析 LLM 返回的 JSON 字符串 user_data = json.loads(llm_output) # 将循环索引整合到 user_id 中，确保唯一性 user_data[‘user_id’] = f"U{100000000 + loop_index}" # 将处理好的数据输出到下一节点 result = user_data except Exception as e: # 如果解析失败，返回错误信息 result = {“error”: f"Data parsing failed: {str(e)}"}

节点 5：答案节点

将其连接到“代码节点”。
这是工作流的输出终端。它会收集并展示最终结果。
在配置中，选择将“代码节点”的输出作为答案。

步骤 3：运行与测试

点击右上角的“保存”按钮。
点击“运行”按钮，开始测试工作流。你可以在右侧的“运行跟踪”面板中观察每个节点的执行状态和输入输出。
首次运行可能需要进行调试，检查 LLM 的输出格式是否符合预期，代码节点是否能正确解析等。

步骤 4：批量生成与导出

当单次测试通过后，Dify 工作流会记住你的配置。
由于我们设置了循环 1000 次，每次运行这个工作流，它都会自动生成 1000 条不同的用户数据。
你可以在“运行历史”中找到每次执行的结果。Dify 提供了 API 接口，你可以直接通过调用 API 来触发数据生成，并将返回的 JSON 数组保存到文件中。
对于百万级数据，你可以通过脚本循环调用该 API，或者在工作流外部再封装一个循环逻辑，分批次生成。

三、高级技巧与场景拓展

数据关联性：要生成有关联的数据（如订单和订单项），可以创建两个工作流。先运行“用户生成器”，再运行“订单生成器”，后者在生成订单时，随机从已生成的用户列表中选取 user_id。
数据质量校验：可以在工作流中增加一个“代码节点”，编写规则对生成的数据进行校验（如检查年龄范围、金额合理性），将不合格的数据过滤掉。
多样化数据：通过创建多个不同提示词的 LLM 节点，并行生成不同类型的数据（如用户数据、商品数据、日志数据），最后再通过代码节点合并。
性能优化：对于超大规模数据生成，可以考虑使用 Dify 的异步批处理 API，或者将循环次数设置得非常大，然后利用云服务的弹性资源来执行。

四、总结

通过将 Dify 工作流的自动化、可视化能力与大语言模型的创造力和认知能力相结合，我们成功地构建了一个强大、灵活且易于使用的测试数据生成工厂。这种方法不仅极大地提升了数据生成的效率和质量，还让测试数据的创建过程变得前所未有的智能和有趣。

无论是为了单元测试、集成测试，还是为了填充演示系统、训练 AI 模型，Dify + LLM 的方案都能让你从“造数据”的苦海中解脱出来，将更多精力投入到核心业务逻辑的开发与创新中。

现在就前往 Dify，开始构建你的专属测试数据生成器吧！

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

轻松生成测试数据：Dify工作流结合大模型，实现百万级逼真数据生成

一、为什么选择 Dify + LLM？

二、实战：构建一个“百万级电商用户数据生成器”

步骤 1：在 Dify 中创建新应用和工作流

步骤 2：搭建工作流

步骤 3：运行与测试

步骤 4：批量生成与导出

三、高级技巧与场景拓展

四、总结

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

轻松生成测试数据：Dify工作流结合大模型，实现百万级逼真数据生成

一、为什么选择 Dify + LLM？

二、实战：构建一个“百万级电商用户数据生成器”

步骤 1：在 Dify 中创建新应用和工作流

步骤 2：搭建工作流

步骤 3：运行与测试

步骤 4：批量生成与导出

三、高级技巧与场景拓展

四、总结

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品