AI系统测试 vs 传统软件测试:当“断言思维”失效,测试工程师该如何转型?

举报
霍格沃兹测试开发学社 发表于 2026/03/04 15:00:44 2026/03/04
【摘要】 这两年,大模型、智能体、MCP、RAG 几乎刷屏。但有个问题更关键:我们是在“用 AI”,还是在“测 AI”?很多人理解的 AI,是生成测试用例、自动造数据、自动写脚本。 那叫用 AI 做测试。今天讨论的是另一件事:当产品本身是 AI 系统时,测试逻辑会发生什么变化?当系统从“确定性程序”变成“概率模型”, 测试方法就必须跟着改变。以前我们测试的是规则系统。 现在我们测试的是概率系统。目录传...
这两年,大模型、智能体、MCP、RAG 几乎刷屏。

但有个问题更关键:

我们是在“用 AI”,还是在“测 AI”?

很多人理解的 AI,是生成测试用例、自动造数据、自动写脚本。 那叫用 AI 做测试。

今天讨论的是另一件事:

当产品本身是 AI 系统时,测试逻辑会发生什么变化?

当系统从“确定性程序”变成“概率模型”, 测试方法就必须跟着改变。

以前我们测试的是规则系统。 现在我们测试的是概率系统。


目录

  1. 传统软件测试的确定性因果模型
  2. AI系统的生成式架构变化
  3. 因果关系断裂:测试难点的根源
  4. 断言模型为何在AI系统中失效
  5. AI系统的三大技术特征
  6. AI系统测试的工程化转型方向

1. 传统软件测试的确定性因果模型

传统软件的核心是:规则驱动 + 确定性逻辑。

可以抽象为:


特点非常明确:

  1. 输入字段固定
  2. 规则可读可追踪
  3. 输出可预测
  4. 可编写精确断言

例如:

输入手机号为空 → 点击提交 → 返回“不能为空”

自动化测试写法:

assert actual == "不能为空"

前提只有一个:

相同输入,在相同环境下,必然产生相同输出。


2. AI系统的生成式架构变化

当系统接入大模型后,内部结构发生变化。


差异点在于:

  1. 输入变成自然语言
  2. 中间层变成神经网络
  3. 输出来自概率采样

例如:

输入:给我一首唐诗

多次调用,结果不同。 换一个模型,结果也不同。

系统不再围绕“规则匹配”, 而是围绕“概率分布”。


3. 因果关系断裂:测试难点的根源

我们对比一下。

传统系统调用流程



结果稳定,可复现,可回归。



AI系统调用流程(同样输入,两次结果不同)



同样输入,两次输出不同。

这意味着:

  1. 因果关系不再线性
  2. 输出不再唯一
  3. 测试结果无法简单复现

传统“输入 → 唯一输出”的模型开始失效。


4. 断言模型为何在AI系统中失效

传统自动化测试的核心是断言:

assert actual == expected

但在 AI 系统中:

输入:讲个笑话 输出:一段文本

问题来了:

  1. 什么算笑话?
  2. 是否必须完全一致?
  3. 每次结果不同怎么办?

AI 输出没有唯一正确答案。

测试目标从“是否等于预期值”, 转变为“是否满足约束条件”。

例如:

  1. 是否包含完整语句
  2. 是否无敏感词
  3. 是否符合主题
  4. 是否满足长度区间

这不再是精确匹配,而是质量评估。

断言模型从“相等判断” 升级为“区间判断”或“语义判断”。


5. AI系统的三大技术特征

5.1 概率性



模型输出的是概率最高的候选,而非唯一正确答案。


5.2 黑盒性



特点:

  1. 内部权重不可解释
  2. 决策路径不可枚举
  3. 规则不可穷举

测试人员只能观察输入与输出。


5.3 非确定性

相同输入:

  1. 不同时间可能不同输出
  2. 不同温度参数不同输出
  3. 不同模型不同输出

在传统软件中这是缺陷。 在 AI 系统中这是特性。


6. AI系统测试的工程化转型方向

当系统建立在概率模型之上,测试体系必须升级。

测试重点开始转向:

  1. 多样本回归测试
  2. Prompt稳定性验证
  3. 输出质量分级评估
  4. 幻觉风险检测
  5. 数据分布漂移监控
  6. 对抗输入测试

测试工程师的角色也发生变化:

从功能验证者 转向 AI 质量评估工程师。

核心能力不再是:

写多少用例,

而是:

如何定义质量标准。


结语

传统软件测试建立在确定性之上。 AI系统建立在概率之上。

当系统不再保证“同样输入必然同样输出”, 测试方法就必须升级。

这不是多学一个工具的问题。 而是测试对象本身已经改变。

我们正在从规则系统测试, 走向概率系统测试。

测试这门职业没有变简单。 它只是进入了更复杂的阶段。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。