AI开始下沉到端侧:当模型跑进手机,测试体系会被重写吗?
最近一波端侧AI更新,很多人可能只是当作“产品升级”看过去了:
-
Google 推出离线语音能力(Eloquent) -
Gemma 在端侧跑到 40 token/s -
LiteRT-LM 这类推理框架开始落地
但如果你是做测试的,这一波其实不是功能更新。
是测试边界在变。
过去你测的是接口。 现在你要开始测设备、测模型、测系统行为。
目录
-
端侧AI这波到底发生了什么 -
真正变化的不是模型,而是“运行位置” -
推理速度背后,工程上做了哪些事 -
测试为什么会突然失效 -
新测试体系应该怎么搭 -
这波变化会重新定义测试岗位
一、端侧AI这波到底发生了什么
先把现象讲清楚。
这一波不是单一产品升级,而是三个方向同时成立:
-
模型变小,可以在设备上运行 -
推理速度足够支撑实时交互 -
推理框架开始工程化落地
过去的AI调用路径是这样的:

现在开始变成:

路径缩短,但复杂度上升。
二、真正变化的不是模型,而是“运行位置”
很多人关注的是模型性能,但真正的变化在这里:
计算从云,移动到了端。
这个变化会直接影响系统设计。
延迟模型被重写
云模式:
-
网络延迟 -
推理延迟
端侧模式:
-
只剩推理延迟
体验变好,但压力全部转移到设备。
系统边界消失
过去模型是外部服务,可以当黑盒。
现在模型在系统内部,成为运行链路的一部分。
测试对象不再是API,而是整个系统。
控制能力下降
云模型可以:
-
热更新 -
回滚 -
统一监控
端侧模型:
-
分发困难 -
版本碎片化 -
行为不可控
这对测试是直接冲击。
三、推理速度背后,工程上做了哪些事
端侧能跑起来,不是因为“模型变强”,而是工程做对了。
模型被重新设计
不是简单裁剪,而是重构:
-
参数规模控制 -
计算结构优化 -
针对CPU/NPU适配
核心在于:
模型开始围绕“设备约束”设计。
推理框架在做极限优化
LiteRT-LM 这类框架,本质在做三件事:
-
算子融合 -
内存复用 -
异构调度
整体流程可以这样理解:

40 token/s意味着什么
这不是一个简单的性能指标。
它意味着:
-
可以连续对话 -
可以实时生成 -
可以进入主流程
端侧AI开始具备“可用性”。
四、测试为什么会突然失效
很多团队的问题不是不会测,而是测错了对象。
Mock测试开始失效
云时代可以:
-
mock接口 -
固定返回结果
端侧模型:
-
行为不可完全预测 -
输出存在波动
mock无法覆盖真实情况。
测试对象发生变化
过去:
-
测接口
现在:
-
测模型 + 框架 + 硬件 + 系统
测试边界扩大了。
性能测试维度改变
过去关注:
-
QPS -
RT
现在必须关注:
-
CPU / GPU / NPU占用 -
内存 -
发热 -
电量
测试从“服务性能”,变成“设备性能”。
五、新测试体系应该怎么搭
继续沿用原来的方法,基本会失效。
需要补新的工程能力。
设备级测试成为基础
必须做:
-
多设备覆盖(不同芯片/系统) -
长时间稳定性 -
极端场景(高温/低电量)
引入模型行为测试
不再只验证结果,而是验证行为:
-
输出是否稳定 -
语义是否一致 -
边界输入是否异常
可以这样设计测试链路:

性能测试必须贴近真实使用
不要只跑benchmark,要测:
-
连续对话 -
长时间运行 -
多任务并发
做版本对比测试
端侧模型升级后,必须验证:
-
输出是否漂移 -
性能是否下降
这是很多团队当前缺失的一环。
六、这波变化会重新定义测试岗位
这不是简单的技术升级,而是岗位能力重排。
传统测试
只做接口、UI自动化 在端侧AI场景中价值下降明显
AI测试
具备:
-
模型基础理解 -
行为验证能力
可以参与,但不够深入
系统级测试
需要具备:
-
模型理解 -
性能分析 -
设备调试
本质是跨领域能力
AI不再只是调用一个接口。
它开始变成系统的一部分。
那你现在负责的测试体系, 还能覆盖住这种“运行在设备里的模型”吗?
- 点赞
- 收藏
- 关注作者
评论(0)