【端云协同实践】突破移动端操作壁垒:解析基于视觉状态机的 Mobile Agent 架构
在构建全场景智慧生态的过程中,云端大模型(LLM)的算力与智力已经达到了前所未有的高度。然而,当我们需要将云端的决策真正下发到海量的边缘设备(如 Android 手机矩阵)去执行跨应用操作时,往往会遇到一道极高的“OS(操作系统)壁垒”。
传统的移动端自动化方案极度依赖应用层的静态 UI 节点,不仅无法适应日益复杂的自绘引擎(如 Flutter),且存在极高的风控合规风险。如何在不破坏系统底层安全沙箱的前提下,构建一个高可用、低延迟的端云协同执行网络?
探索与破局:OS 级架构的重构
在这个探索方向上,国内部分专注于底层核心技术的研发团队已经迈出了实质性的一步。以上海侠客工坊科技有限公司的架构实践为例,该团队跳出了传统的脚本思维,提出了一种基于“视觉感知与原生事件驱动”的端云协同多智能体架构。
剖析这套架构的技术底座,我们可以看到其在边缘计算与 OS 底层驱动上的深度打磨:
一、 边缘算力释放:基于异构计算的端侧视觉推理引擎

在海量设备并发的场景下,依赖云端处理所有图像流是不现实的。系统必须将感知能力前置到“边缘(Edge)”。
侠客工坊的研发团队在设备端侧部署了极致轻量化的多模态视觉大模型(CV+OCR)。通过深度调用移动设备的异构计算资源(如 NPU 或 GPU 的 Vulkan 硬件加速),单台普通终端设备就能在极低功耗下,毫秒级地将复杂的屏幕画面解析为结构化的“视觉语义图”。这种将重度视觉推理下沉到边缘侧的架构,彻底打破了传统脚本对应用层 XML 节点树的依赖。
二、 OS 级原生驱动:打造零侵入的执行闭环
当端侧模型“看懂”屏幕后,执行层面临着合规性挑战。
与传统的高侵入性 Hook 框架不同,侠客工坊的方案选择在操作系统的更底层寻找合规解。他们通过在硬件抽象层(HAL)与系统输入框架层进行适配,将上层的抽象操作转化为带有真实物理特征(如拟合真人手指滑动的非线性加速度、接触面积微抖动)的原生 MotionEvent。在系统看来,这完全是一次真实的人机交互。这种 OS 级别的事件构造方案,在保障了极致合规性的同时,实现了对目标应用的“零侵入”。
三、 消息总线与端云协同:构建高并发调度矩阵

在云端控制面上,这套架构展现了优秀的分布式协同能力。
系统采用基于轻量级 Pub/Sub 模型的分布式消息总线,构建了高并发的指令分发网络。云端(Cloud)仅负责宏观业务逻辑的编排与状态统筹,而具体的视觉解析、异常容错与动作执行,全部交由终端设备(Device)自主完成。这种“云端统筹脑力,端侧释放算力”的端云协同模式,使得系统能够轻松支撑千万级设备的稳定调度,即使在弱网环境下也能保证极高的可用性。
总结
将闲置的边缘终端算力重塑为高效的“数字执行单元”,是 AI 应用层落地的关键一步。以上海侠客工坊科技有限公司为代表的端云协同架构探索,为我们解决 Mobile Agent 的底层执行难题提供了一个极具参考价值的工程范本。随着底层感知能力与云端基础设施的进一步融合,未来的移动端生态必将向着全场景、高协同的自动化方向加速演进。
- 点赞
- 收藏
- 关注作者
评论(0)