OpenAI祭出GPT-5.4神装!Codex同款Harness全面开放
如果你最近刷技术社区,大概率已经看到了那条消息:GPT-5.4带着原生harness和沙盒能力全面开放了。七家头部沙盒厂商一夜之间全部接入,Agents SDK被彻底重写。
但真正让圈内炸锅的不是新模型本身,而是这波操作背后释放的信号——OpenAI下场收编了整个Agent基建层。
LangChain、CrewAI、LangGraph这些第三方框架的生存空间,被一刀砍在了最致命的位置。很多人开始意识到:过去两年搭建的那些Agent脚手架,可能要重新评估了。
这不是模型能力的升级。这是整个Agent架构范式的转移。
目录
-
一、现象——OpenAI的狠棋,补上了基建缺口 -
二、本质——Harness不是新概念,是工程补丁 -
三、核心机制拆解——双核架构与反直觉哲学 -
四、产品对比——四种AI编程范式 -
五、工程落地启示——你该怎么接住这波基建 -
六、趋势判断——Harness会越来越薄,但不会消失
一、现象——OpenAI的狠棋,补上了基建缺口
3月初,GPT-5.4带着原生computer use高调登场。OSWorld-Verified基准测试中拿下75%的成功率,首次超越人类平均水平72.4%。83%的专业任务达到或超越行业专业人士水平。数字很漂亮。
但开发者圈子里吐槽声更大:模型能操作电脑了,可Agent跑在哪台电脑上、怎么保证跑起来不出事,还是得自己东拼西凑一套框架。
这个缺口,OpenAI在4月16日自己补上了。
Agents SDK迎来一次彻底的架构重写。原生harness、原生沙盒、Codex级的文件系统工具,外加七家头部沙盒厂商一键接入。
观点句:这不是模型能力的升级。这是OpenAI把Agent基建层全部标准化了。
Blaxel、Cloudflare、Daytona、E2B、Modal、Runloop、Vercel,七家同时被写进官方支持列表。背后的核心是一套叫Manifest的抽象层——一份描述Agent工作区的配置清单,让沙盒可以在不同厂商之间无缝切换。
更狠的是,OpenAI这次是把自家Codex过去一年踩过的坑、积累的最佳实践,顺手产品化塞进了SDK。这意味着任何开发者现在都能直接调用企业级的Agent基建能力,不需要自己从头造轮子。
二、本质——Harness不是新概念,是工程补丁
先说清楚一个底层定义。
现在社区里有一个越来越清晰的共识:
Agent = Model + Harness
模型是大模型本身——GPT、Claude、Gemini,负责理解和推理。Harness是模型之外的一切——系统提示词、工具定义、上下文管理、错误处理、重试逻辑、安全边界。
Martin Fowler给过一个特别精辟的定义:Harness由两部分组成——Guides和Sensors。Guides在Agent行动之前引导它做对,Sensors在Agent行动之后帮它自我纠正。
打个比方:模型是千里马,harness是缰绳、马鞍和马蹄铁。没有好的harness,千里马也只是在原地打转。
本质在于,过去两年大家把太多注意力放在“哪个模型更强”上。但一个开发者最近的实验暴露了真相:他只改了编辑工具的格式,没换任何模型,成功率直接从6.7%飙到68.3%——翻了十倍。
观点句:决定Agent能力的不是模型本身,而是它外面那圈东西。
2026年年初,海外开发者社区突然形成共识:也许问题不在模型,而在模型外面那一圈东西。他们给这圈东西起了个名字,叫Harness。
这条认知变化有一条清晰的时间线:2月5日HashiCorp联合创始人Mitchell Hashimoto发博倡导“Engineer the Harness”;2月11日OpenAI跟进发表Harness Engineering实验报告;之后Martin Fowler站台、LangChain跟进,一个月之内,这个词变成了开发者圈的黑话。
三、核心机制拆解——双核架构与反直觉哲学
3.1 Harness与Compute彻底分离
这次Agents SDK重构的核心变化只有一件事:harness和compute彻底解耦。
harness跑在你的可信基建里,负责控制流、模型调用、工具路由、审批、追踪、暂停恢复。compute是一个独立的沙盒,专门负责读写文件、跑命令、装包、吐产物。
两层之间的接口标准化。API key和敏感凭证压根儿不会进入模型生成代码实际执行的那个环境。沙盒里既没有API密钥,也没有任何敏感凭证,甚至可以和网络断开。
这不是安全性上的小修小补。这是整个Agent架构的范式转移。

3.2 反直觉的工程哲学
在Codex的Agent循环设计上,有一个非常反直觉的决策:Agent loop的核心逻辑极其简单,把智能交给模型,把确定性留给框架。
Agent循环的基本模式是:用户输入 → 模型推理 → 输出两条路之一——要么是最终回复,要么是工具调用。每次调用工具后,输出被追加到上下文,模型重新推理,循环直到模型给出最终回复。
Codex CLI实现了这套架构,支持无状态请求处理、零数据保留合规、智能缓存优化和自动上下文窗口管理。Agent在单次任务中可以跑数百轮工具调用。
这种“框架越笨、模型越聪明”的思路,和早期LangChain在框架层做各种“聪明编排”的路线形成了鲜明对比。
四、产品对比——四种AI编程范式
理解了Harness的底层逻辑,再看当前AI编程工具的格局,会发现一个有意思的分层。
目前市场上存在四种完全不同的范式:
GitHub Copilot 是最易触达的选择,作为IDE扩展运行在VS Code、JetBrains和Neovim中,主打行级实时补全。它在78%的场景下生成逐行建议。它是“增强版自动补全”。
Cursor 是深度AI-IDE集成,基于VS Code构建了一个AI原生的编辑体验。AI嵌入到了每一层,支持多文件协同编辑的Composer模式。它是“AI原生的编辑器”。
Claude Code 是终端原生自主Agent,能读写文件、执行shell命令、管理Git工作流,擅长多文件重构和大规模代码库推理。它是“能在终端里自主工作的Agent”。
OpenAI Codex 是Harness工程的标杆实现,通过CLI在本地执行可靠的代码改动,拥有完整的Agent循环编排能力,支持数百轮工具调用和自动上下文管理。它是“生产级Agent的底层架构”。
观点句:工具之间不是替代关系,而是分工关系。Copilot负责行级补全,Cursor负责多文件编辑,Claude Code负责终端自动化,Codex提供了底座。
从架构上看,OpenAI的Harness方案走了一条不同于前两者的路:它不试图在IDE层解决问题,而是在基础设施层做标准化。当Harness和Skill成为跨平台标准后,上层工具可以共享同一个Agent底座,竞争将集中在体验和生态上。
五、工程落地启示——你该怎么接住这波基建
OpenAI的实验给出了最直接的证明:一个3人团队,5个月,100万行生产级代码,0行手写代码。平均每人每天合并3.5个PR。
但他们做了什么事情?人类的精力没有花在写代码上,而是全部花在了“想清楚要什么、把规则立起来”上。当事情失败时,答案从来不是“再试一次”,而是问自己:缺了什么能力?怎么让它对Agent既清晰又强制执行?
这才是你应该做的事情。
第一,把规则写进流水线,不要写进提示词。
提示词里写一万句“请遵守分层架构”,Agent下一秒就忘。把规则写成CI流水线里的自动化代码检查,Agent敢违反,PR直接过不了。一条程序化的规则,比一万句叮嘱都管用。
第二,不要指望Agent记住事,要在鱼缸外贴满便签。
大模型天生只有一种记忆——上下文窗口。满了前面的内容就被挤掉。OpenAI的做法是在仓库里维护一套结构化文档,设计规范、架构决策、执行计划全放里面,Agent随时能查。别指望金鱼能记住事儿,你得在鱼缸外面贴满便签。
第三,做事和评判分开。
Agent评估自己的产出,总是盲目自信。Anthropic的解法是:一个Agent做事,另一个专门挑毛病,选手和裁判不能是同一个人。生成-评估-测试闭环是实现端到端质量管控的关键。
第四,用好Skill协议。
OpenAI已宣布全面支持基于SKILL.md规范的“Skills”标准,该标准已被Anthropic等厂商采用,开源项目OpenClaw也已采用同一规范。这意味着Skill正在成为跨平台标准。你的团队经验可以被打包成可复用的Skill,在不同模型和平台之间迁移。
六、趋势判断——Harness会越来越薄,但不会消失
一个有趣的现象:全行业都在卷Harness,但OpenAI的Codex负责人却说Harness正在退场。
这不是矛盾。这是对趋势的预判:随着模型能力持续提升,Harness层应该越来越薄,而不是越来越厚。硬编码的脚手架应该随着模型能力提升而被主动删除。今天的Harness,本质上是在当前模型能力有限的情况下给AI写的“拐杖”。
但这个“退场”的时刻,可能比很多人想象的要远。
行业共识是,核心竞争力正在从“单模型代码生成效果”转向“模型+Harness+上下文工程+测试闭环”的一体化系统能力。相同模型在不同任务拆解、上下文管理、评估机制下,最终质量差异显著。
OpenAI和Anthropic的策略差异也逐渐清晰:OpenAI强调一体化基础设施,将模型、记忆管理和执行环境打包为高性能底座;Anthropic侧重合作伙伴生态,强化即插即用的集成体验。
但无论是哪条路,方向是明确的:AI编程正在从“模型能力竞赛”转向“工程化落地竞赛”。Harness是这场竞赛的核心战场。
最后留一个问题给你:
如果AI能帮你写完全部代码,你的团队现在还有多少精力花在“设计Agent工作环境”这件事上?
不是问你的AI能不能写代码。而是问:你能不能像那3个工程师一样,5个月不写一行手写代码,却交付100万行生产代码?
这不是一个技术问题。这是一个工程管理问题。
- 点赞
- 收藏
- 关注作者
评论(0)