OpenAI祭出GPT-5.4神装!Codex同款Harness全面开放

举报
霍格沃兹测试 发表于 2026/04/17 11:59:33 2026/04/17
【摘要】 如果你最近刷技术社区,大概率已经看到了那条消息:GPT-5.4带着原生harness和沙盒能力全面开放了。七家头部沙盒厂商一夜之间全部接入,Agents SDK被彻底重写。但真正让圈内炸锅的不是新模型本身,而是这波操作背后释放的信号——OpenAI下场收编了整个Agent基建层。LangChain、CrewAI、LangGraph这些第三方框架的生存空间,被一刀砍在了最致命的位置。很多人开始...

如果你最近刷技术社区,大概率已经看到了那条消息:GPT-5.4带着原生harness和沙盒能力全面开放了。七家头部沙盒厂商一夜之间全部接入,Agents SDK被彻底重写。

但真正让圈内炸锅的不是新模型本身,而是这波操作背后释放的信号——OpenAI下场收编了整个Agent基建层。

LangChain、CrewAI、LangGraph这些第三方框架的生存空间,被一刀砍在了最致命的位置。很多人开始意识到:过去两年搭建的那些Agent脚手架,可能要重新评估了。

这不是模型能力的升级。这是整个Agent架构范式的转移。

目录

  • 一、现象——OpenAI的狠棋,补上了基建缺口
  • 二、本质——Harness不是新概念,是工程补丁
  • 三、核心机制拆解——双核架构与反直觉哲学
  • 四、产品对比——四种AI编程范式
  • 五、工程落地启示——你该怎么接住这波基建
  • 六、趋势判断——Harness会越来越薄,但不会消失

一、现象——OpenAI的狠棋,补上了基建缺口

3月初,GPT-5.4带着原生computer use高调登场。OSWorld-Verified基准测试中拿下75%的成功率,首次超越人类平均水平72.4%。83%的专业任务达到或超越行业专业人士水平。数字很漂亮。

但开发者圈子里吐槽声更大:模型能操作电脑了,可Agent跑在哪台电脑上、怎么保证跑起来不出事,还是得自己东拼西凑一套框架。

这个缺口,OpenAI在4月16日自己补上了。

Agents SDK迎来一次彻底的架构重写。原生harness、原生沙盒、Codex级的文件系统工具,外加七家头部沙盒厂商一键接入。

观点句:这不是模型能力的升级。这是OpenAI把Agent基建层全部标准化了。

Blaxel、Cloudflare、Daytona、E2B、Modal、Runloop、Vercel,七家同时被写进官方支持列表。背后的核心是一套叫Manifest的抽象层——一份描述Agent工作区的配置清单,让沙盒可以在不同厂商之间无缝切换。

更狠的是,OpenAI这次是把自家Codex过去一年踩过的坑、积累的最佳实践,顺手产品化塞进了SDK。这意味着任何开发者现在都能直接调用企业级的Agent基建能力,不需要自己从头造轮子。

二、本质——Harness不是新概念,是工程补丁

先说清楚一个底层定义。

现在社区里有一个越来越清晰的共识:

Agent = Model + Harness 

模型是大模型本身——GPT、Claude、Gemini,负责理解和推理。Harness是模型之外的一切——系统提示词、工具定义、上下文管理、错误处理、重试逻辑、安全边界。

Martin Fowler给过一个特别精辟的定义:Harness由两部分组成——Guides和Sensors。Guides在Agent行动之前引导它做对,Sensors在Agent行动之后帮它自我纠正。

打个比方:模型是千里马,harness是缰绳、马鞍和马蹄铁。没有好的harness,千里马也只是在原地打转。

本质在于,过去两年大家把太多注意力放在“哪个模型更强”上。但一个开发者最近的实验暴露了真相:他只改了编辑工具的格式,没换任何模型,成功率直接从6.7%飙到68.3%——翻了十倍。

观点句:决定Agent能力的不是模型本身,而是它外面那圈东西。

2026年年初,海外开发者社区突然形成共识:也许问题不在模型,而在模型外面那一圈东西。他们给这圈东西起了个名字,叫Harness。

这条认知变化有一条清晰的时间线:2月5日HashiCorp联合创始人Mitchell Hashimoto发博倡导“Engineer the Harness”;2月11日OpenAI跟进发表Harness Engineering实验报告;之后Martin Fowler站台、LangChain跟进,一个月之内,这个词变成了开发者圈的黑话。

三、核心机制拆解——双核架构与反直觉哲学

3.1 Harness与Compute彻底分离

这次Agents SDK重构的核心变化只有一件事:harness和compute彻底解耦。

harness跑在你的可信基建里,负责控制流、模型调用、工具路由、审批、追踪、暂停恢复。compute是一个独立的沙盒,专门负责读写文件、跑命令、装包、吐产物。

两层之间的接口标准化。API key和敏感凭证压根儿不会进入模型生成代码实际执行的那个环境。沙盒里既没有API密钥,也没有任何敏感凭证,甚至可以和网络断开。

这不是安全性上的小修小补。这是整个Agent架构的范式转移。


3.2 反直觉的工程哲学

在Codex的Agent循环设计上,有一个非常反直觉的决策:Agent loop的核心逻辑极其简单,把智能交给模型,把确定性留给框架

Agent循环的基本模式是:用户输入 → 模型推理 → 输出两条路之一——要么是最终回复,要么是工具调用。每次调用工具后,输出被追加到上下文,模型重新推理,循环直到模型给出最终回复。

Codex CLI实现了这套架构,支持无状态请求处理、零数据保留合规、智能缓存优化和自动上下文窗口管理。Agent在单次任务中可以跑数百轮工具调用。

这种“框架越笨、模型越聪明”的思路,和早期LangChain在框架层做各种“聪明编排”的路线形成了鲜明对比。


四、产品对比——四种AI编程范式

理解了Harness的底层逻辑,再看当前AI编程工具的格局,会发现一个有意思的分层。

目前市场上存在四种完全不同的范式:

GitHub Copilot 是最易触达的选择,作为IDE扩展运行在VS Code、JetBrains和Neovim中,主打行级实时补全。它在78%的场景下生成逐行建议。它是“增强版自动补全”。

Cursor 是深度AI-IDE集成,基于VS Code构建了一个AI原生的编辑体验。AI嵌入到了每一层,支持多文件协同编辑的Composer模式。它是“AI原生的编辑器”。

Claude Code 是终端原生自主Agent,能读写文件、执行shell命令、管理Git工作流,擅长多文件重构和大规模代码库推理。它是“能在终端里自主工作的Agent”。

OpenAI Codex 是Harness工程的标杆实现,通过CLI在本地执行可靠的代码改动,拥有完整的Agent循环编排能力,支持数百轮工具调用和自动上下文管理。它是“生产级Agent的底层架构”。

观点句:工具之间不是替代关系,而是分工关系。Copilot负责行级补全,Cursor负责多文件编辑,Claude Code负责终端自动化,Codex提供了底座。

从架构上看,OpenAI的Harness方案走了一条不同于前两者的路:它不试图在IDE层解决问题,而是在基础设施层做标准化。当Harness和Skill成为跨平台标准后,上层工具可以共享同一个Agent底座,竞争将集中在体验和生态上。

五、工程落地启示——你该怎么接住这波基建

OpenAI的实验给出了最直接的证明:一个3人团队,5个月,100万行生产级代码,0行手写代码。平均每人每天合并3.5个PR。

但他们做了什么事情?人类的精力没有花在写代码上,而是全部花在了“想清楚要什么、把规则立起来”上。当事情失败时,答案从来不是“再试一次”,而是问自己:缺了什么能力?怎么让它对Agent既清晰又强制执行?

这才是你应该做的事情。

第一,把规则写进流水线,不要写进提示词。

提示词里写一万句“请遵守分层架构”,Agent下一秒就忘。把规则写成CI流水线里的自动化代码检查,Agent敢违反,PR直接过不了。一条程序化的规则,比一万句叮嘱都管用。

第二,不要指望Agent记住事,要在鱼缸外贴满便签。

大模型天生只有一种记忆——上下文窗口。满了前面的内容就被挤掉。OpenAI的做法是在仓库里维护一套结构化文档,设计规范、架构决策、执行计划全放里面,Agent随时能查。别指望金鱼能记住事儿,你得在鱼缸外面贴满便签。

第三,做事和评判分开。

Agent评估自己的产出,总是盲目自信。Anthropic的解法是:一个Agent做事,另一个专门挑毛病,选手和裁判不能是同一个人。生成-评估-测试闭环是实现端到端质量管控的关键。

第四,用好Skill协议。

OpenAI已宣布全面支持基于SKILL.md规范的“Skills”标准,该标准已被Anthropic等厂商采用,开源项目OpenClaw也已采用同一规范。这意味着Skill正在成为跨平台标准。你的团队经验可以被打包成可复用的Skill,在不同模型和平台之间迁移。

六、趋势判断——Harness会越来越薄,但不会消失

一个有趣的现象:全行业都在卷Harness,但OpenAI的Codex负责人却说Harness正在退场。

这不是矛盾。这是对趋势的预判:随着模型能力持续提升,Harness层应该越来越薄,而不是越来越厚。硬编码的脚手架应该随着模型能力提升而被主动删除。今天的Harness,本质上是在当前模型能力有限的情况下给AI写的“拐杖”。

但这个“退场”的时刻,可能比很多人想象的要远。

行业共识是,核心竞争力正在从“单模型代码生成效果”转向“模型+Harness+上下文工程+测试闭环”的一体化系统能力。相同模型在不同任务拆解、上下文管理、评估机制下,最终质量差异显著。

OpenAI和Anthropic的策略差异也逐渐清晰:OpenAI强调一体化基础设施,将模型、记忆管理和执行环境打包为高性能底座;Anthropic侧重合作伙伴生态,强化即插即用的集成体验。

但无论是哪条路,方向是明确的:AI编程正在从“模型能力竞赛”转向“工程化落地竞赛”。Harness是这场竞赛的核心战场。

最后留一个问题给你:

如果AI能帮你写完全部代码,你的团队现在还有多少精力花在“设计Agent工作环境”这件事上?

不是问你的AI能不能写代码。而是问:你能不能像那3个工程师一样,5个月不写一行手写代码,却交付100万行生产代码?

这不是一个技术问题。这是一个工程管理问题。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。