- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

OpenAI祭出GPT-5.4神装！Codex同款Harness全面开放

霍格沃兹测试发表于 2026/04/17 11:59:33 2026/04/17

【摘要】如果你最近刷技术社区，大概率已经看到了那条消息：GPT-5.4带着原生harness和沙盒能力全面开放了。七家头部沙盒厂商一夜之间全部接入，Agents SDK被彻底重写。但真正让圈内炸锅的不是新模型本身，而是这波操作背后释放的信号——OpenAI下场收编了整个Agent基建层。LangChain、CrewAI、LangGraph这些第三方框架的生存空间，被一刀砍在了最致命的位置。很多人开始...

如果你最近刷技术社区，大概率已经看到了那条消息：GPT-5.4带着原生harness和沙盒能力全面开放了。七家头部沙盒厂商一夜之间全部接入，Agents SDK被彻底重写。

但真正让圈内炸锅的不是新模型本身，而是这波操作背后释放的信号——OpenAI下场收编了整个Agent基建层。

LangChain、CrewAI、LangGraph这些第三方框架的生存空间，被一刀砍在了最致命的位置。很多人开始意识到：过去两年搭建的那些Agent脚手架，可能要重新评估了。

这不是模型能力的升级。这是整个Agent架构范式的转移。

一、现象——OpenAI的狠棋，补上了基建缺口
二、本质——Harness不是新概念，是工程补丁
三、核心机制拆解——双核架构与反直觉哲学
四、产品对比——四种AI编程范式
五、工程落地启示——你该怎么接住这波基建
六、趋势判断——Harness会越来越薄，但不会消失

一、现象——OpenAI的狠棋，补上了基建缺口

3月初，GPT-5.4带着原生computer use高调登场。OSWorld-Verified基准测试中拿下75%的成功率，首次超越人类平均水平72.4%。83%的专业任务达到或超越行业专业人士水平。数字很漂亮。

但开发者圈子里吐槽声更大：模型能操作电脑了，可Agent跑在哪台电脑上、怎么保证跑起来不出事，还是得自己东拼西凑一套框架。

这个缺口，OpenAI在4月16日自己补上了。

Agents SDK迎来一次彻底的架构重写。原生harness、原生沙盒、Codex级的文件系统工具，外加七家头部沙盒厂商一键接入。

观点句：这不是模型能力的升级。这是OpenAI把Agent基建层全部标准化了。

Blaxel、Cloudflare、Daytona、E2B、Modal、Runloop、Vercel，七家同时被写进官方支持列表。背后的核心是一套叫Manifest的抽象层——一份描述Agent工作区的配置清单，让沙盒可以在不同厂商之间无缝切换。

更狠的是，OpenAI这次是把自家Codex过去一年踩过的坑、积累的最佳实践，顺手产品化塞进了SDK。这意味着任何开发者现在都能直接调用企业级的Agent基建能力，不需要自己从头造轮子。

二、本质——Harness不是新概念，是工程补丁

先说清楚一个底层定义。

现在社区里有一个越来越清晰的共识：

Agent = Model + Harness

模型是大模型本身——GPT、Claude、Gemini，负责理解和推理。Harness是模型之外的一切——系统提示词、工具定义、上下文管理、错误处理、重试逻辑、安全边界。

Martin Fowler给过一个特别精辟的定义：Harness由两部分组成——Guides和Sensors。Guides在Agent行动之前引导它做对，Sensors在Agent行动之后帮它自我纠正。

打个比方：模型是千里马，harness是缰绳、马鞍和马蹄铁。没有好的harness，千里马也只是在原地打转。

本质在于，过去两年大家把太多注意力放在“哪个模型更强”上。但一个开发者最近的实验暴露了真相：他只改了编辑工具的格式，没换任何模型，成功率直接从6.7%飙到68.3%——翻了十倍。

观点句：决定Agent能力的不是模型本身，而是它外面那圈东西。

2026年年初，海外开发者社区突然形成共识：也许问题不在模型，而在模型外面那一圈东西。他们给这圈东西起了个名字，叫Harness。

这条认知变化有一条清晰的时间线：2月5日HashiCorp联合创始人Mitchell Hashimoto发博倡导“Engineer the Harness”；2月11日OpenAI跟进发表Harness Engineering实验报告；之后Martin Fowler站台、LangChain跟进，一个月之内，这个词变成了开发者圈的黑话。

三、核心机制拆解——双核架构与反直觉哲学

3.1 Harness与Compute彻底分离

这次Agents SDK重构的核心变化只有一件事：harness和compute彻底解耦。

harness跑在你的可信基建里，负责控制流、模型调用、工具路由、审批、追踪、暂停恢复。compute是一个独立的沙盒，专门负责读写文件、跑命令、装包、吐产物。

两层之间的接口标准化。API key和敏感凭证压根儿不会进入模型生成代码实际执行的那个环境。沙盒里既没有API密钥，也没有任何敏感凭证，甚至可以和网络断开。

这不是安全性上的小修小补。这是整个Agent架构的范式转移。

3.2 反直觉的工程哲学

在Codex的Agent循环设计上，有一个非常反直觉的决策：Agent loop的核心逻辑极其简单，把智能交给模型，把确定性留给框架。

Agent循环的基本模式是：用户输入 → 模型推理 → 输出两条路之一——要么是最终回复，要么是工具调用。每次调用工具后，输出被追加到上下文，模型重新推理，循环直到模型给出最终回复。

Codex CLI实现了这套架构，支持无状态请求处理、零数据保留合规、智能缓存优化和自动上下文窗口管理。Agent在单次任务中可以跑数百轮工具调用。

这种“框架越笨、模型越聪明”的思路，和早期LangChain在框架层做各种“聪明编排”的路线形成了鲜明对比。

四、产品对比——四种AI编程范式

理解了Harness的底层逻辑，再看当前AI编程工具的格局，会发现一个有意思的分层。

目前市场上存在四种完全不同的范式：

GitHub Copilot 是最易触达的选择，作为IDE扩展运行在VS Code、JetBrains和Neovim中，主打行级实时补全。它在78%的场景下生成逐行建议。它是“增强版自动补全”。

Cursor 是深度AI-IDE集成，基于VS Code构建了一个AI原生的编辑体验。AI嵌入到了每一层，支持多文件协同编辑的Composer模式。它是“AI原生的编辑器”。

Claude Code 是终端原生自主Agent，能读写文件、执行shell命令、管理Git工作流，擅长多文件重构和大规模代码库推理。它是“能在终端里自主工作的Agent”。

OpenAI Codex 是Harness工程的标杆实现，通过CLI在本地执行可靠的代码改动，拥有完整的Agent循环编排能力，支持数百轮工具调用和自动上下文管理。它是“生产级Agent的底层架构”。

观点句：工具之间不是替代关系，而是分工关系。Copilot负责行级补全，Cursor负责多文件编辑，Claude Code负责终端自动化，Codex提供了底座。

从架构上看，OpenAI的Harness方案走了一条不同于前两者的路：它不试图在IDE层解决问题，而是在基础设施层做标准化。当Harness和Skill成为跨平台标准后，上层工具可以共享同一个Agent底座，竞争将集中在体验和生态上。

五、工程落地启示——你该怎么接住这波基建

OpenAI的实验给出了最直接的证明：一个3人团队，5个月，100万行生产级代码，0行手写代码。平均每人每天合并3.5个PR。

但他们做了什么事情？人类的精力没有花在写代码上，而是全部花在了“想清楚要什么、把规则立起来”上。当事情失败时，答案从来不是“再试一次”，而是问自己：缺了什么能力？怎么让它对Agent既清晰又强制执行？

这才是你应该做的事情。

第一，把规则写进流水线，不要写进提示词。

提示词里写一万句“请遵守分层架构”，Agent下一秒就忘。把规则写成CI流水线里的自动化代码检查，Agent敢违反，PR直接过不了。一条程序化的规则，比一万句叮嘱都管用。

第二，不要指望Agent记住事，要在鱼缸外贴满便签。

大模型天生只有一种记忆——上下文窗口。满了前面的内容就被挤掉。OpenAI的做法是在仓库里维护一套结构化文档，设计规范、架构决策、执行计划全放里面，Agent随时能查。别指望金鱼能记住事儿，你得在鱼缸外面贴满便签。

第三，做事和评判分开。

Agent评估自己的产出，总是盲目自信。Anthropic的解法是：一个Agent做事，另一个专门挑毛病，选手和裁判不能是同一个人。生成-评估-测试闭环是实现端到端质量管控的关键。

第四，用好Skill协议。

OpenAI已宣布全面支持基于SKILL.md规范的“Skills”标准，该标准已被Anthropic等厂商采用，开源项目OpenClaw也已采用同一规范。这意味着Skill正在成为跨平台标准。你的团队经验可以被打包成可复用的Skill，在不同模型和平台之间迁移。

六、趋势判断——Harness会越来越薄，但不会消失

一个有趣的现象：全行业都在卷Harness，但OpenAI的Codex负责人却说Harness正在退场。

这不是矛盾。这是对趋势的预判：随着模型能力持续提升，Harness层应该越来越薄，而不是越来越厚。硬编码的脚手架应该随着模型能力提升而被主动删除。今天的Harness，本质上是在当前模型能力有限的情况下给AI写的“拐杖”。

但这个“退场”的时刻，可能比很多人想象的要远。

行业共识是，核心竞争力正在从“单模型代码生成效果”转向“模型+Harness+上下文工程+测试闭环”的一体化系统能力。相同模型在不同任务拆解、上下文管理、评估机制下，最终质量差异显著。

OpenAI和Anthropic的策略差异也逐渐清晰：OpenAI强调一体化基础设施，将模型、记忆管理和执行环境打包为高性能底座；Anthropic侧重合作伙伴生态，强化即插即用的集成体验。

但无论是哪条路，方向是明确的：AI编程正在从“模型能力竞赛”转向“工程化落地竞赛”。Harness是这场竞赛的核心战场。

最后留一个问题给你：

如果AI能帮你写完全部代码，你的团队现在还有多少精力花在“设计Agent工作环境”这件事上？

不是问你的AI能不能写代码。而是问：你能不能像那3个工程师一样，5个月不写一行手写代码，却交付100万行生产代码？

这不是一个技术问题。这是一个工程管理问题。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

OpenAI祭出GPT-5.4神装！Codex同款Harness全面开放

一、现象——OpenAI的狠棋，补上了基建缺口

二、本质——Harness不是新概念，是工程补丁

三、核心机制拆解——双核架构与反直觉哲学

3.1 Harness与Compute彻底分离

3.2 反直觉的工程哲学

四、产品对比——四种AI编程范式

五、工程落地启示——你该怎么接住这波基建

六、趋势判断——Harness会越来越薄，但不会消失

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

OpenAI祭出GPT-5.4神装！Codex同款Harness全面开放

一、现象——OpenAI的狠棋，补上了基建缺口

二、本质——Harness不是新概念，是工程补丁

三、核心机制拆解——双核架构与反直觉哲学

3.1 Harness与Compute彻底分离

3.2 反直觉的工程哲学

四、产品对比——四种AI编程范式

五、工程落地启示——你该怎么接住这波基建

六、趋势判断——Harness会越来越薄，但不会消失

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品