
作者 | 周一笑
邮箱 | zhouyixiao@pingwest.com
在2月6号,OpenAI的总裁Greg Brockman在X平台上发了个帖子,给全体技术团队下了个任务:到3月31日,工程师们第一时间要用agent,而不是传统的编辑器或者终端。
这算是OpenAI给自己发的动员令。

乍一看,你可能觉得这只是又一个硅谷的愿景宣言。可是接下来六周发生的事情证明,Brockman可不是在说空话。OpenAI的编码助手平台Codex,正在经历一场前所未有的产品冲刺,那速度和密度之高,连一些关注AI编码工具的开发者都开始重新审视自己的工具组合。
与此同时,Codex在程序员圈子里的热度和口碑也在迅速上升。
这一切的动作都在瞄准Anthropic旗下的Claude Code,这个家伙现在可是风头无两。

1
六周的疯狂迭代
只要拉一下时间线,你就能感受到这种忙碌的节奏。
2月2日,Codex桌面应用在macOS上发布,OpenAI还宣布将Codex免费开放给ChatGPT和Go用户,同时付费用户的速率限制也翻倍。
紧接着在2月5日,GPT-5.3-Codex发布,OpenAI称之为“首个能够自我创造的模型”。同一天,Anthropic也发布了Claude Opus 4.6。
到了2月12日,Codex-Spark上线,跟AI推理硬件公司Cerebras合作,推理速度超过每秒1000 tokens。OpenAI表示“随着模型能力的提升,交互速度成了明显的瓶颈。”
再到2月14日,OpenClaw的创始人Peter Steinberger宣布加入OpenAI。他用Codex写了OpenClaw的全部代码,偏好长时间运行的agentic loop。Sam Altman在X上称他为“天才”,认为他将“推动下一代个人代理的发展”。
3月4日,Codex桌面应用终于在Windows上面世。
3月5日,GPT-5.4发布,这是OpenAI第一个同时具备推理、编码和原生计算机使用能力的通用模型,Codex和API支持达到100万token的上下文。
3月6日,Codex Security进入研究预览阶段。这是OpenAI推出的应用安全代理,前身是内测的Aardvark,能够分析代码库、构建项目级威胁模型、在沙盒中验证漏洞并提出修复建议。在过去30天的测试中,它扫描了超过120万次的提交,发现了792个关键级别的漏洞和超过10000个高危问题,涵盖了OpenSSH、GnuTLS、Chromium等重量级开源项目,误报率降低了50%以上,噪音减少了84%。

与此同时,使用数据也在不断攀升。Sam Altman在X上确认,自年初以来,Codex的周活跃用户增长了三倍以上;Codex团队的负责人Thibault Sottiaux(Tibo)向Pragmatic Engineer的Gergely Orosz透露,自1月以来使用量增长了五倍,周活跃开发者超过100万。Tibo还提到,超级碗当周播出的Codex广告让系统瞬间承受了巨大的负载。
在六周内,OpenAI进行了七次重大的产品更新,这可以说是它在产品上最激进的一次冲刺了。
想要理解这个快速的节奏,首先得看看供给侧的变化。GPT-5系列模型的agent能力在过去几个月有了质的飞跃,从上下文窗口、工具调用到长时间自主执行,模型的能力达到了支持Coding Agent这一产品形式的临界点。
其次,需求侧的信号同样强烈。根据SemiAnalysis的报道,Anthropic的Claude Code已经实现了25亿美元的年化收入,占其企业收入的一半以上。Claude Code用真实的数据证明了Coding Agent可以成为AI公司的核心收入来源。对于估值已达数千亿美元的OpenAI来说,放弃这个赛道显然不是一个现实的选择。

根据SemiAnalysis的预测,Anthropic的年化收入增速曾一度超过OpenAI
值得注意的是,时间上的紧密交锋。GPT-5.3-Codex和Claude Opus 4.6在2月5日同一天发布,Codex Security和Claude Code Security几乎也在同一时期上线。这种节奏本身就是一种信号,说明两家公司都把Coding Agent平台视为关键战场。
1
开发者们开始从Claude Code的单一模式转向混合模式
以前很长一段时间,Anthropic的Claude Code似乎没有对手,用户对它的依赖也日渐加深。然而OpenAI显然不想让Anthropic太舒服。在Codex的一系列激进更新后,开发者社区的反应也开始变得有趣。
过去一个月,Reddit和Hacker News上关于Codex和Claude Code的讨论,最常提到的词不是“更好”或者“替代”,而是“叠加使用”。也就是说,越来越多的开发者并不是在两者之间进行选择,而是同时兼顾。
Calvin French-Owen就是个典型案例。他是Segment的联合创始人,曾参与OpenAI Codex web产品的发布,同时也是Claude Code的重度用户。在他今年2月写的博客中,他提到选择工具的核心标准是“我有多少时间,以及我希望它多自主地运作”。
他的日常工作流程是先用Claude Code做规划、管理终端和git操作,然后转到Codex进行实际编码。他表示,Opus在跨上下文窗口的工作效率更高,能同时启动多个子代理并行探索代码库,而Codex在长时间的自主编码任务上更为稳定。
在Reddit上,开发者们也分享出了更具体的分工模式。有些人详细描述了一个五步工作流程,先让Claude Code制定计划,然后让Codex检查计划,接着由Claude实施,最后再由Codex进行代码审查和QA迭代。还有人直接把Claude Code和Codex连接成一个CLI桥接,因为在两者之间手动复制粘贴实在是太麻烦了。
一篇社区分析总结了500多条Reddit评论后的结论显示,在一组小样本的盲测中,Claude Code胜率达到67%,质量更高;但Codex的20美元套餐可以让你编码一整天,而Claude Code同样价位下很快就会用完十几个提示。“Claude Code的质量更高但使用时间有限,Codex稍微逊色但可以全天使用”,这便是2026年3月开发者社区最真实的共识。

根据Cursor官方的评测,GPT系列在各大模型中表现出色。
开发者们喜欢用一个比喻来形容这两者的气质,Claude就像美国人,适合进行创造性的探索和头脑风暴,而Codex则像德国人,体现着极致的效率和专注力。“就好比一只咬住骨头不放的狗,特别固执,总是不断尝试,直到问题解决。”
当然,反对的声音也不在少数。有开发者在Hacker News上表示,Codex在他看来“每一方面都比Claude Code差”,尤其在代码审查中,Codex常常会提出一些表面合理但实际上并不存在的问题,他最后只把Codex用作复核Claude的成果。
不过,大势已然明确,社区的讨论正在从“哪个更好”转向“两个都用,各取所需”的方向。

1
现在比的不是性能,而是谁的产品更实用
如果单看模型的基准测试,可能不太明白Codex为何如此崛起。在SWE-Bench等编码评测中,Claude Opus 4.6依旧领先。Codex真正的优势在于OpenAI围绕它构建了一整套工程系统。
Orosz在今年2月发表的一篇关于Codex团队的深度报道中提到,Codex自创的代码超过90%。而Anthropic的Claude Code团队负责人Boris Cherny也表示,他们的数据大致相当。
当然,这里的90%还是要打个折扣理解。在成熟项目中,样板代码、测试用例和常规重构占据了大量代码行,核心架构的决策仍需人来做。但两家AI实验室都在用自己的工具来开发自己的工具,这本身就说明了这些工具已经深深融入了日常的工程流程。

Codex 的基本工作原理
Codex团队在工程组织方面走得更远。Orosz的报道描述了一种新颖的工作方式,Codex团队的工程师通常同时运行4到8个并行的代理,分别负责功能开发、代码审查、安全审计、代码库理解和bug修复等任务。工程师的角色正在从单纯的编程者转变为管理这些代理的人。
在技术选择方面,Codex CLI决定使用Rust,而Claude Code则选择了TypeScript。团队负责人Tibo表示,选择Rust不仅是因为它的性能和正确性,更是为了设定更高的工程标准,减少对npm生态的依赖。他们甚至还招聘了Rust终端UI库Ratatui的维护者全职加入团队。
更值得注意的是Codex的分层代码审查机制。Codex团队训练了一个定制的代码审查模型,据Tibo说大约90%的评论能指出有效问题。审查分为两层,非关键代码在AI审查后可以直接合并,而核心代理代码和开源组件仍然需要人工审查。这种机制的意义在于,审查过程开始分层。
还有两个细节显示Codex正从工具向系统转变。Codex能够运行自己的完整测试套件进行自我测试;团队还安排了夜间检测,让Codex自动扫描代码库并生成待审修复建议,工程师每天早上到公司时就能看到一堆修复待审。
一家名为Wonderful的AI开发公司的首席架构师在3月写了一篇文章,分享了他们四个月前禁止手动编程的经历。他认为Codex是坐在房间后面戴耳机的工程师,默默地读完整个代码库后才开始写代码,而Claude则更具产品感,更擅长判断什么是对的。他们用Codex处理低延迟系统和性能敏感的代码,而Claude则用于UI和前端。
1
从编程工具到代理平台
从更远的角度看,Codex这六周的冲刺目标是一个更宏大的愿景。
Peter Steinberger的加入是一个显著的人事信号。他日常同时管理5到10个代理,加入OpenAI后的方向是开发下一代个人代理,而不仅仅是编程工具。OpenAI正以Codex作为其代理战略的切入点。
Codex Security则是另一个方向的扩展。当Codex从帮助你编写代码转向帮助审计安全时,它的定位已经变了。
GPT-5.4进一步加速了这一转变。作为OpenAI第一个具备原生计算机使用能力的通用模型,它不仅能编写代码,还能操作电脑、跨应用执行工作流程。结合正在形成的插件/技能生态系统和企业级权限管理,Codex的轮廓越来越像一个原生的AI开发平台。
Codex团队在Every的播客中透露,他们认为下一个瓶颈就是代码审查。
模型生成代码的速度已经远超人类审查的速度,验证产出的正确性成了最紧迫的问题。他们正在尝试通过重现用户的操作路径来“证明”修复的有效性,而不是让人类逐行阅读代码。
这些野心与Claude Code的目标越来越重合。在迅速抢占了一些用户和场景后,Codex的势头正在增强。回到Greg Brockman在2月6日的那条帖子,他设定的截止日期是3月31日,而目前距离截止日期还有两周多,从过去六周的进展来看,Codex的冲刺远没有结束。
OpenAI把曾经在模型上的决心和竞争精神,全部注入到了Codex上,接下来它和Claude Code之间的较量,肯定会更加精彩。

点个“爱心”,再走 吧











