Codex竟然不打算放过Claude Code，真是有意思！

（

作者｜周一笑

邮箱｜ zhouyixiao@pingwest.com

在2月6号，OpenAI的总裁Greg Brockman在X平台上发了个帖子，给全体技术团队下了个任务：到3月31日，工程师们第一时间要用agent，而不是传统的编辑器或者终端。

这算是OpenAI给自己发的动员令。

Codex竟然不打算放过Claude Code，真是有意思！

乍一看，你可能觉得这只是又一个硅谷的愿景宣言。可是接下来六周发生的事情证明，Brockman可不是在说空话。OpenAI的编码助手平台Codex，正在经历一场前所未有的产品冲刺，那速度和密度之高，连一些关注AI编码工具的开发者都开始重新审视自己的工具组合。

与此同时，Codex在程序员圈子里的热度和口碑也在迅速上升。

这一切的动作都在瞄准Anthropic旗下的Claude Code，这个家伙现在可是风头无两。

Codex竟然不打算放过Claude Code，真是有意思！

六周的疯狂迭代

只要拉一下时间线，你就能感受到这种忙碌的节奏。

2月2日，Codex桌面应用在macOS上发布，OpenAI还宣布将Codex免费开放给ChatGPT和Go用户，同时付费用户的速率限制也翻倍。

紧接着在2月5日，GPT-5.3-Codex发布，OpenAI称之为“首个能够自我创造的模型”。同一天，Anthropic也发布了Claude Opus 4.6。

到了2月12日，Codex-Spark上线，跟AI推理硬件公司Cerebras合作，推理速度超过每秒1000 tokens。OpenAI表示“随着模型能力的提升，交互速度成了明显的瓶颈。”

再到2月14日，OpenClaw的创始人Peter Steinberger宣布加入OpenAI。他用Codex写了OpenClaw的全部代码，偏好长时间运行的agentic loop。Sam Altman在X上称他为“天才”，认为他将“推动下一代个人代理的发展”。

3月4日，Codex桌面应用终于在Windows上面世。

3月5日，GPT-5.4发布，这是OpenAI第一个同时具备推理、编码和原生计算机使用能力的通用模型，Codex和API支持达到100万token的上下文。

3月6日，Codex Security进入研究预览阶段。这是OpenAI推出的应用安全代理，前身是内测的Aardvark，能够分析代码库、构建项目级威胁模型、在沙盒中验证漏洞并提出修复建议。在过去30天的测试中，它扫描了超过120万次的提交，发现了792个关键级别的漏洞和超过10000个高危问题，涵盖了OpenSSH、GnuTLS、Chromium等重量级开源项目，误报率降低了50%以上，噪音减少了84%。

Codex竟然不打算放过Claude Code，真是有意思！

与此同时，使用数据也在不断攀升。Sam Altman在X上确认，自年初以来，Codex的周活跃用户增长了三倍以上；Codex团队的负责人Thibault Sottiaux（Tibo）向Pragmatic Engineer的Gergely Orosz透露，自1月以来使用量增长了五倍，周活跃开发者超过100万。Tibo还提到，超级碗当周播出的Codex广告让系统瞬间承受了巨大的负载。

在六周内，OpenAI进行了七次重大的产品更新，这可以说是它在产品上最激进的一次冲刺了。

想要理解这个快速的节奏，首先得看看供给侧的变化。GPT-5系列模型的agent能力在过去几个月有了质的飞跃，从上下文窗口、工具调用到长时间自主执行，模型的能力达到了支持Coding Agent这一产品形式的临界点。

其次，需求侧的信号同样强烈。根据SemiAnalysis的报道，Anthropic的Claude Code已经实现了25亿美元的年化收入，占其企业收入的一半以上。Claude Code用真实的数据证明了Coding Agent可以成为AI公司的核心收入来源。对于估值已达数千亿美元的OpenAI来说，放弃这个赛道显然不是一个现实的选择。

Codex竟然不打算放过Claude Code，真是有意思！

根据SemiAnalysis的预测，Anthropic的年化收入增速曾一度超过OpenAI

值得注意的是，时间上的紧密交锋。GPT-5.3-Codex和Claude Opus 4.6在2月5日同一天发布，Codex Security和Claude Code Security几乎也在同一时期上线。这种节奏本身就是一种信号，说明两家公司都把Coding Agent平台视为关键战场。

开发者们开始从Claude Code的单一模式转向混合模式

以前很长一段时间，Anthropic的Claude Code似乎没有对手，用户对它的依赖也日渐加深。然而OpenAI显然不想让Anthropic太舒服。在Codex的一系列激进更新后，开发者社区的反应也开始变得有趣。

过去一个月，Reddit和Hacker News上关于Codex和Claude Code的讨论，最常提到的词不是“更好”或者“替代”，而是“叠加使用”。也就是说，越来越多的开发者并不是在两者之间进行选择，而是同时兼顾。

Calvin French-Owen就是个典型案例。他是Segment的联合创始人，曾参与OpenAI Codex web产品的发布，同时也是Claude Code的重度用户。在他今年2月写的博客中，他提到选择工具的核心标准是“我有多少时间，以及我希望它多自主地运作”。

他的日常工作流程是先用Claude Code做规划、管理终端和git操作，然后转到Codex进行实际编码。他表示，Opus在跨上下文窗口的工作效率更高，能同时启动多个子代理并行探索代码库，而Codex在长时间的自主编码任务上更为稳定。

在Reddit上，开发者们也分享出了更具体的分工模式。有些人详细描述了一个五步工作流程，先让Claude Code制定计划，然后让Codex检查计划，接着由Claude实施，最后再由Codex进行代码审查和QA迭代。还有人直接把Claude Code和Codex连接成一个CLI桥接，因为在两者之间手动复制粘贴实在是太麻烦了。

一篇社区分析总结了500多条Reddit评论后的结论显示，在一组小样本的盲测中，Claude Code胜率达到67%，质量更高；但Codex的20美元套餐可以让你编码一整天，而Claude Code同样价位下很快就会用完十几个提示。“Claude Code的质量更高但使用时间有限，Codex稍微逊色但可以全天使用”，这便是2026年3月开发者社区最真实的共识。

Codex竟然不打算放过Claude Code，真是有意思！

根据Cursor官方的评测，GPT系列在各大模型中表现出色。

开发者们喜欢用一个比喻来形容这两者的气质，Claude就像美国人，适合进行创造性的探索和头脑风暴，而Codex则像德国人，体现着极致的效率和专注力。“就好比一只咬住骨头不放的狗，特别固执，总是不断尝试，直到问题解决。”

当然，反对的声音也不在少数。有开发者在Hacker News上表示，Codex在他看来“每一方面都比Claude Code差”，尤其在代码审查中，Codex常常会提出一些表面合理但实际上并不存在的问题，他最后只把Codex用作复核Claude的成果。

不过，大势已然明确，社区的讨论正在从“哪个更好”转向“两个都用，各取所需”的方向。

Codex竟然不打算放过Claude Code，真是有意思！

现在比的不是性能，而是谁的产品更实用

如果单看模型的基准测试，可能不太明白Codex为何如此崛起。在SWE-Bench等编码评测中，Claude Opus 4.6依旧领先。Codex真正的优势在于OpenAI围绕它构建了一整套工程系统。

Orosz在今年2月发表的一篇关于Codex团队的深度报道中提到，Codex自创的代码超过90%。而Anthropic的Claude Code团队负责人Boris Cherny也表示，他们的数据大致相当。

当然，这里的90%还是要打个折扣理解。在成熟项目中，样板代码、测试用例和常规重构占据了大量代码行，核心架构的决策仍需人来做。但两家AI实验室都在用自己的工具来开发自己的工具，这本身就说明了这些工具已经深深融入了日常的工程流程。

Codex竟然不打算放过Claude Code，真是有意思！

Codex 的基本工作原理

Codex团队在工程组织方面走得更远。Orosz的报道描述了一种新颖的工作方式，Codex团队的工程师通常同时运行4到8个并行的代理，分别负责功能开发、代码审查、安全审计、代码库理解和bug修复等任务。工程师的角色正在从单纯的编程者转变为管理这些代理的人。

在技术选择方面，Codex CLI决定使用Rust，而Claude Code则选择了TypeScript。团队负责人Tibo表示，选择Rust不仅是因为它的性能和正确性，更是为了设定更高的工程标准，减少对npm生态的依赖。他们甚至还招聘了Rust终端UI库Ratatui的维护者全职加入团队。

更值得注意的是Codex的分层代码审查机制。Codex团队训练了一个定制的代码审查模型，据Tibo说大约90%的评论能指出有效问题。审查分为两层，非关键代码在AI审查后可以直接合并，而核心代理代码和开源组件仍然需要人工审查。这种机制的意义在于，审查过程开始分层。

还有两个细节显示Codex正从工具向系统转变。Codex能够运行自己的完整测试套件进行自我测试；团队还安排了夜间检测，让Codex自动扫描代码库并生成待审修复建议，工程师每天早上到公司时就能看到一堆修复待审。

一家名为Wonderful的AI开发公司的首席架构师在3月写了一篇文章，分享了他们四个月前禁止手动编程的经历。他认为Codex是坐在房间后面戴耳机的工程师，默默地读完整个代码库后才开始写代码，而Claude则更具产品感，更擅长判断什么是对的。他们用Codex处理低延迟系统和性能敏感的代码，而Claude则用于UI和前端。

从编程工具到代理平台

从更远的角度看，Codex这六周的冲刺目标是一个更宏大的愿景。

Peter Steinberger的加入是一个显著的人事信号。他日常同时管理5到10个代理，加入OpenAI后的方向是开发下一代个人代理，而不仅仅是编程工具。OpenAI正以Codex作为其代理战略的切入点。

Codex Security则是另一个方向的扩展。当Codex从帮助你编写代码转向帮助审计安全时，它的定位已经变了。

GPT-5.4进一步加速了这一转变。作为OpenAI第一个具备原生计算机使用能力的通用模型，它不仅能编写代码，还能操作电脑、跨应用执行工作流程。结合正在形成的插件/技能生态系统和企业级权限管理，Codex的轮廓越来越像一个原生的AI开发平台。

Codex团队在Every的播客中透露，他们认为下一个瓶颈就是代码审查。

模型生成代码的速度已经远超人类审查的速度，验证产出的正确性成了最紧迫的问题。他们正在尝试通过重现用户的操作路径来“证明”修复的有效性，而不是让人类逐行阅读代码。

这些野心与Claude Code的目标越来越重合。在迅速抢占了一些用户和场景后，Codex的势头正在增强。回到Greg Brockman在2月6日的那条帖子，他设定的截止日期是3月31日，而目前距离截止日期还有两周多，从过去六周的进展来看，Codex的冲刺远没有结束。

OpenAI把曾经在模型上的决心和竞争精神，全部注入到了Codex上，接下来它和Claude Code之间的较量，肯定会更加精彩。

Codex竟然不打算放过Claude Code，真是有意思！