机器之心编辑部
最近,OpenAI推出了新一代的大模型 GPT-5.4-Cyber。很多网友都有同样的感觉,这个模型真的让人眼前一亮。
这款新模型在目标用户、应用场景,甚至推广策略上,几乎完全与前不久Anthropic发布的Claude Mythos形成了直接竞争。如今这种「正面对抗」的局面已经显而易见。连《纽约时报》也在报道中直言不讳地提到:“就像Anthropic,OpenAI也在……”。

这种同质化的趋势可不仅仅是基础模型的问题。要是你关注这两家公司的最新产品,你会发现它们的很多东西开始变得越来越相似。
在资本市场的聚光灯下,这种趋同现象愈发明显。目前,这两家在二级市场上的估值非常接近,甚至Anthropic最近在企业市场的快速增长让它的估值超越了OpenAI。显然,资本对市场的嗅觉极其敏锐,它们认为这两只独角兽正在朝着相同的方向发展。

看起来,基础大模型的同质化必然会推动上层应用的相似化。
今天,我想聊聊代表当下AI辅助编程顶尖水平的两个工具:OpenAI的Codex和Anthropic的Claude Code。它们从最初的各走各路,到如今的趋同,究竟经历了怎样的变化呢?
从各自为政到齐头并进:两大巨头的发展历程
让我们把时间往回拨几年前,Codex和Claude Code可是代表着截然不同的技术理念。
Codex的核心逻辑可以用「快就是力量」来概括。就像一个经验丰富的开发者,随时准备帮你补全代码。

在OpenAI的设想中,Codex是一个灵活且互动性强的智能助手,强调快速迭代和互动编程。它的执行速度极快,借助Cerebras WSE-3硬件,每秒能处理1000个token。在具体的工作流程中,Codex提供建议、自动编辑和全自动三种审批方式,确保开发者始终处于反馈循环中。这一设计理念非常适合那些需要迅速构建原型和频繁交互的极客开发者。
而Claude Code则从一开始就展现出一种高冷克制的「架构师」特质。

Anthropic赋予Claude Code处理极其复杂任务的能力。它依靠高达100万token的超大上下文窗口,以及独特的「压缩」技术,支持无限对话。Claude Code的核心理念是「全局掌控,先谋后动」。在执行任何操作之前,它会先运用智能体搜索技术深入理解整个代码库,然后协调多文件进行一致性修改。对于涉及数万行代码的企业级重构任务,Claude Code展现出非凡的能力。
不过,随着时间的推移和应用场景的不断拓展,这两个性格迥异的工具,开始逐渐互相借鉴。

AI工具的竞争:Codex与Claude Code的较量
图源:MorphLLM
在处理复杂项目时,单一的AI模型常常会遭遇上下文混乱的问题。比如你让AI去重构鉴权模块,它可能看了40个文件,结果就把第一个文件的设计思路给忘了。为了应对这个难题,两家公司给出的解决方案几乎一模一样:为每个子任务设置独立的上下文窗口。
很快,OpenAI推出了全新的macOS桌面应用,把任务按项目分隔到不同的线程,并在云端沙盒中独立运行。而Anthropic则推出了智能体团队架构,允许开发者创建多个子智能体,它们共享任务清单和依赖关系,并在各自的独立窗口中协同工作。无论是“云端沙盒”还是“智能体团队”,它们的核心理念在工程实现上已完全一致。
在基准测试中,两者的表现也呈现出微妙的平衡。GPT-5.3-Codex在终端任务Terminal-Bench 2.0中以77.3%的得分领先,而Claude Code则在复杂的SWE-bench Verified榜单上获得了80.8%的成绩。它们都在各自的强项领域发挥得淋漓尽致,同时也在努力弥补短板。
OpenClaw效应:打破高墙的无形力量
如果说两家公司的内部策略导致了它们走向同质化的原因,那么整个开源生态的推动力则不可忽视。这里不得不提到OpenClaw对AI编程工具领域产生的深远影响。
作为开源社区推出的工作流框架,OpenClaw的出现彻底推翻了巨头们辛辛苦苦搭建的生态高墙。它将大模型与本地工具链的互动过程进行了标准化。过去,如何让大模型优雅地调用本地Git提交,如何在沙盒中安全地运行测试脚本,如何进行多步骤推理验证,这些都是Codex和Claude Code各自引以为傲的独特技术。
不过,OpenClaw将这些流程抽象为通用协议,这意味着开发者不再需要被某种特定的协作模式束缚在某个平台上。开源社区的热潮让标准化成为了一股不可逆转的浪潮。在这样的背景下,无论是OpenAI还是Anthropic,都不得不降低姿态,去适应这个开放的标准。
随着OpenClaw这种开源力量逐渐消除技术壁垒,当所有的高级功能成为行业标准配置时,Codex和Claude Code唯一的出路,就是在用户体验的细节上不断竞争。这也是为什么我们会觉得它们越来越像。毕竟,在标准化的框架下,最优解往往只有一个——这就像生物的趋同演化。
Codex正在追赶Claude Code
尽管Claude Code和Codex正在逐渐趋同,但它们之间的差异依然明显,甚至在某些方面Codex已经赢得了开发者的青睐。
前几天,在r/ClaudeCode社区里,一位拥有14年经验、曾在科技巨头工作的高级工程师u/Canamerican726分享了一份相当深入的测评。
具体来说,他在一个包含8万行代码的复杂项目中,分别花了100小时使用Claude Code和20小时使用Codex。

在他看来,使用Claude Code的感觉就像在指导一个被截止日期追赶的工程师,它动作迅速,但经常忽视开发者在CLAUDE.md中写的规范,并且喜欢在现有文件中不断添加代码来完成任务,缺乏重构的思维。
相比之下,Codex给他的感觉更像是一个有5到6年经验的老手。虽然处理速度慢了3到4倍,但它会在过程中主动停下来思考并重构代码,并且严格遵循指令的边界。这种高度的自主性,让这位工程师可以放心地把任务直接交给它,自己去做其他事情。
类似的看法也出现在社交网络上。研究者Aran Komatsuzaki结合自己的使用经验提到,在前端领域Claude Code仍然占上风,但在后端规划和信息更新方面,频繁调用网络搜索的Codex显然更为稳健。

评论区里大家纷纷分享了在实际工作中的心酸经历。有开发者很直接地指出,虽然 Opus 模型的运行速度很快,但它却常常导致项目中积累很多“代码清洁债务”。而反观 Codex,虽然反应慢一些,却能在执行任务的同时,顺便把环境清理得干干净净。更有用户总结出了一个生存法则:当上下文窗口使用达到70%时,最好立马开启新会话,不然就容易遇到系统悄悄赠送的 bug。

这些来自开发者的真情流露,清楚地表明了当这两大工具的功能越来越接近时,决定开发者选择哪一方的,往往就是那些关于“填坑成本”和“维护心智”的细微差别。当然,对于中国用户来说,还有一些独特的挑战,比如:

冷思考:同质化背后的生态暗战
当然,Codex 和 Claude Code 的优劣也得看开发者的素质。正如用户 u/Canamerican726 所总结的:如果你对软件工程一无所知,这两个工具也不会给你带来理想的结果,毕竟工具不等于技能。
这句话恰好揭示了 AI 编程工具一直以来给人的一种误解。我们曾以为,只要有强大的 AI 助手,即使是零基础的小白也能独立开发出企业级应用。但实际上,Claude Code 需要一个高度专注且技术精湛的“驾驭者”,否则它很容易在庞大的代码中迷失方向。Codex 虽然更独立,但同样需要开发者提供清晰的上下文,才能最大限度地发挥其作用。
那么,在这两款工具能力高度相似的情况下,这两家公司究竟在哪里建立了自己的护城河呢?
答案其实隐藏在那些看似无趣的财报和定价策略中。在相同的任务下,Claude Code 的 token 消耗量通常是 Codex 的 3 到 4 倍,成本自然更高。对企业团队来说,使用 Claude Code 每位开发者每月需要支付 100 到 200 美元,而 Codex 则以更实惠的订阅计划吸引了大量用户,尤其是在庞大的 GitHub 社区中。

图源:MorphLLM
Anthropic 希望将 Claude Code 深入融入那些资金充裕的科技公司的工作流程中。例如 Stripe 就让 1370 名工程师使用 Claude Code,在短短 4 天内完成了一项本该需要 10 个人几周才能完成的跨语言代码迁移。Ramp 公司也借助它将事件响应时间缩短了 80%。而 OpenAI 则凭借 Codex 的广泛应用,使其成为了许多开发者的首选。
这场竞争不仅仅是技术上的较量,更是一场关于生态系统的绑定、定价策略以及用户习惯重塑的消耗战。
开发者的十字路口
回顾过去一年的技术进展,GPT-5.4-Cyber 的上线只是这场持久战中的一个小插曲。Codex 和 Claude Code 正在向“同一张面孔”演变,标志着 AI 编程工具从早期多变且充满新鲜感的实验阶段,正式进入了成熟却略显乏味的工业化生产阶段。
如今,Claude Code 每天能自动生成13.5万次 GitHub 提交,这个数字已经占到了整个网络公开提交量的 4%。可想而知,未来绝大多数的样板代码、基础测试用例以及常规的代码重构,都将由这些愈发相似的 AI 智能体在后台默默完成。

图源:MorphLLM & SemiAnalysis / GitHub Search API
人类开发者的独特价值是什么?
面对这两个能力日益接近、体验又互相模仿的超级工具,我们人类开发者的核心价值到底还剩下些什么呢?说实话,工具的红利期可能很快就要结束了。当每个人都拥有同样强大的工具时,胜负的关键不再是代码补全的速度,而是谁能更精准地定义问题、谁具备更宏大的系统架构视野,还有谁能在这片被 AI 填满的代码海洋中,找到那份只有人类才能拥有的独特性。
那么,你会选择哪一个呢?
参考链接 1
参考链接 2
参考链接 3
参考链接 4











看到这两款产品越来越相似,感觉市场竞争压力会让它们不断升级,真是个好事。
看起来AI编程工具的竞争真是如火如荼,谁会是最后的赢家呢?
从不同的发展理念到如今的趋同,真是让人感叹,技术的演变速度越来越快!未来会不会出现更多意想不到的变化?
市场对这两家公司的嗅觉真灵敏,估值差距越来越小,未来会不会出现合并的可能?
两家公司的竞争让我想起了手机市场的演变,是否会出现类似的“杀手级应用”来打破这种同质化?
这种竞争让我想起了当年浏览器大战,最后谁能脱颖而出呢?
在选择工具时,不能只看相似性,还是要结合具体项目需求做出决策。
看着Codex和Claude Code的相似化,真希望它们能保持各自的特色,才能满足不同用户需求。