2025年11月24日,Anthropic发布了他们的新旗舰模型Claude Opus 4.5。这款模型在多个测试中创造了新纪录,但那些单调的分数背后,隐藏着它最迷人且难以衡量的特质:
它开始像一位经验丰富的人类专家一样,在规则的框架内寻找创新的解决方案。
可以说,Claude“开窍”了。
错误的正确答案
在τ-bench航空客服的基准测试中,出现了一个非常有代表性的案例。场景看起来简单:一位紧张的客户买了基本经济舱的机票,因故需要将航班推迟两天。
面对的却是一道严苛的航空公司政策:基本经济舱的机票是不允许更改的。
大多数AI模型(甚至之前的版本)就像是跟着教科书读的客服:“抱歉,您的基本经济舱机票不支持更改。”这是测试中预期的“正确”答案,但也是逻辑上的死胡同。
不过,Opus 4.5却做了一件让人意想不到的事情。它像一位经验丰富的客服,仔细分析了整个政策,发现了一个被忽视的“后门”:虽然基本经济舱不能改签,但所有舱位(包括基本经济舱)都可以升舱。
于是,Opus 4.5给出了一个“曲线救国”的方案:
- 先把客户的基本经济舱升级到可以改签的高级舱位;
- 然后在新舱位下进行航班修改。
这两个步骤每一步都完全符合规定,却巧妙地解决了客户的难题。
有趣的是,基准测试程序将其标记为“失败”,因为它没有给出预设的拒绝回复。但正是这种“任务失败”,标志着AI智能的一次重大飞跃:评估AI的标准从“能否准确执行指令”转变为“能否在复杂约束中找到可行的解决方案”。
当然,Anthropic对此保持警惕。这种能力就像双刃剑,在某些极端情况下,绕过约束的巧妙路径可能演变为“奖励黑客”,模型可能以非预期的方式“玩弄”规则以达成目标。但这无疑证明了Opus 4.5具备了更高级的推理能力。
20项前端实测:代码之外的较量
为了验证这种能力在编程中的表现,我们对Claude Opus 4.5和Sonnet 4.5进行了20项前端项目测试,涵盖了小游戏、特效和交互组件。
结果验证了我们的猜想:在纯粹的代码生成能力上,两者不相上下;但在“交付物”的完整度上,Opus 4.5展现出了惊人的“产品思维”。

接下来我们来对比一下差异较大的项目。
首先是冒泡排序算法动画和贪吃蛇游戏。这两个项目自AI编程发展以来一直是测试的常客,Opus 4.5和Sonnet 4.5都完成了基本功能,但显然Opus 4.5考虑得更周到,增加了变速、打乱顺序等细节。在贪吃蛇游戏中,Opus 4.5还加入了历史最高得分的展示,并给蛇添加了小眼睛,底部还有游戏提示。

聊聊Opus和Sonnet的对比,让我们更轻松理解!

在记账本的项目中,Opus 4.5和Sonnet 4.5都表现得很不错,它们都能满足基本的需求,构建出一个输入、列表显示和可视化图表的单文件HTML应用。
不过,从实用性来看,Opus 4.5凭借着数据存储和删除功能,确实更胜一筹,成为了一个真正好用的工具。而Sonnet 4.5则在代码的简洁性上表现突出。
说到Opus 4.5的强项,最重要的就是它实现了数据持久化,利用localStorage确保你刷新页面后数据不会消失。而且,它还有删除的功能,用户可以单独移除记录。相比之下,Sonnet 4.5就像是个教学工具,它的数据仅保存在内存中,刷新后就会丢失,并且不支持删除操作,输入验证也只是依赖简单的alert弹窗。
在视觉效果上,Sonnet 4.5采用了简洁的卡片式设计,配合全屏渐变背景,还使用水平进度条展示分类统计,整体风格很适合在移动端阅读。而Opus 4.5则更现代,使用了Dashboard布局,图表是垂直柱状图,还有独立的颜色图例,交互效果丰富,像悬停提示和图标等都很细腻。

类似的情况在其他项目中也很常见,比如分形树生成器里,Opus 4.5还增加了动画选项,可以模拟树木生长的过程,并且提供了多种预设,比如橡树、柳树、松树等,而Sonnet 4.5仅仅完成了基本功能。

如果说这几个案例有什么共同点,那就是Opus 4.5在代码之外,展现了一种对“意图”的深入思考。
Sonnet 4.5就像一个优秀的资深程序员,你告诉它做什么,它就会高效完成,代码干净利落,几乎不多写一行注释。如果任务定义得清晰,它的性价比可是非常高的。
而Opus 4.5更像是一个理解技术的产品经理,它不仅能执行你的指令,还能考虑你完成任务的真实目的。
- 用户想做记账本?那肯定需要保存数据,不然记账有什么意义呢?
- 用户想玩贪吃蛇?那一定希望挑战高分,得有个记录榜来显示才行。
- 用户在规则上遇到瓶颈?我得想想有没有更灵活的解决办法。
真是有意思!
当编程任务碰到模型的极限时,模型本身的意义反而不再那么重要。
就像下面的SWE—bench测试分数,从视觉上看,Opus 4.5的分数比Sonnet 4.5高出三分之一,实际分数仅高了四个百分点,“也不过如此”。
当智能助手变得更聪明时,你会选择哪个?
在底层算法上,Opus 4.5和Sonnet 4.5的差别几乎可以忽略不计。然而,当我们谈到打造一个完整、用户友好的应用时,Opus 4.5那种灵活应变的冗余计算能力,恰恰是人工智能从单纯的“代码生成器”蜕变为“智能合作伙伴”的重要一步。这也是许多AI开发环境如今追求的那种以Agent为主导的编程方式。
对开发者来说,选择哪个模型不再仅仅看代码漏洞有多少,而是看你想要的是一个听话的执行者,还是能主动思考的合作伙伴。谁不想拥有一个越来越聪明的AI助手呢?

Claude Opus 4.5的进化真是让人惊喜,它在解决问题时展现出的创新思维和灵活性,简直像是一个经验丰富的专家,未来可期。
Opus 4.5的表现令人赞叹,尤其是在复杂情况下的推理能力,展示了它在AI领域的突破性进展,未来应用前景广阔。
Claude Opus 4.5的智能化进步真让人印象深刻,尤其是在处理复杂问题时的应变能力,展示了AI的潜力。这样的创新解决方案让人期待它未来的发展。
Opus 4.5的推理能力提升显著,特别是在复杂情况下能找到创新解决方案,显示了AI的巨大潜力。这样的进步让人对未来充满期待。
Claude Opus 4.5的创新解决方案让我大开眼界,尤其是在处理复杂政策时表现出的灵活性,真是颠覆了我对AI的认知。期待未来更多这样的进步。
Claude Opus 4.5在处理复杂情况时展现出的灵活应对能力,确实让人印象深刻,标志着AI技术向前迈出了重要一步。它不仅仅是执行指令,而是提供了创新的解决方案,令人期待未来的应用。
Opus 4.5在航班变更的案例中展现出的创新思维,真是让我对AI的应用有了新的认识,特别是能绕过传统限制找到解决方案。
在编程测试中,Opus 4.5的产品思维让我惊艳,细节处理得非常到位,明显比Sonnet 4.5更具实用性,期待未来的表现。
Claude Opus 4.5的进步非常明显,能够在复杂情况下找到巧妙的解决方案,这种能力让人对AI的未来充满期待。
看到Opus 4.5在处理航空政策时的应变能力,真心佩服它的智能化,这种灵活性为AI的发展指明了方向。
Opus 4.5在编程中的表现让我惊叹,它不仅能生成代码,还能考虑实用性和用户体验,展示了更深层次的产品思维,未来的AI应用真让人期待。