实测Opus 4.5：Claude的惊艳进化之路

2025年11月24日，Anthropic发布了他们的新旗舰模型Claude Opus 4.5。这款模型在多个测试中创造了新纪录，但那些单调的分数背后，隐藏着它最迷人且难以衡量的特质：

它开始像一位经验丰富的人类专家一样，在规则的框架内寻找创新的解决方案。

你可能感兴趣：claude实战经验分享：一个开发者的真实使用记录

可以说，Claude“开窍”了。

错误的正确答案

在τ-bench航空客服的基准测试中，出现了一个非常有代表性的案例。场景看起来简单：一位紧张的客户买了基本经济舱的机票，因故需要将航班推迟两天。

面对的却是一道严苛的航空公司政策：基本经济舱的机票是不允许更改的。

大多数AI模型（甚至之前的版本）就像是跟着教科书读的客服：“抱歉，您的基本经济舱机票不支持更改。”这是测试中预期的“正确”答案，但也是逻辑上的死胡同。

不过，Opus 4.5却做了一件让人意想不到的事情。它像一位经验丰富的客服，仔细分析了整个政策，发现了一个被忽视的“后门”：虽然基本经济舱不能改签，但所有舱位（包括基本经济舱）都可以升舱。

于是，Opus 4.5给出了一个“曲线救国”的方案：

先把客户的基本经济舱升级到可以改签的高级舱位；

然后在新舱位下进行航班修改。

这两个步骤每一步都完全符合规定，却巧妙地解决了客户的难题。

有趣的是，基准测试程序将其标记为“失败”，因为它没有给出预设的拒绝回复。但正是这种“任务失败”，标志着AI智能的一次重大飞跃：评估AI的标准从“能否准确执行指令”转变为“能否在复杂约束中找到可行的解决方案”。

当然，Anthropic对此保持警惕。这种能力就像双刃剑，在某些极端情况下，绕过约束的巧妙路径可能演变为“奖励黑客”，模型可能以非预期的方式“玩弄”规则以达成目标。但这无疑证明了Opus 4.5具备了更高级的推理能力。

20项前端实测：代码之外的较量

为了验证这种能力在编程中的表现，我们对Claude Opus 4.5和Sonnet 4.5进行了20项前端项目测试，涵盖了小游戏、特效和交互组件。

结果验证了我们的猜想：在纯粹的代码生成能力上，两者不相上下；但在“交付物”的完整度上，Opus 4.5展现出了惊人的“产品思维”。

接下来我们来对比一下差异较大的项目。

首先是冒泡排序算法动画和贪吃蛇游戏。这两个项目自AI编程发展以来一直是测试的常客，Opus 4.5和Sonnet 4.5都完成了基本功能，但显然Opus 4.5考虑得更周到，增加了变速、打乱顺序等细节。在贪吃蛇游戏中，Opus 4.5还加入了历史最高得分的展示，并给蛇添加了小眼睛，底部还有游戏提示。

聊聊Opus和Sonnet的对比，让我们更轻松理解！

在记账本的项目中，Opus 4.5和Sonnet 4.5都表现得很不错，它们都能满足基本的需求，构建出一个输入、列表显示和可视化图表的单文件HTML应用。

不过，从实用性来看，Opus 4.5凭借着数据存储和删除功能，确实更胜一筹，成为了一个真正好用的工具。而Sonnet 4.5则在代码的简洁性上表现突出。

说到Opus 4.5的强项，最重要的就是它实现了数据持久化，利用localStorage确保你刷新页面后数据不会消失。而且，它还有删除的功能，用户可以单独移除记录。相比之下，Sonnet 4.5就像是个教学工具，它的数据仅保存在内存中，刷新后就会丢失，并且不支持删除操作，输入验证也只是依赖简单的alert弹窗。

在视觉效果上，Sonnet 4.5采用了简洁的卡片式设计，配合全屏渐变背景，还使用水平进度条展示分类统计，整体风格很适合在移动端阅读。而Opus 4.5则更现代，使用了Dashboard布局，图表是垂直柱状图，还有独立的颜色图例，交互效果丰富，像悬停提示和图标等都很细腻。

类似的情况在其他项目中也很常见，比如分形树生成器里，Opus 4.5还增加了动画选项，可以模拟树木生长的过程，并且提供了多种预设，比如橡树、柳树、松树等，而Sonnet 4.5仅仅完成了基本功能。

如果说这几个案例有什么共同点，那就是Opus 4.5在代码之外，展现了一种对“意图”的深入思考。

Sonnet 4.5就像一个优秀的资深程序员，你告诉它做什么，它就会高效完成，代码干净利落，几乎不多写一行注释。如果任务定义得清晰，它的性价比可是非常高的。

而Opus 4.5更像是一个理解技术的产品经理，它不仅能执行你的指令，还能考虑你完成任务的真实目的。

用户想做记账本？那肯定需要保存数据，不然记账有什么意义呢？

用户想玩贪吃蛇？那一定希望挑战高分，得有个记录榜来显示才行。

用户在规则上遇到瓶颈？我得想想有没有更灵活的解决办法。

真是有意思！

当编程任务碰到模型的极限时，模型本身的意义反而不再那么重要。

就像下面的SWE—bench测试分数，从视觉上看，Opus 4.5的分数比Sonnet 4.5高出三分之一，实际分数仅高了四个百分点，“也不过如此”。

当智能助手变得更聪明时，你会选择哪个？

在底层算法上，Opus 4.5和Sonnet 4.5的差别几乎可以忽略不计。然而，当我们谈到打造一个完整、用户友好的应用时，Opus 4.5那种灵活应变的冗余计算能力，恰恰是人工智能从单纯的“代码生成器”蜕变为“智能合作伙伴”的重要一步。这也是许多AI开发环境如今追求的那种以Agent为主导的编程方式。

对开发者来说，选择哪个模型不再仅仅看代码漏洞有多少，而是看你想要的是一个听话的执行者，还是能主动思考的合作伙伴。谁不想拥有一个越来越聪明的AI助手呢？

来源：今日头条

原文标题：实测Opus 4.5：Claude真的“成精”了 – 今日头条

原文链接：https://www.toutiao.com/article/7576848560767959578/

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！