Claude 4 Opus/Sonnet 发布：对行业的深远影响与新视角解析

在太平洋时间22号的早上九点，Anthropic推出了4opus和4sonnet。这两个新产品在编程、推理和AI代理方面有什么新突破？是不是意味着Anthropic准备向Google发起挑战了呢？

这次的4opus能否延续上次3opus震惊四方的辉煌呢？

https://www.anthropic.com/news/claude-4

这次发布会简直太实在了，直接就能用，跟同行的发布会比起来，给人留下了很好的印象。Anthropic现在全力在编程和代理领域发力，只要这两个方向做扎实，未来肯定会有稳固的发展。

从参数来看，Claude 4相比于Claude 3.7的提升并没有那么惊人，反而略低于大家的期望。不过，考虑到Anthropic一贯的“跑分没赢过，体验没输过”的策略，最终的使用效果还得等大家来检验。

现在代理领域竞争相当激烈，微软Build大会上专门讲述代理的故事，而Google I/O也开始推出API（人工宝可梦智能）。尽管Claude 4在编程领域暂时领先，但鉴于其定价不便宜，而Google的资金实力雄厚，Gemini的市场份额可能会有所上涨。

这个月剩下的Grok 3.5（还有DeepSeek）也在憋着，不知道月底前能不能让大家见到这两个新玩意儿。

发布会上，Dario Amodei一开始就轻松地说：“我可不喜欢炒作。”然后就抛出了一个重磅消息：“现在，Claude 4 Opus和Claude 4 Sonnet已经在所有相关平台上线！”

说实话，这场发布会是我今年见过最直接的，开场三分钟就放大招，网页和API立马可用。能与之匹敌的，恐怕只有连发布会都省掉的DeepSeek了。

这次Anthropic发布了Claude 4系列的两个新模型：

Claude 4 Opus：这个模型是最强大、最智能的，专门用于处理复杂推理、顶级编程和AI代理的工作流程。
Claude 4 Sonnet：性能优秀，既有高推理能力，又高效，是Claude 3.7 Sonnet的升级版。

那么，Claude 4究竟带来了哪些颠覆性的更新？未来将如何改变AI代理的格局呢？

亮点总结：Claude 4的核心优势

编程能力全球领先：Claude 4 Opus在SWE-bench上以72.5%的成绩称雄，Terminal-bench得分43.2%，成为“全球最佳编程模型”。Claude 4 Sonnet在SWE-bench上也达到了72.7%的SOTA成绩。

AI代理能力再次突破：

扩展思考与工具使用：模型可以在“扩展思考”模式下使用网页搜索等工具，实现推理与工具的交替，显著提升响应质量。
并行工具执行：可以同时调用多个工具，提高效率。

指令遵循更精准：对复杂指令的理解和执行能力有了显著提升。
记忆力大幅提升：通过开发者授予的本地文件访问权限，模型能够创建和维护“记忆文件”，提取并保存重要信息，实现跨会话的知识积累。
Claude Code全面开放：备受好评的Claude Code（原CLI工具）正式GA，支持GitHub Actions后台任务，并原生集成VS Code和JetBrains IDE，直接在文件中显示编辑建议，实现无缝编程。同时发布Claude Code SDK，帮助开发者构建自己的AI代理。
全新API能力：

代码执行工具：赋予Claude运行代码的能力。
MCP连接器：通过MCP，让Claude能够与现有系统和工具无缝连接。
Files API：简化文档访问和存储，支持构建更强大的记忆功能。
提示词缓存长达1小时：显著降低长对话和代理工作流的成本和延迟。

更负责任的AI：模型“走捷径”、“钻空子”完成任务的行为比Sonnet 3.7减少了65%。Opus 4是Anthropic首个激活ASL-3（AI安全级别3）保护措施的模型，旨在应对潜在的化学、生物、放射性和核武器相关风险。
混合模型，两种模式：提供近乎即时的响应和用于深度推理的“扩展思考”模式。
定价保持不变：Opus 4定价为每百万输入/输出 tokens $15/$75，Sonnet 4则为$3/$15。

多平台可用：Anthropic API、亚马逊Bedrock、谷歌云Vertex AI均已上线。

Claude 4 Opus：编程领域的绝对强者

Dario在发布会上提到：“我们已经有一段时间没有Opus模型了，Opus是我们最强、最智能的模型。”

而这次的Claude 4 Opus，更是将“智能”推向了新的高度，尤其是在编程和复杂问题解决方面。

根据Anthropic官方的数据，Claude 4在编程基准测试中表现优异：

Dario自豪地表示：“许多我们的顶尖工程师都对Opus 4的效率感到惊讶。有一次，我看到Claude写的内部总结文档，差点以为是团队里的某个人写的，这可是我第一次被AI“骗”到。”

合作伙伴们也纷纷表示赞赏：

Cursor：“这是编程领域的SOTA模型，理解复杂代码库上有了重大飞跃。”
Replit：“在跨多文件的复杂变更上，精度和能力都有了巨大的提升。”
Block：“这是第一个在其AI代理‘codename goose’中，能在编辑和调试时提升代码质量，同时保持完整性能和可靠性的模型。”
Rakuten：“通过一项要求严苛的开源重构任务验证了其能力，该任务独立运行了7小时并保持持续性能。”
Cognition：“Opus 4擅长解决其他模型无法应对的复杂挑战，成功处理了先前模型错过的关键操作。”

Mike Krieger补充说：“Opus 4非常擅长理解你的代码库并规划新增功能。从代码迁移到重构，它都极其高效和准确，是你最复杂的代理工作流的绝佳选择。如果你发现其他模型在你的用例上碰壁，我相信Opus 4会给你带来惊喜。”

一个让人印象深刻的例子是Claude 4 Opus在玩《宝可梦》时的表现。据WIRED报道和Anthropic研究员David Hershey透露，Claude 4 Opus能够连续24小时有策略地玩《宝可梦红版》，而之前的Claude 3.7 Sonnet最长只能坚持45分钟。

Opus 4在游戏中展现了出色的长期记忆和规划能力，比如在意识到需要特定能力才能继续前进后，它会花两天的时间提升技能再继续游戏。当获得本地文件访问权限时，Opus 4还会创建和维护“记忆文件”（例如“导航指南”）来记录重要信息，辅助游戏进行。

这种长时间、多步骤、几乎没有即时反馈的推理能力，展现了模型前所未有的连贯性。

Claude 4 Sonnet：性能与效率的完美结合，日常任务的“全能选手”

如果说Opus 4是追求极致性能的“旗舰”，那么Claude 4 Sonnet则可以看作是性能与效率的“甜点级”选择。

Dario表示：“Sonnet是我们熟悉并喜爱的中端模型，智能与效率间取得了良好平衡。”而Claude 4 Sonnet在Sonnet 3.7的行业领先能力基础上再度提升，尤其在编程方面，SWE-bench得分高达72.7%。

你的编程好伙伴：Claude 4 的全面升级

Mike Krieger 形容 Sonnet 4 就像是你身边始终在线的编程小助手，它非常适合日常的编程工作、应用开发，还有结对编程，以及那些需要高效处理大量任务的场景。

他还提到，其实对于很多人来说，Sonnet 4 就是 Sonnet 3.7 的升级版，价格不变，但智慧更高。越来越多的用户正在从旧版本切换到新版本。Dario 也补充说，这款新模型特别针对之前收到的一些反馈进行了改进，解决了过于热情的问题——也就是模型的表现超过了用户的要求，这和之前的懒惰问题形成了鲜明对比。

不少客户对 Sonnet 4 表达了高度的赞赏：

GitHub：认为 Claude Sonnet 4 在 Agentic 场景中表现非常出色，未来会作为 GitHub Copilot 中新的编程代理的基础。
Manus：在处理复杂指令、清晰推理和美观输出上都有显著的进步。
iGent：Sonnet 4 在自主多功能应用开发方面表现优异，解决问题和导航代码库的能力大幅提升，错误率从 20% 降到接近零。
Sourcegraph：这个模型展示了在软件开发领域的巨大潜力，能够更长时间集中注意力，更深入地理解问题，并提供更优质的代码。
Augment Code：更高的成功率、更精准的代码编辑以及在复杂任务中更细致的工作，使其成为我们首选的主要模型。

AI Agent 的全新进化：从“能用”到“好用”，再到“不可或缺”

Mike Krieger 在会上开玩笑说，最近大家总提到“Agent”这个词，Anthropic 内部甚至开玩笑说，看会议多久才会提到这个词，目前的记录是 17 分钟。

不过，玩笑归玩笑，AI Agent 确实是这次发布会的焦点。Claude 4 系列的新能力正在把 AI Agent 从一个概念推进到实用阶段，朝着成为“不可或缺的虚拟伙伴”迈进。

思维扩展与工具使用

Claude 4 的一大亮点就是它能在思考时主动调用外部工具，比如网页搜索，这样可以获取实时信息或执行特定操作，然后将这些信息融合进它的推理链中，提供更全面、更准确的答案。这种“边想边用工具”的能力，让 Claude 不再是一个封闭的信息库，而是一个能与现实世界互动的智能体。

记忆与长期任务执行

就像玩《宝可梦》那样，Claude 4 Opus 在获得访问本地文件的权限后，可以创建和维护“记忆文件”。这种“自我管理记忆”的能力，让它可以记住跨会话的重要信息、上下文，以及用户的偏好，从而在处理长达数小时的复杂任务时保持一致性和专注度。以 Rakuten 的 7 小时代码重构案例为例，Mike Krieger 提到，Claude 3.7 Sonnet 约能持续工作 45 分钟而不掉线，而 Claude 4 的这个时间已经提升到几个小时。

Claude Code：你的全能编程助手

Claude Code 从一个内部实验（最初名为 Claude CLI）迅速演变成 Anthropic 内部工程师的日常工具，并在此次发布会上正式推出。

IDE 集成：VS Code 和 JetBrains 的用户可以直接在编辑器中看到 Claude Code 提出的修改建议，从而获得更流畅的开发体验。
Claude Code SDK：允许开发者将 Claude Code 的核心能力集成到自己的应用和工作流中。
GitHub 集成：通过 SDK 实现，开发者可以在 GitHub 的 PR 或 Issue 中 @Claude Code，让它响应审查反馈、修复 CI 错误或修改代码，仿佛多了一个虚拟团队成员。

Cat Wu 在现场演示了 Claude Code 如何为开源白板工具 Excalidraw 实现一个积压已久的功能请求——添加表格组件。Claude Code 在 90 分钟内完成了这个任务，包括理解需求、探索代码库、编写代码、编写测试并迭代修复，最终成功提交了一个包含完整功能的 PR。

API 四大更新：为 Agent 提供更强大支持

为了帮助开发者构建更强大的 AI Agent，Anthropic API 新增了四项关键能力：

代码执行工具 (Code Execution Tool)：让 Claude 不仅能写代码，还能运行代码，进行数据分析和可视化等。
MCP 连接器 (MCP Connector)：通过 API 直接利用模型上下文协议，使 Claude 能轻松调用外部工具和服务。Mike Krieger 提到，MCP 已获得微软、谷歌、OpenAI 等行业巨头以及 Zapier、Linear 等工具的认可。
Files API：简化了开发者与 Claude 共享和存储文档的方式，这对实现长期记忆和上下文管理至关重要。Anthropic 还提供了 Cookbook，指导开发者如何利用 Files API 构建记忆功能。
提示缓存 1 小时 (1-hour Prompt Caching)：针对需要大量上下文或长对话的 Agent 应用，之前的 5 分钟缓存可能不够。新的 1 小时缓存选项（付费）能将成本降低高达 90%，延迟降低高达 85%，让长时程 Agent 应用在经济上更可行。

这些 API 能力是相辅相成的：“Claude 现在不仅可以执行代码，还能理解你的系统，访问当前信息，为在完整上下文中操作的 Agent 打下基础，即使是长时间运行的任务。同时，它也能利用 Files API 在整个执行过程中维持记忆和上下文。”

安全优先：ASL-3 保障下的 Opus 4

作为一家以安全为核心使命的公司，Anthropic 在推出更强大的模型的同时，也提升了安全措施。

Claude 4 Opus 是首个在AI 安全级别 3 (ASL-3)标准下部署的模型。这个决定是出于预防，虽然尚不确定 Opus 4 是否完全达到了触发 ASL-3 保护的“能力阈值”，但考虑到模型在 CBRN（化学、生物、放射性和核）相关知识和能力的持续进步，Anthropic 认为已经无法像之前那样明确排除 ASL-3 风险。

ASL-3 标准包括：

强化内部安全措施：让模型权重更难被窃取。
特定的部署措施：旨在限制模型被滥用于开发或获取 CBRN 武器的风险。这包括“宪法分类器”（Constitutional Classifiers），实时监控模型输入输出，以阻止特定类型的有害 CBRN 信息。
防止通用越狱：限制那些能系统性绕过保护措施，提取大量 CBRN 相关信息的攻击。
出口带宽控制初步实施：限制数据从安全计算环境流出的速率，利用模型权重文件较大的特点，使窃取变得更加困难。

Anthropic 首席科学家 Jared Kaplan 向《时代》杂志透露，内部测试显示 Claude 4 Opus 在指导新手制造生物武器方面比以往模型更有效。“我们的模型表明，合成像 COVID 或更危险流感病毒这样的东西可能变得可行。”因此，尽管不确定 Opus 4 是否绝对构成严重生物武器风险，但公司选择了“谨慎行事”。

Dario Amodei 在发布会后的炉边谈话中也重申了对“负责任扩展（Responsible Scaling）”的承诺，认为安全与能力可以协同发展，形成“竞相向上（Race to the Top）”的良性循环。

AI Agent 将如何改变未来？

在与 Mike Krieger 的炉边谈话中，Dario Amodei 对 AI 的未来充满期待：

一年内：编程领域将迎来巨大的变革，AI Agent 将能管理“Agent 舰队”。软件生产的成本将大幅下降，为特定事件或个人定制软件将变得极其便宜和快速。
五年内：生物医药领域可能会取得重大突破，许多现有疾病有望被攻克。
给开发者的建议：“大胆一些（Be ambitious）！构建一些你认为超出当前可能性的东西。即使现在还不行，下一个模型版本可能很快就会让它成为现实。”他开玩笑地说，模型的迭代周期可能会从现在的 3 个月缩短到 2 个月，甚至 1 个月。

Mike Krieger 也分享了他对 AI Agent 的愿景：这些智能体应该具备上下文智能（理解你和组织的独特背景并持续学习）、长时程执行能力（处理复杂多步任务无需持续管理）和真正的协作能力（进行有意义的对话，适应你的工作风格，并提供透明的推理）。

他总结道：“未来不是 AI 取代人类的工作，而是 AI 帮助人类完成超乎想象的工作。”

从全球顶尖的编程能力，到日益成熟的 AI Agent 框架，此次 Claude 4 系列的发布，无疑是 Anthropic 在通往更强大、更实用、更负责任的 AI 道路上迈出的坚实一步。

各位开发者，准备好迎接 Claude 4 带来的生产力革命了吗？

标题：准备好迎接Claude 4的到来了吗？

最近，Anthropic发布了Claude 4系列，这对提升人工智能的实力、实用性和责任感来说，无疑是一个重要的进展。你有没有感觉到，随着编程能力和AI Agent框架的不断成熟，整个行业正在进入一个崭新的时代？各位开发者，你们是不是也在为Claude 4可能带来的生产力变革而感到兴奋呢？

来源：知乎

原文标题：如何看待 Anthropic 发布的 Claude 4 Opus/Sonnet？对行业有什么影响？ – 段小草的回答

原文链接：https://www.zhihu.com/question/1908930156669691558/answer/1909073895920767941

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！