在太平洋时间22号的早上九点,Anthropic推出了4opus和4sonnet。这两个新产品在编程、推理和AI代理方面有什么新突破?是不是意味着Anthropic准备向Google发起挑战了呢?
这次的4opus能否延续上次3opus震惊四方的辉煌呢?
https://www.anthropic.com/news/claude-4
这次发布会简直太实在了,直接就能用,跟同行的发布会比起来,给人留下了很好的印象。Anthropic现在全力在编程和代理领域发力,只要这两个方向做扎实,未来肯定会有稳固的发展。
从参数来看,Claude 4相比于Claude 3.7的提升并没有那么惊人,反而略低于大家的期望。不过,考虑到Anthropic一贯的“跑分没赢过,体验没输过”的策略,最终的使用效果还得等大家来检验。
现在代理领域竞争相当激烈,微软Build大会上专门讲述代理的故事,而Google I/O也开始推出API(人工宝可梦智能)。尽管Claude 4在编程领域暂时领先,但鉴于其定价不便宜,而Google的资金实力雄厚,Gemini的市场份额可能会有所上涨。
这个月剩下的Grok 3.5(还有DeepSeek)也在憋着,不知道月底前能不能让大家见到这两个新玩意儿。
发布会上,Dario Amodei一开始就轻松地说:“我可不喜欢炒作。”然后就抛出了一个重磅消息:“现在,Claude 4 Opus和Claude 4 Sonnet已经在所有相关平台上线!”
说实话,这场发布会是我今年见过最直接的,开场三分钟就放大招,网页和API立马可用。能与之匹敌的,恐怕只有连发布会都省掉的DeepSeek了。

这次Anthropic发布了Claude 4系列的两个新模型:
- Claude 4 Opus:这个模型是最强大、最智能的,专门用于处理复杂推理、顶级编程和AI代理的工作流程。
- Claude 4 Sonnet:性能优秀,既有高推理能力,又高效,是Claude 3.7 Sonnet的升级版。
那么,Claude 4究竟带来了哪些颠覆性的更新?未来将如何改变AI代理的格局呢?
亮点总结:Claude 4的核心优势
- 编程能力全球领先:Claude 4 Opus在SWE-bench上以72.5%的成绩称雄,Terminal-bench得分43.2%,成为“全球最佳编程模型”。Claude 4 Sonnet在SWE-bench上也达到了72.7%的SOTA成绩。

- AI代理能力再次突破:
- 扩展思考与工具使用:模型可以在“扩展思考”模式下使用网页搜索等工具,实现推理与工具的交替,显著提升响应质量。
- 并行工具执行:可以同时调用多个工具,提高效率。
- 指令遵循更精准:对复杂指令的理解和执行能力有了显著提升。
- 记忆力大幅提升:通过开发者授予的本地文件访问权限,模型能够创建和维护“记忆文件”,提取并保存重要信息,实现跨会话的知识积累。
- Claude Code全面开放:备受好评的Claude Code(原CLI工具)正式GA,支持GitHub Actions后台任务,并原生集成VS Code和JetBrains IDE,直接在文件中显示编辑建议,实现无缝编程。同时发布Claude Code SDK,帮助开发者构建自己的AI代理。
- 全新API能力:
- 代码执行工具:赋予Claude运行代码的能力。
- MCP连接器:通过MCP,让Claude能够与现有系统和工具无缝连接。
- Files API:简化文档访问和存储,支持构建更强大的记忆功能。
- 提示词缓存长达1小时:显著降低长对话和代理工作流的成本和延迟。
- 更负责任的AI:模型“走捷径”、“钻空子”完成任务的行为比Sonnet 3.7减少了65%。Opus 4是Anthropic首个激活ASL-3(AI安全级别3)保护措施的模型,旨在应对潜在的化学、生物、放射性和核武器相关风险。
- 混合模型,两种模式:提供近乎即时的响应和用于深度推理的“扩展思考”模式。
- 定价保持不变:Opus 4定价为每百万输入/输出 tokens $15/$75,Sonnet 4则为$3/$15。

- 多平台可用:Anthropic API、亚马逊Bedrock、谷歌云Vertex AI均已上线。
Claude 4 Opus:编程领域的绝对强者
Dario在发布会上提到:“我们已经有一段时间没有Opus模型了,Opus是我们最强、最智能的模型。”
而这次的Claude 4 Opus,更是将“智能”推向了新的高度,尤其是在编程和复杂问题解决方面。
根据Anthropic官方的数据,Claude 4在编程基准测试中表现优异:

Dario自豪地表示:“许多我们的顶尖工程师都对Opus 4的效率感到惊讶。有一次,我看到Claude写的内部总结文档,差点以为是团队里的某个人写的,这可是我第一次被AI“骗”到。”
合作伙伴们也纷纷表示赞赏:
- Cursor:“这是编程领域的SOTA模型,理解复杂代码库上有了重大飞跃。”
- Replit:“在跨多文件的复杂变更上,精度和能力都有了巨大的提升。”
- Block:“这是第一个在其AI代理‘codename goose’中,能在编辑和调试时提升代码质量,同时保持完整性能和可靠性的模型。”
- Rakuten:“通过一项要求严苛的开源重构任务验证了其能力,该任务独立运行了7小时并保持持续性能。”
- Cognition:“Opus 4擅长解决其他模型无法应对的复杂挑战,成功处理了先前模型错过的关键操作。”
Mike Krieger补充说:“Opus 4非常擅长理解你的代码库并规划新增功能。从代码迁移到重构,它都极其高效和准确,是你最复杂的代理工作流的绝佳选择。如果你发现其他模型在你的用例上碰壁,我相信Opus 4会给你带来惊喜。”
一个让人印象深刻的例子是Claude 4 Opus在玩《宝可梦》时的表现。据WIRED报道和Anthropic研究员David Hershey透露,Claude 4 Opus能够连续24小时有策略地玩《宝可梦红版》,而之前的Claude 3.7 Sonnet最长只能坚持45分钟。
Opus 4在游戏中展现了出色的长期记忆和规划能力,比如在意识到需要特定能力才能继续前进后,它会花两天的时间提升技能再继续游戏。当获得本地文件访问权限时,Opus 4还会创建和维护“记忆文件”(例如“导航指南”)来记录重要信息,辅助游戏进行。

这种长时间、多步骤、几乎没有即时反馈的推理能力,展现了模型前所未有的连贯性。
Claude 4 Sonnet:性能与效率的完美结合,日常任务的“全能选手”
如果说Opus 4是追求极致性能的“旗舰”,那么Claude 4 Sonnet则可以看作是性能与效率的“甜点级”选择。
Dario表示:“Sonnet是我们熟悉并喜爱的中端模型,智能与效率间取得了良好平衡。”而Claude 4 Sonnet在Sonnet 3.7的行业领先能力基础上再度提升,尤其在编程方面,SWE-bench得分高达72.7%。
你的编程好伙伴:Claude 4 的全面升级
Mike Krieger 形容 Sonnet 4 就像是你身边始终在线的编程小助手,它非常适合日常的编程工作、应用开发,还有结对编程,以及那些需要高效处理大量任务的场景。
他还提到,其实对于很多人来说,Sonnet 4 就是 Sonnet 3.7 的升级版,价格不变,但智慧更高。越来越多的用户正在从旧版本切换到新版本。Dario 也补充说,这款新模型特别针对之前收到的一些反馈进行了改进,解决了过于热情的问题——也就是模型的表现超过了用户的要求,这和之前的懒惰问题形成了鲜明对比。
不少客户对 Sonnet 4 表达了高度的赞赏:
- GitHub:认为 Claude Sonnet 4 在 Agentic 场景中表现非常出色,未来会作为 GitHub Copilot 中新的编程代理的基础。
- Manus:在处理复杂指令、清晰推理和美观输出上都有显著的进步。
- iGent:Sonnet 4 在自主多功能应用开发方面表现优异,解决问题和导航代码库的能力大幅提升,错误率从 20% 降到接近零。
- Sourcegraph:这个模型展示了在软件开发领域的巨大潜力,能够更长时间集中注意力,更深入地理解问题,并提供更优质的代码。
- Augment Code:更高的成功率、更精准的代码编辑以及在复杂任务中更细致的工作,使其成为我们首选的主要模型。
AI Agent 的全新进化:从“能用”到“好用”,再到“不可或缺”
Mike Krieger 在会上开玩笑说,最近大家总提到“Agent”这个词,Anthropic 内部甚至开玩笑说,看会议多久才会提到这个词,目前的记录是 17 分钟。
不过,玩笑归玩笑,AI Agent 确实是这次发布会的焦点。Claude 4 系列的新能力正在把 AI Agent 从一个概念推进到实用阶段,朝着成为“不可或缺的虚拟伙伴”迈进。
思维扩展与工具使用
Claude 4 的一大亮点就是它能在思考时主动调用外部工具,比如网页搜索,这样可以获取实时信息或执行特定操作,然后将这些信息融合进它的推理链中,提供更全面、更准确的答案。这种“边想边用工具”的能力,让 Claude 不再是一个封闭的信息库,而是一个能与现实世界互动的智能体。
记忆与长期任务执行
就像玩《宝可梦》那样,Claude 4 Opus 在获得访问本地文件的权限后,可以创建和维护“记忆文件”。这种“自我管理记忆”的能力,让它可以记住跨会话的重要信息、上下文,以及用户的偏好,从而在处理长达数小时的复杂任务时保持一致性和专注度。以 Rakuten 的 7 小时代码重构案例为例,Mike Krieger 提到,Claude 3.7 Sonnet 约能持续工作 45 分钟而不掉线,而 Claude 4 的这个时间已经提升到几个小时。
Claude Code:你的全能编程助手
Claude Code 从一个内部实验(最初名为 Claude CLI)迅速演变成 Anthropic 内部工程师的日常工具,并在此次发布会上正式推出。
- IDE 集成:VS Code 和 JetBrains 的用户可以直接在编辑器中看到 Claude Code 提出的修改建议,从而获得更流畅的开发体验。
- Claude Code SDK:允许开发者将 Claude Code 的核心能力集成到自己的应用和工作流中。
- GitHub 集成:通过 SDK 实现,开发者可以在 GitHub 的 PR 或 Issue 中 @Claude Code,让它响应审查反馈、修复 CI 错误或修改代码,仿佛多了一个虚拟团队成员。

Cat Wu 在现场演示了 Claude Code 如何为开源白板工具 Excalidraw 实现一个积压已久的功能请求——添加表格组件。Claude Code 在 90 分钟内完成了这个任务,包括理解需求、探索代码库、编写代码、编写测试并迭代修复,最终成功提交了一个包含完整功能的 PR。
API 四大更新:为 Agent 提供更强大支持
为了帮助开发者构建更强大的 AI Agent,Anthropic API 新增了四项关键能力:
- 代码执行工具 (Code Execution Tool):让 Claude 不仅能写代码,还能运行代码,进行数据分析和可视化等。
- MCP 连接器 (MCP Connector):通过 API 直接利用模型上下文协议,使 Claude 能轻松调用外部工具和服务。Mike Krieger 提到,MCP 已获得微软、谷歌、OpenAI 等行业巨头以及 Zapier、Linear 等工具的认可。
- Files API:简化了开发者与 Claude 共享和存储文档的方式,这对实现长期记忆和上下文管理至关重要。Anthropic 还提供了 Cookbook,指导开发者如何利用 Files API 构建记忆功能。
- 提示缓存 1 小时 (1-hour Prompt Caching):针对需要大量上下文或长对话的 Agent 应用,之前的 5 分钟缓存可能不够。新的 1 小时缓存选项(付费)能将成本降低高达 90%,延迟降低高达 85%,让长时程 Agent 应用在经济上更可行。
这些 API 能力是相辅相成的:“Claude 现在不仅可以执行代码,还能理解你的系统,访问当前信息,为在完整上下文中操作的 Agent 打下基础,即使是长时间运行的任务。同时,它也能利用 Files API 在整个执行过程中维持记忆和上下文。”
安全优先:ASL-3 保障下的 Opus 4
作为一家以安全为核心使命的公司,Anthropic 在推出更强大的模型的同时,也提升了安全措施。
Claude 4 Opus 是首个在AI 安全级别 3 (ASL-3)标准下部署的模型。这个决定是出于预防,虽然尚不确定 Opus 4 是否完全达到了触发 ASL-3 保护的“能力阈值”,但考虑到模型在 CBRN(化学、生物、放射性和核)相关知识和能力的持续进步,Anthropic 认为已经无法像之前那样明确排除 ASL-3 风险。
ASL-3 标准包括:
- 强化内部安全措施:让模型权重更难被窃取。
- 特定的部署措施:旨在限制模型被滥用于开发或获取 CBRN 武器的风险。这包括“宪法分类器”(Constitutional Classifiers),实时监控模型输入输出,以阻止特定类型的有害 CBRN 信息。
- 防止通用越狱:限制那些能系统性绕过保护措施,提取大量 CBRN 相关信息的攻击。
- 出口带宽控制初步实施:限制数据从安全计算环境流出的速率,利用模型权重文件较大的特点,使窃取变得更加困难。
Anthropic 首席科学家 Jared Kaplan 向《时代》杂志透露,内部测试显示 Claude 4 Opus 在指导新手制造生物武器方面比以往模型更有效。“我们的模型表明,合成像 COVID 或更危险流感病毒这样的东西可能变得可行。”因此,尽管不确定 Opus 4 是否绝对构成严重生物武器风险,但公司选择了“谨慎行事”。
Dario Amodei 在发布会后的炉边谈话中也重申了对“负责任扩展(Responsible Scaling)”的承诺,认为安全与能力可以协同发展,形成“竞相向上(Race to the Top)”的良性循环。
AI Agent 将如何改变未来?
在与 Mike Krieger 的炉边谈话中,Dario Amodei 对 AI 的未来充满期待:
- 一年内:编程领域将迎来巨大的变革,AI Agent 将能管理“Agent 舰队”。软件生产的成本将大幅下降,为特定事件或个人定制软件将变得极其便宜和快速。
- 五年内:生物医药领域可能会取得重大突破,许多现有疾病有望被攻克。
- 给开发者的建议:“大胆一些(Be ambitious)!构建一些你认为超出当前可能性的东西。即使现在还不行,下一个模型版本可能很快就会让它成为现实。”他开玩笑地说,模型的迭代周期可能会从现在的 3 个月缩短到 2 个月,甚至 1 个月。

Mike Krieger 也分享了他对 AI Agent 的愿景:这些智能体应该具备上下文智能(理解你和组织的独特背景并持续学习)、长时程执行能力(处理复杂多步任务无需持续管理)和真正的协作能力(进行有意义的对话,适应你的工作风格,并提供透明的推理)。
他总结道:“未来不是 AI 取代人类的工作,而是 AI 帮助人类完成超乎想象的工作。”
从全球顶尖的编程能力,到日益成熟的 AI Agent 框架,此次 Claude 4 系列的发布,无疑是 Anthropic 在通往更强大、更实用、更负责任的 AI 道路上迈出的坚实一步。
各位开发者,准备好迎接 Claude 4 带来的生产力革命了吗?
标题:准备好迎接Claude 4的到来了吗?
最近,Anthropic发布了Claude 4系列,这对提升人工智能的实力、实用性和责任感来说,无疑是一个重要的进展。你有没有感觉到,随着编程能力和AI Agent框架的不断成熟,整个行业正在进入一个崭新的时代?各位开发者,你们是不是也在为Claude 4可能带来的生产力变革而感到兴奋呢?

Claude 4的发布真是振奋人心,尤其是在编程和AI代理方面的突破,期待它能在竞争中脱颖而出。虽然参数提升不如预期,但实际使用效果值得关注。
Claude 4系列的发布让人感受到Anthropic的决心,尤其是在推理和编程能力上,确实值得期待。虽然参数表现一般,但实际使用效果可能会超出我们的预期。
Claude 4的发布会真是让人眼前一亮,尤其是它在编程和推理方面的强大能力,给行业带来了新的希望。
这次发布的Claude 4系列在AI代理领域的突破确实令人关注,特别是对复杂指令的理解和执行能力的提升,期待实际使用效果。
Claude 4系列的推出让人对编程和AI代理的未来充满期待,尤其是其在推理能力上的突破,可能会改变游戏规则。希望能看到更多实际应用案例。
Claude 4 Opus在编程能力上的领先实在令人惊讶,特别是它在SWE-bench上的表现,让人对未来充满期待。
发布会的直接性给我留下了深刻印象,Dario Amodei的幽默风格也让整个发布过程更轻松。
尽管Claude 4的参数提升不如预期,但它在AI代理领域的突破确实让人感到兴奋,期待后续的使用反馈。
Anthropic对AI代理的重视让人觉得行业竞争更加激烈,希望Claude 4能在实际应用中展现出它的优势。
Claude 4 Opus在复杂推理和编程方面的表现确实令人刮目相看,期待它能在实际应用中打破当前的竞争格局。