在5月22日这个特别的日子,Anthropic举办了首次开发者大会,隆重推出了它们的最新一代Claude模型系列:Claude Opus 4和Claude Sonnet 4。公司自豪地宣称,Claude Opus 4是“全球最佳的编程模型”,在编程、高级推理和AI智能体方面设立了全新的标杆,专门针对那些复杂且需要长时间运行的任务以及智能体的工作流程。而Claude Sonnet 4则是对Claude Sonnet 3.7的重大升级,提升了编程和推理的能力,进步显著。
Anthropic表示,Claude Opus 4是他们迄今为止最为强大的模型,特别是在编码方面表现尤为出色。根据他们的数据显示,Opus 4在SWE-bench(一个用来评估真实软件工程任务的基准测试)上的准确率达到了72.5%(并行测试时可达到79.4%),而在Terminal-bench(测评AI模型在终端环境执行编码能力的基准)中的表现则为43.2%(并行测试时可达50.0%)。这些数据都超越了Gemini 2.5 Pro等其他竞争对手的模型。此外,Claude Sonnet 4的表现也不遑多让,在SWE-bench的准确率为72.7%(并行测试时可达80.2%),在某些特定的设置下,甚至略微超过了Opus 4。
图丨基准测试结果(
一些早期的测试用户在社交媒体上分享了他们的使用体验,进一步证明了Claude 4的强大。
例如,著名的AI博主Ethan Mollick用一句简单的提示:“the book Piranesi as a p5js 3d space. do it for me”(把《皮拉内西》这本书转化为一个p5.js的3D空间,帮我实现),Claude 4便成功生成了一个令人惊艳的3D空间演示,里面有鸟、水和光影效果,看上去相当不错。
还有用户仅用一次提示,就成功生成了一个复杂的双摆模拟系统,效果十分出色。
另一位知名博主Peter Yang也获得了早期的使用权限,他总结道:“1. 在写作和编辑方面,它依然是同类中的佼佼者。2. 它的编码能力和Gemini 2.5不相上下。”他还展示了Claude 4一次性就构建了一个完整的俄罗斯方块游戏。
图丨相关推文(
Claude 4:AI智能体的升级版,记忆和推理能力大提升
说到Claude新一代模型,除了它的编码实力,推理和AI智能体的能力也是大大增强了。Anthropic最近推出了一个名为“工具使用下的扩展思考”的测试功能。这就意味着,它现在可以在推理时灵活使用工具,比如在线搜索,确保Claude在思考时能够更全面,从而提升回答的质量。
而且,这个新模型还具备同时使用多种工具的能力,能更有效地理解和执行指令。当开发者允许它访问本地文件时,Claude的记忆力也有了明显的提升,能够提炼并存储重要信息,从而保持思维的连续性并逐步构建隐性知识。
有趣的是,Anthropic特别指出,新模型在完成任务时,减少了依赖“捷径”或利用“漏洞”的情况。相比于Sonnet 3.7,Opus 4和Sonnet 4在易受影响的任务中,这种行为的发生概率下降了65%。
图丨Claude 4 Sonnet 让Sonnet 3.7的冗长和过分追求功能的问题得到了改善(
Claude 4系列的记忆能力提升也是一个亮点。Anthropic的首席产品官Mike Krieger在WIRED的采访中提到,Claude Opus 4可以“在《宝可梦》这个游戏里以智能体方式持续工作长达24小时”,而之前的模型最多只能玩45分钟。为此,Anthropic甚至举办了一场“Twitch直播”,展示Claude 3.7 Sonnet在《宝可梦》中的表现。
图丨Opus 4在玩宝可梦时所做的真实笔记(
更进一步的是,Claude 4 Opus在游戏中处理复杂任务时,研究人员发现其长期记忆和规划能力得到了显著提升。比如,当AI意识到需要某种特定技能才能继续前进时,它会花上两天的时间来提升自己,然后再继续游戏。这种多步骤的推理能力,以及不依赖即时反馈的特点,展现了模型在保持任务连贯性和追踪目标上的进步。
Anthropic的研究员David Hershey对这项研究的目标进行了说明,主要是探索Claude如何作为智能体独立完成复杂任务。当开发者构建能够让Claude访问本地文件的应用程序时,Opus 4能够有效创建和管理“记忆文件”,存储关键信息。这使得它在长期任务的感知、连贯性以及智能体任务表现上有了显著提升,就像Opus 4在玩《宝可梦》时所制作的“导航指南”一样。这种能力对于需要长时间保持上下文的AI智能体至关重要,无论是自动化数小时的工作流,还是进行大规模代码重构。Krieger还提到,一位早期客户(日本乐天)曾让模型连续工作7小时,成功完成了一项大型代码重构的任务。
说到定价,Claude 4模型和之前的版本可谓如出一辙。具体来说,Opus 4的输入费用是每百万个token 15美元,而输出则是每百万个token 75美元;至于Sonnet 4,输入只需每百万个token 3美元,输出则为每百万个token 15美元。两款模型都附带一个扩展思考模式的开关,Sonnet 4会继续免费提供给用户,而Opus 4则得通过付费订阅才能使用。
除了新模型,Anthropic还宣布,Claude Code(最早在今年2月推出)经过几个月的测试后,现在可以广泛使用了。Claude Code的目标是将Claude的强大功能更好地融入开发者的日常工作中,不论是在终端、用户喜欢的IDE,还是通过Claude Code SDK在后台运行。最新的VS Code和JetBrains的beta版扩展,可以让Claude Code无缝集成到IDE中,Claude提供的编辑建议会直接在文件中显示,简化了审查和跟踪的流程。
此外,Anthropic还推出了一个可扩展的Claude Code SDK,开发者可以利用这个SDK,采用与Claude Code相同的核心智能体来构建自己的智能体和应用程序。
同时,Anthropic API也增加了四项新功能,这些更新旨在帮助开发者打造更强大的AI智能体,包括代码执行工具、MCP连接器、Files API,以及能够将提示缓存长达一小时的能力。
Anthropic自信地表示,“这些模型代表了向虚拟协作者迈出的重要一步,能够保持完整的上下文,专注于更长时间的项目,并推动变革。”回头看看,最近谷歌、OpenAI和Anthropic等AI行业巨头发布的成果,无不朝着这个方向努力。

Claude 4系列模型的发布真是个激动人心的消息,尤其在编码和推理方面的表现都这么出色,期待能在实际应用中看到更多突破!
Claude 4的能力提升令人印象深刻,尤其在复杂任务的处理上,期待它能为开发者提供更多便利和创意支持。
Claude Opus 4的编码能力真是让人惊艳,尤其在长时间任务处理上的表现,未来一定会改变开发者的工作方式。
Claude 4系列的推出让我对未来的编程充满期待,特别是它在编码和推理方面的显著提升,真希望能尽快体验一下它的强大功能。
Claude 4系列的升级让我感到惊喜,特别是它在推理和工具使用上的新功能,能够提升思考的全面性,期待它在实际项目中的表现。
Claude 4系列模型的强大表现让我对未来的AI编程充满期待,特别是在长时间任务和复杂推理上的优势,真希望能尽快试用。
Claude 4的推理能力和工具使用功能让我觉得很有前景,尤其是在复杂任务中的应用,期待开发者们的实践反馈。
Claude 4的表现超出预期,尤其在编码和推理方面的提升,让我对AI编程的未来充满期待,真希望能早日体验。