Claude 4系列模型震撼发布，宣称为“全球最佳”AI编程引擎！

在5月22日这个特别的日子，Anthropic举办了首次开发者大会，隆重推出了它们的最新一代Claude模型系列：Claude Opus 4和Claude Sonnet 4。公司自豪地宣称，Claude Opus 4是“全球最佳的编程模型”，在编程、高级推理和AI智能体方面设立了全新的标杆，专门针对那些复杂且需要长时间运行的任务以及智能体的工作流程。而Claude Sonnet 4则是对Claude Sonnet 3.7的重大升级，提升了编程和推理的能力，进步显著。

Anthropic表示，Claude Opus 4是他们迄今为止最为强大的模型，特别是在编码方面表现尤为出色。根据他们的数据显示，Opus 4在SWE-bench（一个用来评估真实软件工程任务的基准测试）上的准确率达到了72.5%（并行测试时可达到79.4%），而在Terminal-bench（测评AI模型在终端环境执行编码能力的基准）中的表现则为43.2%（并行测试时可达50.0%）。这些数据都超越了Gemini 2.5 Pro等其他竞争对手的模型。此外，Claude Sonnet 4的表现也不遑多让，在SWE-bench的准确率为72.7%（并行测试时可达80.2%），在某些特定的设置下，甚至略微超过了Opus 4。

你可能感兴趣：从抵触到真香：一个老程序员的AI编程之路

一些早期的测试用户在社交媒体上分享了他们的使用体验，进一步证明了Claude 4的强大。

例如，著名的AI博主Ethan Mollick用一句简单的提示：“the book Piranesi as a p5js 3d space. do it for me”（把《皮拉内西》这本书转化为一个p5.js的3D空间，帮我实现），Claude 4便成功生成了一个令人惊艳的3D空间演示，里面有鸟、水和光影效果，看上去相当不错。

还有用户仅用一次提示，就成功生成了一个复杂的双摆模拟系统，效果十分出色。

另一位知名博主Peter Yang也获得了早期的使用权限，他总结道：“1. 在写作和编辑方面，它依然是同类中的佼佼者。2. 它的编码能力和Gemini 2.5不相上下。”他还展示了Claude 4一次性就构建了一个完整的俄罗斯方块游戏。

Claude 4：AI智能体的升级版，记忆和推理能力大提升

说到Claude新一代模型，除了它的编码实力，推理和AI智能体的能力也是大大增强了。Anthropic最近推出了一个名为“工具使用下的扩展思考”的测试功能。这就意味着，它现在可以在推理时灵活使用工具，比如在线搜索，确保Claude在思考时能够更全面，从而提升回答的质量。

而且，这个新模型还具备同时使用多种工具的能力，能更有效地理解和执行指令。当开发者允许它访问本地文件时，Claude的记忆力也有了明显的提升，能够提炼并存储重要信息，从而保持思维的连续性并逐步构建隐性知识。

有趣的是，Anthropic特别指出，新模型在完成任务时，减少了依赖“捷径”或利用“漏洞”的情况。相比于Sonnet 3.7，Opus 4和Sonnet 4在易受影响的任务中，这种行为的发生概率下降了65%。

Claude 4系列的记忆能力提升也是一个亮点。Anthropic的首席产品官Mike Krieger在WIRED的采访中提到，Claude Opus 4可以“在《宝可梦》这个游戏里以智能体方式持续工作长达24小时”，而之前的模型最多只能玩45分钟。为此，Anthropic甚至举办了一场“Twitch直播”，展示Claude 3.7 Sonnet在《宝可梦》中的表现。

更进一步的是，Claude 4 Opus在游戏中处理复杂任务时，研究人员发现其长期记忆和规划能力得到了显著提升。比如，当AI意识到需要某种特定技能才能继续前进时，它会花上两天的时间来提升自己，然后再继续游戏。这种多步骤的推理能力，以及不依赖即时反馈的特点，展现了模型在保持任务连贯性和追踪目标上的进步。

Anthropic的研究员David Hershey对这项研究的目标进行了说明，主要是探索Claude如何作为智能体独立完成复杂任务。当开发者构建能够让Claude访问本地文件的应用程序时，Opus 4能够有效创建和管理“记忆文件”，存储关键信息。这使得它在长期任务的感知、连贯性以及智能体任务表现上有了显著提升，就像Opus 4在玩《宝可梦》时所制作的“导航指南”一样。这种能力对于需要长时间保持上下文的AI智能体至关重要，无论是自动化数小时的工作流，还是进行大规模代码重构。Krieger还提到，一位早期客户（日本乐天）曾让模型连续工作7小时，成功完成了一项大型代码重构的任务。

最新Claude 4模型发布，价格与功能全解析！

说到定价，Claude 4模型和之前的版本可谓如出一辙。具体来说，Opus 4的输入费用是每百万个token 15美元，而输出则是每百万个token 75美元；至于Sonnet 4，输入只需每百万个token 3美元，输出则为每百万个token 15美元。两款模型都附带一个扩展思考模式的开关，Sonnet 4会继续免费提供给用户，而Opus 4则得通过付费订阅才能使用。

除了新模型，Anthropic还宣布，Claude Code（最早在今年2月推出）经过几个月的测试后，现在可以广泛使用了。Claude Code的目标是将Claude的强大功能更好地融入开发者的日常工作中，不论是在终端、用户喜欢的IDE，还是通过Claude Code SDK在后台运行。最新的VS Code和JetBrains的beta版扩展，可以让Claude Code无缝集成到IDE中，Claude提供的编辑建议会直接在文件中显示，简化了审查和跟踪的流程。

此外，Anthropic还推出了一个可扩展的Claude Code SDK，开发者可以利用这个SDK，采用与Claude Code相同的核心智能体来构建自己的智能体和应用程序。

同时，Anthropic API也增加了四项新功能，这些更新旨在帮助开发者打造更强大的AI智能体，包括代码执行工具、MCP连接器、Files API，以及能够将提示缓存长达一小时的能力。

Anthropic自信地表示，“这些模型代表了向虚拟协作者迈出的重要一步，能够保持完整的上下文，专注于更长时间的项目，并推动变革。”回头看看，最近谷歌、OpenAI和Anthropic等AI行业巨头发布的成果，无不朝着这个方向努力。

来源：今日头条

原文标题：Claude 4系列模型正式发布，号称“世界上最好的”AI编程模型 – 今日头条

原文链接：https://www.toutiao.com/article/7507474717058679307/

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！