AI编程新纪元:Claude 4连续7小时高效自主编程震撼登场!

智东西在5月23日报道,今晨,美国的独角兽公司Anthropic在他们首次开发者大会上发布了最新的Claude模型,分别是Claude Opus 4和Claude Sonnet 4。这也是自2024年6月以来,Claude的首次重大版本更新。

Anthropic把Claude Opus 4称作“全球最佳编程模型”,它在复杂、长时间的任务和智能体工作流中,表现得非常稳定。而Claude Sonnet 4则是对Claude Sonnet 3.7的重磅升级,专注于编程和推理能力,同时能够更加准确地响应用户的提示。这两款模型都是混合模型,支持两种模式:即时回复和更深入的推理模式(扩展思考)。

在权威的编程基准测试SWE-bench Verified中,启用扩展思考的Claude Opus 4和Claude Sonnet 4分别得分79.4%和80.2%,远超OpenAI Codex-1、OpenAI o3、OpenAI GPT-4.1、Gemini 2.5 Pro等其他模型。

AI编程新纪元:Claude 4连续7小时高效自主编程震撼登场!

在编程、工具应用、视觉推理和数学等领域的基准测试中,这两款模型的表现都超过了OpenAI o3,而在多语言问答和研究生级别的推理任务上,Claude Opus 4与OpenAI o3的得分相当。新模型的智能体能力也得到了提升,可以独立运行最长7小时,并且还新增了文件API和提示词缓存等功能。

AI编程新纪元:Claude 4连续7小时高效自主编程震撼登场!

对于Pro、Max、Team和Enterprise的Claude订阅用户来说,可以使用这两款Claude模型及其扩展思考模式,而Sonnet 4则对免费用户开放。

这两款模型均可通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI进行调用,定价与之前的Opus和Sonnet系列保持一致:Claude Opus 4的费用为每百万个token 15美元/75美元(输入/输出),而Claude Sonnet 4的费用则是3美元/15美元。

AI编程新纪元:Claude 4连续7小时高效自主编程震撼登场!

另外,Anthropic还推出了AI编程助手Claude Code,这个助手基于Claude Opus 4模型,可以实时映射和解释百万行的代码库。Claude Code与GitHub、GitLab、VS Code、JetBrains IDE以及命令行工具进行了整合,用户可以直接嵌入到开发终端中使用。这个助手提供了按需计费、每月100美元和200美元的三种订阅方案。

01.开场2分钟抛出重磅新模型,Claude未来更新频率将提升

在Code with Claude开发者大会上,Anthropic创始人Dario Amodei在开场的两分钟内快速登台,没有铺垫,便直接推出了令人惊喜的Claude 4系列模型。

### Claude 4系列新模型发布,智能体能力大升级!

在刚刚结束的Code with Claude开发者大会上,Anthropic的创始人Dario Amodei一开场就带来了让人眼前一亮的消息,推出了全新的Claude 4系列模型。这次的更新频率会比之前高出不少,真是让人期待啊!

Amodei提到,Opus这个模型已经有一段时间没有更新了,算是他们家最强大的模型,而Sonnet则是大家在过去一年多使用的中等水平版本。不过,值得注意的是,Claude Opus 4在一些基准测试中的成绩其实并没有明显优于Claude Sonnet 4,甚至有些地方还略逊一筹。他强调,对于像Claude Opus 4这样的大型模型,单靠基准测试来评估它的能力是不够全面的。

在给客户的预览中,Claude Opus 4展现出了惊人的工作效率,能够自主完成一些通常需要人类花费6到7小时的任务,连Anthropic内部的资深工程师们都对它的生产力提升感到惊讶。

而Claude Sonnet 4在一些编程基准测试中与Claude Opus 4表现持平,更加精简,专注于编程等特定任务。此外,Sonnet 4还解决了前一版本在使用过程中遇到的一些问题,比如过于热情(总是做超出用户要求的事情)和奖励机制的缺陷。

Amodei表示,Anthropic会持续改进Claude系列模型,定期推出小版本更新,理想情况下,更新频率会比之前还要高。

智能体能力迎升级,最高可独立运行7小时

Anthropic的首席产品官Mike Krieger也详细介绍了Claude 4的更多功能。他提到,Claude Opus 4在理解代码库和规划新内容方面非常出色,无论是迁移、代码重构还是复杂的智能体工作流,都能高效且精准地完成。

Claude Sonnet 4在日常编码、应用开发和配对编程方面表现优异,能够应对高流量的需求,平衡效率与性能,简直就是“全天候”的编码好伙伴。

值得一提的是,Claude 4系列模型新增了能使用工具的智能体功能。现在它们可以并行处理多种工具,甚至在获得本地文件访问权限时,可以在会话间保持记忆,随着时间积累知识。

Krieger回忆起他刚加入Anthropic时,依靠Claude的帮助,三人团队成功完成了亚马逊Alexa语音助手的原型设计,作为前工程师的他还亲自上阵编写代码。这次合作最终让Claude成为Alexa Plus的核心模型之一,真是让人惊叹。

他越来越相信AI协作的潜力,如今AI不仅仅是一个工具,更是一个真正的智能合作伙伴,推动着技术的边界。Krieger提出了Anthropic理想中的智能体需要具备的三大核心能力:

(1)情境智能:能够理解组织的背景,并通过经验不断优化表现,像优秀员工一样越用越好;

(2)长期执行:能够独立处理复杂任务数小时,并智能协调资源;

(3)深度协作:实现自然交互,适应工作风格,同时保持决策透明。

为了实现这些能力,Anthropic推出了更多的新升级。现在Claude可以通过Anthropic API上的新代码执行工具来运行代码,不仅仅是编写代码,还能加载和清理数据,生成探索性图表,实时分析异常情况。这一切与Claude 4模型结合后,能处理更复杂的任务,节省大量时间。

Claude 4在自主性方面也大幅提升,Claude 3.7最多能自主运行45分钟,而Claude 4则可以独立运行数小时,最高可达7小时。它通过管理待办事项保持记忆,不会丢失线索。

Anthropic也强调,智能体的广泛应用需要提升模型对保密内容、决策和协调的判断力。如今,Claude模型的每个功能都包含安全检查和控制措施,确保在实际应用中的可靠性。

智能体的发展还需要接入现实世界的信息,并与现有系统相连接。为此,Anthropic推出了四项新功能,帮助智能体进一步扩展。

首先,开发者现在可以通过Anthropic API直接链接MCP协议(模型上下文协议)。该协议被微软、谷歌、OpenAI等众多公司广泛采用,Anthropic认为MCP将为智能体经济奠定基础。

其次,网络搜索功能为Claude提供了实时访问当前信息的能力。这使得Claude能够分析最新事件、市场趋势和新技术,与MCP功能结合使用时效果尤为显著。

第三,文件API今天起在Anthropic API中上线,允许Claude读取和写入记忆文件,从而保持长时间任务中的上下文连贯性。Anthropic还发布了“记忆功能食谱”,指导开发者如何将其集成到应用中。

最后,提示缓存功能也进行了升级,TTL(生存时间)从5分钟提升至1小时,这能将模型的使用成本降低90%,延迟减少85%,特别适合长提示词场景及需要频繁调用相同上下文的任务。

Anthropic还显著减少了Claude 4模型使用快捷方式或漏洞完成任务的情况。这种行为的可能性比Sonnet 3.7降低了65%。

Claude Opus 4在内存能力方面的表现也大幅超越之前的所有版本。当开发者构建提供Claude本地文件访问的应用程序时,Opus 4能熟练地创建并维护“内存文件”,存储关键信息。这将帮助提升长期任务的意识和连贯性,甚至在玩Pokémon时创造“导航指南”。

Claude 4的崭新功能与编程助手的全面开放

Claude 4模型现在加入了思维链总结的功能,简单来说,就是能用更小的模型来提炼复杂的思考过程,挺实用的吧?

03. 编程助手全面开放,整合至主流开发平台

今天,Claude Code终于从研究预览阶段转到了正式产品,全面开放!Claude Code的产品经理Cat Wu表示,除了引入最新的模型外,这次还增加了不少新功能。

现在,Claude Code已经和VS Code及JetBrains等主流IDE完美结合。这样一来,开发者在编辑器里就能实时看到Claude Code建议的代码修改,真是太方便了!

AI编程新纪元:Claude 4连续7小时高效自主编程震撼登场!

此外,Anthropic还推出了Claude Code SDK,允许开发者将Claude Code作为模块集成到自己的应用和工作流程中。为了展示这个新功能,Anthropic在GitHub上开源了一个示例项目:用户可以在Pull Request和Issue中@Claude,它会自动回应审查意见、修复问题并添加新功能。

借助这些更新,Claude Code几乎可以覆盖各种工作场景。不管是在终端里进行深入开发,还是在GitHub上进行远程协作,通过SDK来构建自动化工作流,甚至在IDE中进行代码审查,统统不在话下。

在演示环节,Claude Code迅速完成了开源工具Excalidraw表格组件功能的开发。它会生成任务清单,探索代码库,创建代码,运行测试并提交Pull Request,效率真是惊人!它甚至能通过GitHub Actions自动更新文档。短短10分钟,就完成了通常需要数小时的复杂任务,开发效率提升可想而知。

AI编程新纪元:Claude 4连续7小时高效自主编程震撼登场!

基于Claude Code SDK的Claude Code与GitHub Actions现已上线,安装也相当简单,只需运行命令即可。VS Code和JetBrains的Web IDE扩展也推出了测试版,大家可以在IDE中直接运行命令进行安装。

04. 结语:两条Scaling Law路径持续有效,未来1年将见证编程革命

Amodei提到,Claude Sonnet 3.7发布才两个半月,但感觉好像已经过了一年,这也展现了AI领域发展的速度。他强调,Claude 4的模型能力得益于预训练和后训练的共同进步,预训练Scaling Law依旧有效,后训练技术也在不断进步,二者相辅相成。

展望未来的AI发展,Amodei认为,我们将在接下来的一年里,目睹编程领域的革命。随着Claude Code的推出,我们将迎来“智能体舰队”时代,大量智能体会让软件开发自动化,定制化软件的成本也会大幅降低,这将改变开发者、企业和初创公司的角色。

本文由微信公众号“智东西”(ID:zhidxcom)发布,作者:陈骏达,编辑:心缘,36氪经授权转载。

来源:今日头条
原文标题:Claude 4空降,AI编程真神登场,连续7小时自主编程,写代码效率拉满 – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!

《AI编程新纪元:Claude 4连续7小时高效自主编程震撼登场!》有10条评论

  1. Claude 4系列模型的发布真是个好消息,尤其是长时间运行的能力提升,让编程变得更加高效。期待在实际项目中的表现!

    回复
  2. Claude 4的新能力令人期待,尤其是在复杂任务中的表现明显优于之前的模型。希望能够在实际开发中看到它的潜力释放。

    回复
  3. Claude 4系列的发布无疑是编程领域的一次重大突破,尤其是其智能体长达7小时的自主运行能力,真是太令人震撼了。期待它在实际应用中的表现!

    回复
  4. Claude 4系列的智能体能力提升显著,特别是能独立运行7小时,这为开发者提供了更多的便利。期待它在复杂项目中的实际应用效果。

    回复
  5. Claude 4系列的发布让编程变得更加高效,尤其是它在长时间任务中的稳健表现,真是让人期待未来的应用。希望能看到更多开发者利用它的优势!

    回复
  6. Claude 4系列的新功能真是让人惊喜,特别是它在编程和推理能力上的增强,未来的开发效率肯定会提升不少。期待它在实际应用中的表现!

    回复
  7. Claude 4的推出让人对未来的编程充满期待,尤其是它在编程效率和推理能力上的强大表现,真的很令人振奋。

    回复
  8. Claude 4的推出让人对AI编程的未来充满希望,尤其是它能独立运行7小时,真是对开发者的极大支持。期待看到更多实际应用案例。

    回复
  9. Claude 4系列的发布简直是编程领域的革命,特别是在推理和长时间任务处理上的优势,未来的开发工作会变得更加高效。我期待它在实际项目中的应用效果!

    回复
  10. Claude 4系列的推出无疑是编程界的一次飞跃,尤其是它在长时间任务处理上的稳定性,真的让人期待未来的开发体验。希望能尽快看到实际应用。

    回复

发表评论