Claude 4.5 发布,30小时不间断挑战,AI 竞争史上新高峰!

Claude 4.5 发布,30小时不间断挑战,AI 竞争史上新高峰!

聊到编程,大家一定要关注 Claude。

就在最近,Anthropic 正式推出了 Claude Sonnet 4.5。

Claude 4.5 发布,30小时不间断挑战,AI 竞争史上新高峰!

先看看 Claude Sonnet 4.5 的表现吧,它在真实编程能力的 SWE-bench Verified 测试中,竟然荣登第一!

Claude 4.5 发布,30小时不间断挑战,AI 竞争史上新高峰!

更让人惊讶的是,它能够连续工作超过 30 小时,真是厉害了。

看样子,AI 又多了一项超越人类的能力。

譬如说,如果让它开发一个类似 Slack 或 Teams 的聊天工具,Claude 一下子就能写出大约 1.1 万行代码。而之前的 Claude Opus 4 和 Codex,最多也就只能坚持工作七小时。

根据 Anthropic 的说法,现在的 Claude Sonnet 4.5 无疑是全球最强大的编程模型——无论是构建复杂的智能体,还是进行计算、推理和数学运算,各方面的能力都得到了显著提升。

Claude 4.5 发布,30小时不间断挑战,AI 竞争史上新高峰!

比如,在 OSWorld 这个专门评测真实计算机任务的基准测试中,它的得分达到了 61.4%,一举夺得第一。值得一提的是,四个月前的 Sonnet 4 还以 42.2% 的成绩领先,这次才短短时间就又提升了不少。

而且,Anthropic 的 Claude Chrome 插件甚至可以在浏览器中独立导航、填表和处理任务,简直就像一个人一样在操作。推理和金融等评测项目的表现也在不断提升,所有指标都在上涨中。

Claude 4.5 发布,30小时不间断挑战,AI 竞争史上新高峰!

说实话,Anthropic 的能力真是让人惊叹,这次可不是单纯推出个模型就结束的。

具体来看,他们做了不少新鲜事:

  • Claude Code 增加了「检查点」功能,随时可以保存进度,想要回到之前的状态一键搞定。
  • 终端界面进行了全新设计,还推出了原生的 VS Code 插件。
  • Claude API 现在有了上下文编辑功能和记忆工具。
  • 代码执行和文件创建也可以直接在对话中完成。

更厉害的是,Anthropic 还把内部为 Claude Code 建设的底层设施开放给大家,叫 Claude Agent SDK。

这意味着,开发者们可以在长时间的任务中管理记忆、设计权利系统,让智能体的自主性和用户控制达到平衡,甚至让多个子智能体合作完成目标,这些都是构建 AI 智能体时面临的难题。

现在,借助 Claude Agent SDK,你也可以创建自己的产品了。

Claude 4.5 发布,30小时不间断挑战,AI 竞争史上新高峰!

从今天起,开发者们还可以通过 Claude API 调用 claude-sonnet-4-5,定价和 Claude Sonnet 4 一样,每百万 tokens 依旧是 $3/$15,价格不变但能力却更强。

一位网友 @vasumanmoza 体验后直言:

「Claude 4.5 Sonnet 在一次调用中重构了我的整个代码库,进行了 25 次工具调用,新增了 3000 多行代码,还生成了 12 个全新文件。它把所有东西都模块化了,拆掉了原本的庞大结构,清理了那些杂乱的代码。结果虽然完全跑不通,但确实优雅得很。」这评价真是又爱又恨啊。

Cursor 也表示,在 Claude Sonnet 4.5 上看到了最顶尖的编程性能,尤其在处理长周期任务时明显提升。这也告诉我们,为什么很多 Cursor 用户会选择 Claude 来解决复杂问题。

知名测评博主 Dan Shipper 则提到,新版 Sonnet 4.5 在使用体验上反应速度更快,控制性更强,而且更加稳定。

说到性能,安全性同样不能忽视。

据介绍,Claude Sonnet 4.5 也是 Anthropic 目前对齐度最高的前沿模型。

依靠 Claude 更强的能力和完善的安全训练,Anthropic 在模型行为上有了显著改善,减少了过于谄媚、欺骗、追求权力和鼓励妄想等问题。此外,在防范提示注入攻击和减少内容误判方面,Anthropic 也取得了重大进展。

Claude 4.5 发布,30小时不间断挑战,AI 竞争史上新高峰!

让我觉得特别有意思的是,Anthropic 在推出 Claude Sonnet 4.5 的同时,还推出了一个临时的研究预览功能,叫「Imagine with Claude」。

通过这个功能,Claude 能够实时生成软件,所有功能都是现场创造的,而不是预先设定的。你看到的一切都是 Claude 在跟你互动时即时创造和调整的。

不过,这个功能在接下来的五天内只对 Max 订阅用户开放。

附上链接 claude.ai/imagine。

毫无疑问,今年在 AI 领域,编程依然是个热门话题。

目前,Anthropic 的估值已经达到了 1830 亿美元,8 月份的年化营收也达到 50 亿美元,而这其中相当一部分增长是源于编程软件的普及。不过,老对手 OpenAI 和 Google Gemini 也在疯狂推出类似工具来争夺程序员用户。

再说一周后就是 OpenAI 的年度开发者大会,Anthropic 凭借 Claude Sonnet 4.5 提前发布,显然是为了给竞争对手施加压力。

此外,Anthropic 的联合创始人兼首席科学官 Jared Kaplan 还透露,更先进的 Opus 模型预计会在今年晚些时候推出:「Anthropic 在大小模型的应用上都能保持优势。」

不过,坦白说,Anthropic 眼下也面临一些挑战。

过去两个月,Claude 系列模型经历了「降智」的风波,用户普遍反映模型在推理、代码、格式和工具调用的质量大幅下滑,连付费的 Max 用户也未能幸免。

Anthropic的挑战与Claude Sonnet 4.5的期待

其实呢,Anthropic最近为了挽回用户,紧急撤回了Opus 4.1的更新,并且承认了两个独立的Bug。尽管他们强调这是为了提升体验,而非故意降低智力水平,但因为没有进行任何补偿或者退款,GitHub和X平台上还是出现了大量用户退订的情况,许多人选择了转向Codex。

而这次推出的Claude Sonnet 4.5,显然是Anthropic希望通过真正的性能提升来挽回失去的用户。能否成功,咱们就得看接下来几周的表现了。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),带给你更多精彩内容!

爱范儿|原文链接· ·新浪微博

来源:今日头条
原文标题:Claude 4.5 刚刚发布,能连肝 30 多个小时,史上最卷 AI 诞生 – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!

发表评论