Claude引领AI编程新潮流:挑战连续作业30小时的极限!

AI编程领域再掀热潮,Claude Sonnet 4.5横空出世

2025年,AI编程赛道又热闹起来了!在北京时间9月30日,Anthropic推出了Claude Sonnet 4.5,官方说这是“全球最强的编程模型”。这个新版本在智能体构建、计算机使用、推理和数学能力方面都有了显著的进步。根据各种评测,Claude依然稳坐编程领域的“王者”宝座。

业内很多人觉得,这次Anthropic更新的时机非常微妙——就一周后,OpenAI将举行年度开发者大会,而不久前,OpenAI刚刚推出了强化智能体编程能力的GPT-5-Codex,声称能自动处理长达7小时的大型复杂任务。

这次,Anthropic直接把标准提升了:Sonnet 4.5在复杂的多步骤任务中,能够持续专注超过30小时。

这一能力也得到了业内人士的认可,iGent AI的CEO表示,Sonnet 4.5“重新定义了行业的期望”,它可以独立处理超过30小时的代码,让工程师能在极短的时间内完成几个月的复杂架构工作,同时还能保持代码库的一致性。

从官方的评测来看,Sonnet 4.5在编程和数学等各项测试中超越了GPT-5和谷歌的Gemini 2.5 pro。

Claude引领AI编程新潮流:挑战连续作业30小时的极限!

在评估真实编程能力的SWE-bench Verified测试中,Claude Sonnet 4.5高居第一,超越了GPT-5-Codex整整7.5个百分点。

在针对计算机环境的开放式任务基准测试OSWorld上,Sonnet 4.5目前的得票率达到了61.4%,而就在四个月前,Sonnet 4的得票率为42.2%。

Claude引领AI编程新潮流:挑战连续作业30小时的极限!

另外,Anthropic还提到,Sonnet 4.5在金融、法律、医学和STEM领域的表现也有显著提升,显示出比旧模型(如Opus 4.1)更强的专业知识和推理能力。

随着模型的更新,官方也对用户体验进行了改进,新增了“检查点”功能,用户可以随时保存进度并一键回退,同时终端界面也进行了升级,现在可以直接在对话中执行代码和创建文件。在官方演示中,Claude甚至能直接在浏览器中操作,导航网站、填写电子表格以及完成任务。

一位AI行业博主表示,之前的Claude是为程序员设计的,而现在的Claude则是为白领服务的,能够直接处理office软件,完成邮件等工作。虽然目前还不算完全成熟,但代码Agent为软件工程带来的便利,未来很可能会扩展到所有知识工作领域,这只是个开始。

本次更新中,一个引人注目的新功能是“Imagine with Claude”。这个功能允许Claude实时生成软件,没有预设的功能,用户能看到的一切都是Claude根据需求即时创建的。这可能是大型模型语言操作系统的未来,虽然目前还不够完善,但该功能在接下来的五天内仅对Max订阅用户开放。

在模型更新的同时,很多AI编程领域的创业者也纷纷为Claude背书。Cursor的CEO Michael Truell表示,他看到了Sonnet 4.5在编码性能上的卓越表现,尤其是在处理长期任务方面的显著提升。这也进一步印证了很多使用Cursor的开发者为何选择Claude来解决最复杂的问题。Cognition的联合创始人兼CEO Scott Wu也指出,Sonnet 4.5让Devin的规划能力和端到端评估成绩都有了大幅提升。

在定价方面,Sonnet 4.5提升了性能但价格保持不变,仍然是每百万输入tokens 3美元,输出tokens 15美元。相较于Anthropic之前的旗舰模型Opus 4.1(输入15美元,输出75美元),成本降低了五倍,开发者现在只需更少的投入,就能获得一个在多任务上超越以往的模型。

自2023年3月以来,Anthropic在编程和数学领域持续领先,吸引了大量客户。在Cursor平台上,Claude依然是最受欢迎的模型。

月初,Anthropic宣布完成了一轮130亿美元的融资,最新估值达到了1830亿美元,成为全球第四大独角兽。那时官方透露,2025年8月其年收入将超过50亿美元(约357亿元人民币),而2025年初的收入只有大约10亿美元,显示出其商业化能力的迅速增长。

今年2月,Anthropic推出了自家的AI编程工具Claude Code,并在5月全面开放,从研发预览阶段转为正式产品。Anthropic提到,Claude Code在三个月内的使用量增长了超过10倍,带来了超过5亿美元(约36亿元人民币)的运营收入。

不过,Anthropic也面临一些挑战。近两个月来,许多用户反映Claude模型的质量出现了“断崖式下滑”,怀疑是为了控制成本而降低了模型性能,甚至导致开发者大量退订。Anthropic随后回应称这是由于独立的Bug造成的,绝不是“故意降智”,但这场信任危机至今尚未完全平息。

(本文来自第一财经)

来源:今日头条
原文标题:能连续干活超30小时!Claude发起AI编程新一轮竞赛 – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!

发表评论