实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

Claude 3.7刚刚上线,大家对它的强大能力都在热烈讨论,究竟有多厉害呢?

第一波测试结果出炉了!简单来说,它在编程和实际任务方面的表现简直是惊人。

只需要一个例子,它就能生成3200多行的代码,打造出一个非常有趣的游戏。

比如说跳跃、打怪、回血、吃金币……这些复杂的游戏机制都被完美展现出来了。

有趣的是,这个游戏的名字居然和Meta Quest上的VR游戏《霓虹奥德赛(Neon Odyssey)》是一样的。

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

在物理模拟方面,它也表现得相当出色。有用户仅用3个提示,就用C语言成功模拟了流体在真实物理条件下的运动:

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

而且根据量子位的实测,Claude 3.7 Sonnet能识别出很多逻辑陷阱,甚至一些搞笑的场景也能轻松看懂:

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

在Claude的团队看来,它最大的优势就是“更擅长处理现实生活中的任务”,而且在更新公告里还不忘提到对OpenAI的一些隐晦指责。

新模型来袭,Claude 3.7 Sonnet展现编程实力

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

最近,随着新模型的推出,Claude背后的公司Anthropic也曝光了他们的新一轮融资,金额达到了35亿美元,这可比他们原先设定的20亿目标多出了接近一倍呢。

这样一来,连同正在筹集的资金,Anthropic的估值已经飙升至615亿美元(约4462亿人民币)了。

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

轻松生成《我的世界》,新模型编程能力惊人

从许多网友的测试结果来看,Claude 3.7 Sonnet在编程和网页开发方面特别出色。

一开始,他们就将测试焦点放在了AI理解现实世界能力的物理模拟上。

更懂物理

例如,有位日本小伙伴使用它制作了一个精美的“太阳系运行图”,包括太阳、八大行星,还有那位被大家遗忘的冥王星,这让他感到相当震撼:

只用1374行代码,Claude 3.7 Sonnet就搞定了!

生成速度飞快,而且实现了实时互动,点击某个行星时,右上角还会弹出一些小知识。

要知道,就算不做成动画,单单理清这些天体的运行规律,对绝大多数人来说都不简单。

虽然Claude的作品在美观上还有进步空间,但至少它对行星运行的规则掌握得相当清晰,而且还能把这些规则转化为代码。

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

此外,Claude 3.7 Sonnet也没能逃过每个新模型都要面对的“空间内弹小球”挑战:

编写一个Python脚本,让球在四维空间内弹来弹去。

这个月初的o3-mini在这个挑战中表现不俗,赢得了“可能是最懂现实物理的LLM”的称号。

Claude 3.7 Sonnet:游戏领域的新星

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

说到Claude 3.7 Sonnet,它与o3-mini的悠闲风格截然不同,简直就是一股“速度与激情”的潮流!

在那小小的四维空间里,小球的弹跳简直快得让人看花了眼,真得需要一个眼尖的裁判来评判胜负呢。

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

而且,除了物理模拟之外,大家发现用Claude 3.7 Sonnet编写各种小游戏,竟然成为了众多网友的首选。

游戏成为热门趋势

例如,挑战生成了火爆的游戏《Flappy bird》,在这方面Claude 3.7 Sonnet毫无悬念地超越了o3 mini-high。

在这个游戏里,玩家需要控制一只小鸟,穿越各种不同长度的水管,真是考验反应能力啊!

看看Claude 3.7 Sonnet,它生成的代码简直完美还原了游戏的核心理念:

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

相比之下,高档位推理模式下的o3 mini,只有一个小方块在画面中反复晃动,根本看不出游戏的样子呀。

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

Claude 3.7 Sonnet:游戏创作新高度

说到Claude 3.7 Sonnet,它的表现真是令人惊叹,跟其他产品一比简直是鹤立鸡群啊!

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

而且,随着难度的逐步上升,大家对它的评价也越来越高了。

不仅仅是简单地还原游戏理念,它还能够生成更复杂、甚至能互动的“大制作”游戏,真的是太厉害了!

早期测试中,有位博主Rowan Cheung甚至用一句话就创造了一个克隆版的《我的世界》,而且可以直接在Artifacts里玩,简直让人瞠目结舌!

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

而且,类似的事情还不仅仅发生在这款游戏上,下面这个例子也很有趣:

用Phaser.js做了一个横版平台游戏,操作简单,只需用箭头键就行。(左上角还能实时更新你的得分哦)

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

而且还有更有创意的网友,仅用五个提示,就为Apple Watch设计了一个和心率有关的贪吃蛇游戏,真是脑洞大开!

越紧张,蛇就走得越快;越冷静,反而更容易得分。

### 玩得开心,效率爆表的开发新方式

哈哈,知名博主Pietro Schirano又来调侃Anthropic了,真是让人忍俊不禁!

除了各式各样的游戏,Claude 3.7 Sonnet在实际开发中也有不少亮眼的应用案例。

提升生产力的最佳助手

目前,Claude平台已经实现了与GitHub的无缝对接,开发者们可以方便地把自己的代码库直接连接到Claude上。

设置好之后,系统会显示特定项目的容量百分比,这样用户就能清楚地知道自己使用了多少存储空间。

另外,博主elvis还特别提到了“Artifacts”这个功能,直接连接后,今后修改代码就方便多了!

让我们聊聊网页生成的那些事儿

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

有人用这个工具来制作动画天气卡,那些漂浮的云朵和落下的雨滴看起来都特别生动,还能自己调节它们的移动速度呢!

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

说到网页制作,可能大家觉得没什么特别的,但我们今天要请几位选手来比拼一下,看他们如何从同一个HTML网页中扒出内容。

我们的目标可是相当明确的:

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

Claude 3.7 Sonnet的表现简直无可挑剔,尤其是在没有图标素材的情况下,它的左侧边栏按钮竟然用emoji做了填充:

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

而其他选手o1-mini-high、Grok 3和Gemini 2.0 Pro的表现却各有千秋,有的简单列举了数据,有的则干脆呈现了个表格而已。

程序进步真让人惊喜!

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!
实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!
实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

说到编程,这方面的能力真是无敌!有些朋友甚至在cursor里玩得不亦乐乎,结果怎么样呢:

添加了超过15个文件,效果看起来相当不错,一次性处理的信息量也大大增加了。

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

数字母的秘密彩蛋

而且Claude团队也蛮有创意的,在3.7 Sonnet版本中还藏了个关于草莓数r的小彩蛋呢。

趣味实验:轻松破解逻辑难题,谁都能应对

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

其实这种幽默感挺不错的,问题是换个说法可能就会出错。

就算数错了,Claude也不忘纠正拼写,直接告诉你“密西西比”拼错了,正确的拼法里得有四个s。

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

Claude 3.7 Sonnet的推理能力不仅在编程上出色,面对误导信息时也能做出正确判断。

而且即使不启用推理模式,Claude 3.7 Sonnet在误导信息的推理测试中,表现也和o3-mini一样优秀。

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

这次测试使用的是GitHub上一个叫做Misguided Attention的基准测试。

里面有很多经典谜题的改编版本,目的是考察大模型是否能不被表象所迷惑。

比如说,电车难题大家应该都不陌生:

想象一下,一个电车轨道上绑着五个人,备用轨道上绑着一个人,突然有一辆失控的电车冲过来,而你旁边正好有一个摇杆,你可以推动摇杆让电车转向备用轨道。

### 哥们,咱们聊聊那些经典的道德难题吧!

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

在这套基准测试中,电车难题被重新设计成了这样的情形:

想象一下五个人被绑在一条轨道上,而在备用轨道上,则有一个活着的人,此时一辆失控的电车正朝他们驶来,而你身边恰好有一个摇杆,可以选择将电车引向备用轨道。

o3-mini-high毫不犹豫地选择了让电车冲向那个活人,还自信满满地说这样可以减少受害者。

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

而Claude 3.7(没有开启扩展思考模式)则能敏锐地察觉到其中的逻辑,选择不去伤害那个活着的人。

再比如,物理学界的“薛定谔的猫”也在这个基准中发生了变化,猫的设定被改成了一只已经死去的猫。

这只死猫和一些核同位素、一瓶毒药以及一个辐射探测器一起放在了盒子里。如果探测器检测到辐射,毒药就会被释放。一天后,打开盒子,猫还活着吗?

Claude 3.7也准确把握了这一点,给出了猫的存活概率为零的答案。

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

有些问题真的是让人觉得无厘头,对吧?既然如此,我们不如再来几个类似的无脑问题看看。(狗头)

如果Claude 3.7没有开启思考模式,那他就会轻易地识别出我们提问中潜在的逻辑漏洞。

聊聊Claude 3.7的趣事

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

你知道吗,Claude 3.7在遇到那些因果关系搞反的搞笑问题时,简直像个侦探一样能轻松识别出来。不过,相比之下,o3-mini-high的回答就让人感觉像是上了当。

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

最后,我们还让Claude 3.7来聊聊一些有趣的中文现象。

结果它在解释“咖啡因不存在于成品咖啡”这句话时,虽然有点跑偏,但整体上还是给出了相对靠谱的分析。

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

还有一件事

说到Claude 3.7 Sonnet这个名字,Anthropic的首席产品官Mike Krieger给我们分享了背后的故事。

其实,Claude 3.5 Sonnet之前已经更新过一次,所以一开始团队想叫3.5 Sonnet newer或3.5 Sonnet v3之类的。

但也许觉得仅仅叫3.5无法体现这次模型的强大,最后他们决定改成3.6,最终确定了在3.5和4之间的3.7这个名称。

实测Claude 3.7:一次性输出3200行代码,智能水平令人堪忧!

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

抱歉,我无法满足您的请求。

来源:今日头条
原文标题:实测Claude 3.7:3200行代码一口气输出,弱智吧已失守 – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!

发表评论