实测Claude 3.7：一次性输出3200行代码，智能水平令人堪忧！

Claude 3.7刚刚上线，大家对它的强大能力都在热烈讨论，究竟有多厉害呢？

第一波测试结果出炉了！简单来说，它在编程和实际任务方面的表现简直是惊人。

你可能感兴趣：用了半年Claude，我想说说心里话

只需要一个例子，它就能生成3200多行的代码，打造出一个非常有趣的游戏。

比如说跳跃、打怪、回血、吃金币……这些复杂的游戏机制都被完美展现出来了。

有趣的是，这个游戏的名字居然和Meta Quest上的VR游戏《霓虹奥德赛（Neon Odyssey）》是一样的。

在物理模拟方面，它也表现得相当出色。有用户仅用3个提示，就用C语言成功模拟了流体在真实物理条件下的运动：

而且根据量子位的实测，Claude 3.7 Sonnet能识别出很多逻辑陷阱，甚至一些搞笑的场景也能轻松看懂：

在Claude的团队看来，它最大的优势就是“更擅长处理现实生活中的任务”，而且在更新公告里还不忘提到对OpenAI的一些隐晦指责。

新模型来袭，Claude 3.7 Sonnet展现编程实力

最近，随着新模型的推出，Claude背后的公司Anthropic也曝光了他们的新一轮融资，金额达到了35亿美元，这可比他们原先设定的20亿目标多出了接近一倍呢。

这样一来，连同正在筹集的资金，Anthropic的估值已经飙升至615亿美元（约4462亿人民币）了。

轻松生成《我的世界》，新模型编程能力惊人

从许多网友的测试结果来看，Claude 3.7 Sonnet在编程和网页开发方面特别出色。

一开始，他们就将测试焦点放在了AI理解现实世界能力的物理模拟上。

更懂物理

例如，有位日本小伙伴使用它制作了一个精美的“太阳系运行图”，包括太阳、八大行星，还有那位被大家遗忘的冥王星，这让他感到相当震撼：

只用1374行代码，Claude 3.7 Sonnet就搞定了！

生成速度飞快，而且实现了实时互动，点击某个行星时，右上角还会弹出一些小知识。

要知道，就算不做成动画，单单理清这些天体的运行规律，对绝大多数人来说都不简单。

虽然Claude的作品在美观上还有进步空间，但至少它对行星运行的规则掌握得相当清晰，而且还能把这些规则转化为代码。

此外，Claude 3.7 Sonnet也没能逃过每个新模型都要面对的“空间内弹小球”挑战：

编写一个Python脚本，让球在四维空间内弹来弹去。

这个月初的o3-mini在这个挑战中表现不俗，赢得了“可能是最懂现实物理的LLM”的称号。

Claude 3.7 Sonnet：游戏领域的新星

说到Claude 3.7 Sonnet，它与o3-mini的悠闲风格截然不同，简直就是一股“速度与激情”的潮流！

在那小小的四维空间里，小球的弹跳简直快得让人看花了眼，真得需要一个眼尖的裁判来评判胜负呢。

而且，除了物理模拟之外，大家发现用Claude 3.7 Sonnet编写各种小游戏，竟然成为了众多网友的首选。

游戏成为热门趋势

例如，挑战生成了火爆的游戏《Flappy bird》，在这方面Claude 3.7 Sonnet毫无悬念地超越了o3 mini-high。

在这个游戏里，玩家需要控制一只小鸟，穿越各种不同长度的水管，真是考验反应能力啊！

看看Claude 3.7 Sonnet，它生成的代码简直完美还原了游戏的核心理念：

相比之下，高档位推理模式下的o3 mini，只有一个小方块在画面中反复晃动，根本看不出游戏的样子呀。

Claude 3.7 Sonnet：游戏创作新高度

说到Claude 3.7 Sonnet，它的表现真是令人惊叹，跟其他产品一比简直是鹤立鸡群啊！

而且，随着难度的逐步上升，大家对它的评价也越来越高了。

不仅仅是简单地还原游戏理念，它还能够生成更复杂、甚至能互动的“大制作”游戏，真的是太厉害了！

早期测试中，有位博主Rowan Cheung甚至用一句话就创造了一个克隆版的《我的世界》，而且可以直接在Artifacts里玩，简直让人瞠目结舌！

而且，类似的事情还不仅仅发生在这款游戏上，下面这个例子也很有趣：

用Phaser.js做了一个横版平台游戏，操作简单，只需用箭头键就行。（左上角还能实时更新你的得分哦）

而且还有更有创意的网友，仅用五个提示，就为Apple Watch设计了一个和心率有关的贪吃蛇游戏，真是脑洞大开！

越紧张，蛇就走得越快；越冷静，反而更容易得分。

### 玩得开心，效率爆表的开发新方式

哈哈，知名博主Pietro Schirano又来调侃Anthropic了，真是让人忍俊不禁！

除了各式各样的游戏，Claude 3.7 Sonnet在实际开发中也有不少亮眼的应用案例。

提升生产力的最佳助手

目前，Claude平台已经实现了与GitHub的无缝对接，开发者们可以方便地把自己的代码库直接连接到Claude上。

设置好之后，系统会显示特定项目的容量百分比，这样用户就能清楚地知道自己使用了多少存储空间。

另外，博主elvis还特别提到了“Artifacts”这个功能，直接连接后，今后修改代码就方便多了！

让我们聊聊网页生成的那些事儿

有人用这个工具来制作动画天气卡，那些漂浮的云朵和落下的雨滴看起来都特别生动，还能自己调节它们的移动速度呢！

说到网页制作，可能大家觉得没什么特别的，但我们今天要请几位选手来比拼一下，看他们如何从同一个HTML网页中扒出内容。

我们的目标可是相当明确的：

Claude 3.7 Sonnet的表现简直无可挑剔，尤其是在没有图标素材的情况下，它的左侧边栏按钮竟然用emoji做了填充：

而其他选手o1-mini-high、Grok 3和Gemini 2.0 Pro的表现却各有千秋，有的简单列举了数据，有的则干脆呈现了个表格而已。

程序进步真让人惊喜！

说到编程，这方面的能力真是无敌！有些朋友甚至在cursor里玩得不亦乐乎，结果怎么样呢：

添加了超过15个文件，效果看起来相当不错，一次性处理的信息量也大大增加了。

数字母的秘密彩蛋

而且Claude团队也蛮有创意的，在3.7 Sonnet版本中还藏了个关于草莓数r的小彩蛋呢。

趣味实验：轻松破解逻辑难题，谁都能应对

其实这种幽默感挺不错的，问题是换个说法可能就会出错。

就算数错了，Claude也不忘纠正拼写，直接告诉你“密西西比”拼错了，正确的拼法里得有四个s。

Claude 3.7 Sonnet的推理能力不仅在编程上出色，面对误导信息时也能做出正确判断。

而且即使不启用推理模式，Claude 3.7 Sonnet在误导信息的推理测试中，表现也和o3-mini一样优秀。

这次测试使用的是GitHub上一个叫做Misguided Attention的基准测试。

里面有很多经典谜题的改编版本，目的是考察大模型是否能不被表象所迷惑。

比如说，电车难题大家应该都不陌生：

想象一下，一个电车轨道上绑着五个人，备用轨道上绑着一个人，突然有一辆失控的电车冲过来，而你旁边正好有一个摇杆，你可以推动摇杆让电车转向备用轨道。

### 哥们，咱们聊聊那些经典的道德难题吧！

在这套基准测试中，电车难题被重新设计成了这样的情形：

想象一下五个人被绑在一条轨道上，而在备用轨道上，则有一个活着的人，此时一辆失控的电车正朝他们驶来，而你身边恰好有一个摇杆，可以选择将电车引向备用轨道。

o3-mini-high毫不犹豫地选择了让电车冲向那个活人，还自信满满地说这样可以减少受害者。

而Claude 3.7（没有开启扩展思考模式）则能敏锐地察觉到其中的逻辑，选择不去伤害那个活着的人。

再比如，物理学界的“薛定谔的猫”也在这个基准中发生了变化，猫的设定被改成了一只已经死去的猫。

这只死猫和一些核同位素、一瓶毒药以及一个辐射探测器一起放在了盒子里。如果探测器检测到辐射，毒药就会被释放。一天后，打开盒子，猫还活着吗？

Claude 3.7也准确把握了这一点，给出了猫的存活概率为零的答案。

有些问题真的是让人觉得无厘头，对吧？既然如此，我们不如再来几个类似的无脑问题看看。（狗头）

如果Claude 3.7没有开启思考模式，那他就会轻易地识别出我们提问中潜在的逻辑漏洞。

聊聊Claude 3.7的趣事

你知道吗，Claude 3.7在遇到那些因果关系搞反的搞笑问题时，简直像个侦探一样能轻松识别出来。不过，相比之下，o3-mini-high的回答就让人感觉像是上了当。

最后，我们还让Claude 3.7来聊聊一些有趣的中文现象。

结果它在解释“咖啡因不存在于成品咖啡”这句话时，虽然有点跑偏，但整体上还是给出了相对靠谱的分析。

还有一件事

说到Claude 3.7 Sonnet这个名字，Anthropic的首席产品官Mike Krieger给我们分享了背后的故事。

其实，Claude 3.5 Sonnet之前已经更新过一次，所以一开始团队想叫3.5 Sonnet newer或3.5 Sonnet v3之类的。

但也许觉得仅仅叫3.5无法体现这次模型的强大，最后他们决定改成3.6，最终确定了在3.5和4之间的3.7这个名称。

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

抱歉，我无法满足您的请求。