《Claude联手人类撰写论文,苹果再陷争议,实验内幕揭晓》

苹果最近又被打脸了,研究人员和Claude Opus合作,发布了一篇仅四页的论文,揭露了他们实验设计中的漏洞,甚至指出有些测试题根本没解,结果却把责任推给了模型。

几天前,苹果对外声称大模型根本无法推理,引发了网络上的热烈讨论。

在不少人看来,那些并没有深入了解AI的人,质疑目前最先进的推理模型o3-mini和DeepSeek-R1的能力,实在缺乏说服力。

这篇论文一经发布,就引起了广泛的质疑。

《Claude联手人类撰写论文,苹果再陷争议,实验内幕揭晓》

一位研究员发表文章指出,他们的研究方法有问题,比如在数学题中掺杂无关信息来测试模型的表现。

最近,Open Philanthropy的研究人员和Anthropic共同发布了一篇论文,标题是《思维的幻觉的幻觉》,再次把矛头指向苹果。

《Claude联手人类撰写论文,苹果再陷争议,实验内幕揭晓》

论文地址:
https://arxiv.org/pdf/2506.09250

这篇短小精悍的论文,直接揭示了苹果在汉诺塔实验、自动评估框架和“过河”测试中存在的三大缺陷。

甚至,文中提到一些测试用例在数学上根本没有解,结果模型却因此被判定为“推理失败”。

更让人惊讶的是,论文的作者之一,竟然还是一个AI——Claude Opus。

《Claude联手人类撰写论文,苹果再陷争议,实验内幕揭晓》

这篇论文具体指出了哪些问题呢?让我们来看看。

推理大模型的失败,其实并非它们的错

在《思维的幻觉的幻觉》中,作者举了四个例子,展示当问题规模增大时,大模型的表现是越来越糟糕的。

基于这些例子,他们得出了一个结论:大模型实际上只是在进行模式匹配,从它们的训练数据中寻找已有的答案。

《Claude联手人类撰写论文,苹果再陷争议,实验内幕揭晓》

这是汉诺塔问题的示例。

不过,Lawsen和Claude也指出,前面的研究表明,推理大模型的失利主要是因为token数量超出了模型的处理限制。

比如在汉诺塔的任务中,模型需要执行指数级别的步骤——光是15个盘子就得移动超过32,000次,结果它们达到了输出的上限。

大模型的推理能力与输出限制探讨

你知道吗?Sonnet 3.7的输出上限是128k,而DeepSeek R1是64K,o3-mini则限于100k token。这些数字包含了模型在给出最终答案前需要用到的推理token。问题是,一旦面对超过13个盘子的汉诺塔任务,这些模型的准确率就会掉到0,因为它们根本无法处理那么多信息!

为了更好地理解,不同的大模型在处理汉诺塔时的能力其实是有限的。DeepSeek可以解决最多12个盘子,而Sonnet 3.7和o3-mini则能应对13个盘子。当使用Claude进行测试时,作者发现,当问题规模变大时,模型竟然选择不进行推理,反而说:“由于移动次数太多,我将简单解释解决方法”,而不是一一列出32,767次的移动步骤。

在处理非常小的问题,比如5到6个盘子时,大模型还是会进行推理的。它们通常会重复问题、使用相同的算法,然后一步步打印出步骤。但是当盘子数量达到9到10个时,模型遇到了输出上限,可能会说:“我无法列出所有步骤,这已经超出了我的能力范围!”

对于不同规模的问题,大模型输出的token数在9-10个盘子时达到峰值。更有趣的是,模型给出的错误答案,或许是因为在每一步推理中,它们会忘记之前选定的盘子。即使每一步选对盘子的几率高达99.99%,一旦盘子超过11个,正确回答的概率就像坐过山车,呈现出指数递减的趋势。

这意味着就算模型能够推理,但在过程中可能会把某个盘子的编号搞混,从A变成B,结果就会导致它们给出的指令根本无法执行。我们现在对大模型的评价标准似乎有点过于苛刻,要求它们的回答完全没有错误,这真的是不太现实。

至于“思考的幻觉”中提到的另一个案例——过河问题,当n=6时,问题在数学上根本无解,这种不可解的问题并不少见。如果我们把大模型在面对这样的问题时的失败当成它们缺乏推理能力的证据,显然是不太合理的。

除了指出论文中的评价缺陷,最新研究还提到了一种更合理的评估方式。与其让大模型逐步写出每个步骤,不如让它们给出一个Lua程序来解决问题,然后运行这个程序,看看输出的结果是否正确。结果显示,Claude-3.7-Sonnet、Claude Opus 4、OpenAIo3和Google Gemini 2.5都能在5000个token的限制下,输出正确的程序,准确率极高。

这完全打破了所谓的推理能力崩溃的说法,表明模型其实是能够进行推理的,只是没能满足那些人为设定的过于严格的评分标准。

LLM的推理能力引发热议

苹果在WWDC之前发布的“思考的幻觉”论文,正好在这个时机引起了更多的关注。文章引发了不少讨论,其中不乏批评的声音。有些人暗示苹果在大模型领域落后于OpenAI和谷歌等竞争对手,可能在试图降低公众的期望值。

他们甚至开玩笑说,提出一些“这一切都是假的,毫无意义”的研究,似乎是为了挽救苹果在Siri等表现不佳的AI产品上的声誉。

关于大模型评估的争议与思考

有人对此表示不满,认为即便是人类也很难完美地解决“汉诺塔”这个有13个盘子的难题。如果没有这样的对比,苹果又怎么能确定随着问题的复杂度增加,准确性下降的挑战不会同样发生在人身上呢?

法国高效能AI初创公司Pleias的工程师亚历山大·多里亚指出,关于思考的幻觉文章忽略了一些细微之处。他认为,这些模型可能在学习某些启发式方法,而不仅仅是简单的模式匹配。

而宾夕法尼亚大学沃顿商学院的人工智能教授伊桑·莫利克则认为,认为大语言模型正“遇到瓶颈”的看法有些过早。他把这种观点比作那些关于“模型崩溃”未能应验的说法。

这场争论突显了一个不断增强的共识:设计出合理的大模型评估方案,如今与模型的设计同样重要。

让大模型列出每一步可能的解决方案,实际上更多是在考验它们的输出极限,而不是它们的规划能力。通过给模型提供程序化的答案或外部临时工作区,我们可以更清晰地看到它们的推理能力。

这个案例也凸显了开发者在部署自主系统时所面临的实际挑战——上下文窗口、输出限制和任务设置可能会影响用户所能看到的性能。对那些希望在企业技术决策中使用基于推理的大模型的团队来说,这场讨论不仅仅是学术问题,它涉及到在实际工作流程中,何时、何地以及如何信任这些模型,尤其是在需要长链规划或精确逐步输出的任务中。

如果一个模型在处理复杂提示时表现得像是“失败”,其实问题可能不在于它的推理能力,而在于任务的构建方式、需要的输出量,或者模型能访问的内存量。这对于开发协作工具、自主代理或决策支持系统等行业尤为重要,因为这些领域的可解释性和任务复杂性都很高。

理解上下文窗口、token预算和评估标准对于设计可靠系统至关重要。开发者可能需要考虑外部化内存、分块推理步骤,或是使用函数和代码来压缩输出,而不是仅仅依赖完整的语言表述。

更值得注意的是,这篇论文引发的争议提醒我们,基准测试和实际应用是两回事。

企业团队应该谨慎,不要过于依赖那些无法真实反映应用场景的合成基准测试,或是那些无意中限制模型展示其潜力的测试。对机器学习研究人员而言,一个重要的启示是:在宣称人工智能里程碑或发布讣告之前,务必确保测试没有把系统困在一个过于狭窄的框架中。

参考资料

https://arxiv.org/pdf/2506.09250

https://lawsen.substack.com/p/when-your-joke-paper-goes-viral

本文来自微信公众号“新智元”,作者:peter东 桃子,36氪经授权发布。

来源:今日头条
原文标题:Claude与人类共著论文,苹果再遭打脸,实验黑幕曝光 – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!

《《Claude联手人类撰写论文,苹果再陷争议,实验内幕揭晓》》有12条评论

  1. 苹果在实验中出现的漏洞真是让人震惊,竟然有测试题根本没解却推给模型。这样的研究方法太不严谨了,期待更多人关注这个问题。

    回复
  2. 苹果的实验漏洞真令人失望,尤其是那些无解的测试题竟然还要模型背锅。希望这能引起更多对AI研究严谨性的关注。

    回复
  3. 苹果的实验设计真是让人无奈,测试题无解却让模型背负责任,真希望能引发对AI研究标准的反思。

    回复
  4. 实验中让模型负责无解的测试题,真是对AI研究的不负责任。希望这样的争议能促使行业自我审视,提高研究标准。

    回复
  5. 苹果这次实验设计的漏洞真是令人咋舌,明明是无解的题目却让模型承担责任,难怪行业内外都在质疑他们的态度和标准。

    回复
  6. 苹果的实验设计问题确实令人费解,竟然让模型承担无解题目的责任,这样的做法显然不专业。希望能引起更多关注与改进。

    回复
  7. 苹果的实验设计漏洞让人无奈,无解的测试题竟然让模型担责,真希望能引起行业对研究标准的重视。

    回复
  8. 苹果的实验漏洞让人感到无奈,居然让模型背负无解题目的责任,这种做法太不负责任了。希望业界能引起重视,改进研究标准。

    回复
  9. 苹果的实验设计问题真让人失望,无解的测试题竟然让模型承担责任,这样的做法实在不应该。希望能引起更多人的关注与反思。

    回复
  10. 苹果这次的实验设计真是个大漏洞,让模型承担无解题目的责任,这种做法根本不合理。希望能引发更多讨论,推动行业改进。

    回复
  11. 苹果在这次实验中竟让模型承担无解题目的责任,实在是对研究的极大不负责任,希望行业能引起重视,改进实验标准。

    回复
  12. 苹果这次的实验设计真是让人感到震惊,无解的测试题竟然让模型背负责任,难怪会引发如此多的质疑。希望能引起更广泛的讨论,推动行业改进。

    回复

发表评论