GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

2026年1月14日作者 lex

编辑：Aeneas 好困

【新智元导读】最近，GPT-5.2在和Gemini 3.0 Pro的对决中大获全胜，但有网友指出，这背后似乎有些猫腻，可能是依靠高推理能力和大量Token的“作弊”手段。这一说法在AI圈引发了热议，很多人也纷纷表示：GPT-5.2其实并没有想象中那么好用！

真是戏剧性的转折。

OpenAI刚发布的强大工具GPT-5.2，没想到第二天就被指控存在虚假宣传？

在科技圈的凌晨，一条爆料正在发酵——

有位用户通过仔细分析发现，OpenAI在最新的基准测试中，似乎通过调整模型的推理参数，使得GPT-5.2在一些重要测试中使用了远超对手的算力。

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

简单来说，调整token的使用后，GPT-5.2和Gemini 3 Pro在ARC AGI 2的表现几乎不相上下。

具体问题可以从这几张图中看出。

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

从图中可以看出，OpenAI在基准测试时使用的token数量，至少是Gemini 3.0 Pro的两倍。

就好比两个棋手比赛，其中一位有一小时的思考时间，而另一位只有十分钟，然后就宣布前者获胜。

在这样的情况下，结果真的公平吗？

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

OpenAI的胜利，真有道理还是在作弊？

昨天，AI圈子里都在热议GPT-5.2把Gemini 3.0 Pro打得落花流水的消息，尤其是它在ARC AGI 2测试中的表现，简直是让人刮目相看。

不过，咱们得想想，这些结果的真实性可能并不那么简单。

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

比如在备受关注的ARC AGI 2的测试中，GPT-5.2的高配版得分是52.9%，而每个任务却要消耗大约13.5万个token。

按照API的定价，单个任务的算力成本竟然高达1.9美元。

而相比之下，谷歌的Gemini 3.0 Pro在使用6.7万token的情况下，得到了类似的成绩，效率简直是一倍以上。

如果我们把算力的投入进行标准化对比，会发现这两个模型的真实实力其实不相上下。

如果这个推论是普遍适用的，那么在token使用量超过Gemini 3的两倍情况下，GPT 5.2在HLE、MMMU-Pro、Video-MMMU和Frontier Math Tier 4的表现还不尽如人意。

在GPQA的测试中，它们的成绩差不多。而在Frontier Math Tier 3中，GPT 5.2的高配版只比Gemini 3 Pro高了2.7%。

唯一的例外是GDPVal——这是OpenAI自己设计的测试集。可以说，它既是裁判又是选手，这样的结果可真让人怀疑。

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

Ilya：我早就说过了

说实话，Ilya之前在采访里就提到过，现在的AI大模型其实都是围绕排行榜在优化的，榜单的可信度真的要打个问号。

在业内，大家都知道，AI基准测试的竞争早已不单纯是技术的比拼了。各个公司都在推出自己的评测标准，而这些标准往往是站在自家模型的角度来设计的。

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

而且，这种情况可不止OpenAI一家在干。

比如谷歌的FACTS Benchmark中，Gemini 2.5 Pro超越GPT-5的结果，也许也得重新审视一下。

在SWE Bench（软件工程测试）中，情况就变得更复杂了。

每个模型在不同的编程任务上都有自己的优劣势，但没有哪个模型能在所有任务上全面领先。显然，现实中的问题远比一个简单的分数要复杂得多。

所以，这次事件就揭示了AI评测的一大困境——

如果GPT-5.2的提升仅仅是依赖更强的算力，那么这算不算是真正的智能进步呢？还是说只是「暴力计算」的胜利而已？

对于OpenAI这次的「虚假宣传」，网友们也是热议不断。

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

关于OpenAI的争议，大家怎么看？

有些人认为，如果用户得到的“推理力度”参数是一样的，而且用的也是相同的token，那么OpenAI就不算是在虚假宣传。

但如果实际测评的版本和用户使用的完全不一样，那就不太好说了，这就可能是欺骗了。

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

当然，也有不少人选择支持OpenAI。

他们觉得，即便Gemini 3的token数量增加了，它也未必能超越GPT-5.2，从这点上来说，Gemini 3确实有些跟不上。

还有人认为，既然模型的价格是透明的，那就没什么好说的，不能算是欺骗。

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

谁说一切都那么完美？GPT-5.2的真实反馈来了！

有趣的是，大家都开始提起“货不对板”这个问题了。

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

在另一个帖子里，有人也提到OpenAI的“作弊”问题——

早在GPT-5.1发布的时候，所有的基准测试都用的是高推理强度（high），可plus用户却只能用中等版本。

而现在的5.2版本中，OpenAI引入了更高的“xhigh”推理强度，因此基准测试中看到的性能，实际上远远超出了ChatGPT付费用户的真实体验。

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

用户体验GPT-5.2到底怎样？

不看那些排行榜，咱来聊聊用户实际的感受吧。

有位网友分享了他的使用体验，坦言对GPT-5.2的第一印象并不怎么样。

关于GPT-5.2，你想知道的都在这里！

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

你知道吗？在检查代码的时候，这个版本的幻觉现象特别严重。

有网友原以为GPT-5.2会比5.1有很大提升，结果一用却发现，它根本搞不懂他写的函数代码。

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

还有一些网友觉得，GPT-5.2对待成年人就像是对待小孩一样，真心觉得这次更新像是退步。

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

OpenAI的老用户们，似乎还是最想念GPT-4o的表现。

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

总的来说，GPT-5.2的真实使用感受和基准测试的结果差别很大，可能又是个匆忙推出的产品。

OpenAI的变化，你看到了吗？

说实话，OpenAI今天的样子，真不是一两天就能搞出来的。它被谷歌逼得连滚带爬的背后，隐藏着许多故事。

扩展阅读：奥特曼都怕了！GPT-5.5的「大蒜」与谷歌的较量，红色警报已经拉响。

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

OpenAI，变了

你想想看，当一家机构既要研究AI，又得靠AI来赚钱，它还能老老实实地面对那些难听的事实吗？

根据Wired的最新报道，OpenAI内部正在经历一场关于“真相权”的大动荡。

在面对“AI会不会抢走你的工作”这种致命问题时，OpenAI的做法悄然发生了变化：闭嘴，专心挣钱。

为了商业利益而牺牲学术独立性，结果是把自己的研究员都“气走”了。

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

“我们成了老板的喉舌”

回顾2023年，OpenAI发布的那篇重磅论文《GPTs Are GPTs》，直接分析了哪些行业最有可能被AI打乱，并且在第二年就上了Science。

那时候，他们还敢直面“技术性失业”的阴影。

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

OpenAI的最新动态：报告引发的热议

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

论文地址：[点击这里](https://arxiv.org/abs/2303.10130)

Science：[点击这里](https://www.science.org/doi/10.1126/science.adj0998)

不过，今年9月的情况有些不同了。

在新任首席经济学家亚伦·查特吉的带领下，OpenAI推出了一份名为《全球用户如何使用ChatGPT》的报告。

这份报告从学生的作业到职场的日常，详尽描绘了AI如何改变我们的生活。

结论也是不言而喻：AI正成为提升生产力的关键，创造着巨大的经济价值。

报告中提到，很多企业用户表示，ChatGPT每天能为他们节省40到60分钟的时间。

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

报告地址：[点击这里](https://www.nber.org/papers/w34255)

扩展阅读：7亿人每周发出180亿条消息！OpenAI首次揭秘ChatGPT的热门用途

对此，一位前员工则表示：「这简直是为『AI创造价值』这个观点写的广告，感觉很不真实。」

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

离职信中的“真相”

最近的一个矛盾焦点，就是OpenAI的一位重要成员、经济研究团队的Tom Cunningham选择了离职。

过去一年，OpenAI对与「负面影响」相关的研究审查越来越严格。

那些讨论AI如何取代一些初级岗位（比如客服和行政助理）的课题，要么被要求调整措辞，要么就被直接忽视。

Cunningham忍无可忍，在Slack上留下了一封直言不讳的告别信：

我们本来是要做严谨学术研究的，现在却变成了公司宣传的工具。

他认为，团队不仅失去了研究AI负面影响的空间，反而被迫为公司抹光。

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

Cunningham并不是唯一一个选择离开的员工。

前政策研究主管Miles Brundage在离职时直言，公司过于张扬，限制太多，导致他无法发表真正重要的观点。
超级对齐团队的William Saunders因对公司只顾推新产品、忽视用户风险的不满而愤然辞职。
前安全研究员Steven Adler则公开批评ChatGPT可能会引发用户的「精神危机和妄想」。

扩展阅读：我为何离开OpenAI？一位六年老员工的离职长文：AGI时代即将来临，但我们远未准备好

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

价值一万亿美元的「沉默」

面对Cunningham的离职，OpenAI的高层们迅速展开了危机公关。

首席战略官Jason Kwon在备忘录中做了回应：

既然我们把AI带到了这个世界，就得负起责任，去解决问题，而不是一味地盯着问题本身。

简单来说就是：别再发论文说AI会造成失业了，这样对销售不利；多想想怎么吹捧我们的产品能提高效率吧。

那么，OpenAI为啥要如此行事？答案其实在他们的账本里。

OpenAI的悖论：在盈利与责任之间的挣扎

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

现在的OpenAI可真是变了模样，不再是当初的非营利性实验室，估值已经冲上了1万亿美元，并且正在筹备史上最大的上市。

他们从微软那里获得了数百亿美元的资金；
为了继续发展，他们还计划向芯片制造商再融资1000亿；
未来，他们承诺将向微软支付2500亿美元以购买云服务。

在如此巨额的利益面前，诚实似乎成了奢侈品。

如果你正在筹备上市，还想让大家都来支持AI的发展，那肯定不希望自家研究人员跳出来说：“根据数据，AI可能会让30%的白领失业。”

扩展阅读：OpenAI明年上市，万亿美元估值将成史上最大IPO

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

「岁月静好」的另一面

有趣的是，老对手Anthropic似乎选择了截然不同的策略。

他们的CEO Dario Amodei甚至直接放话，警告说到2030年，AI可能会取代一半的入门级白领。

当然，这未必是出于诚实——很多人认为，这只是Anthropic为了争取监管利益而制造的“焦虑”。

扩展阅读：Anthropic CEO：最快明年，一半初级白领下岗！失业率将达10%-20%

但回头看看OpenAI，他们的情况更为复杂。

现在负责经济研究的，是曾经的克林顿顾问，绰号「灾难大师」的危机公关高手——Chris Lehane。

AI：你的贴心助手，而不是社会动荡的元凶

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

在这次修订过的新版本中，AI并不是那个会让社会动荡的“怪物”，反而是个贴心的助手，帮你每天节省40分钟的时间。

那么，关于失业、动荡和经济泡沫的那些尴尬事实呢？

嘘，为了那1万亿的估值，咱们还是别吵了。

来源：今日头条

原文标题：GPT-5.2被曝作弊！偷袭谷歌竟靠拉爆token刷高分，不如Gemini 3 – 今日头条

原文链接：https://www.toutiao.com/article/7583889628453782050/

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

Gemini 3 GPT-5.2 人工智能作弊基准测试

大家在看

“GPT-5.2荣膺‘打工人之王’，谷歌Gemini系列强势回击！”

“GPT-5.2荣膺‘打工人之王’，谷歌Gemini系列强势回击！”

深入解析GPT 5.2：不容错过的测评揭秘！

深入解析GPT 5.2：不容错过的测评揭秘！

谷歌Gemini Agent强势来袭，GPT-5.2能否迎战？网友热议：Altman或将再次发出“红色警报”！

谷歌Gemini Agent强势来袭，GPT-5.2能否迎战？网友热议：Altman或将再次发出“红色警报”！

OpenAI十周年庆典：GPT-5.2是颠覆者还是失落者？

OpenAI十周年庆典：GPT-5.2是颠覆者还是失落者？

OpenAI GPT-5.2震撼登场，对抗谷歌Gemini 3，AI大模型的进化新纪元！

GPT-5.2震撼登场！首款「专家级」AI助力打工人，迎来新生机！

无需微调的创新辅助系统助力GPT-5.2准确率创下75%新高！

AI如何重塑音乐产业的未来？

AI如何重塑音乐产业的未来？

GPT-5.2惊天逆袭！从降智到封神，华人巨头的秘密曝光！

GPT-5.2惊天逆袭！从降智到封神，华人巨头的秘密曝光！

GPT-5.2 背后真相揭晓：技术团队未偏离正轨，用户却成了“冤大头”！

GPT-5.2 背后真相揭晓：技术团队未偏离正轨，用户却成了“冤大头”！

发表评论取消回复