编辑:Aeneas 好困
【新智元导读】最近,GPT-5.2在和Gemini 3.0 Pro的对决中大获全胜,但有网友指出,这背后似乎有些猫腻,可能是依靠高推理能力和大量Token的“作弊”手段。这一说法在AI圈引发了热议,很多人也纷纷表示:GPT-5.2其实并没有想象中那么好用!
真是戏剧性的转折。
OpenAI刚发布的强大工具GPT-5.2,没想到第二天就被指控存在虚假宣传?
在科技圈的凌晨,一条爆料正在发酵——
有位用户通过仔细分析发现,OpenAI在最新的基准测试中,似乎通过调整模型的推理参数,使得GPT-5.2在一些重要测试中使用了远超对手的算力。

简单来说,调整token的使用后,GPT-5.2和Gemini 3 Pro在ARC AGI 2的表现几乎不相上下。
具体问题可以从这几张图中看出。

从图中可以看出,OpenAI在基准测试时使用的token数量,至少是Gemini 3.0 Pro的两倍。
就好比两个棋手比赛,其中一位有一小时的思考时间,而另一位只有十分钟,然后就宣布前者获胜。
在这样的情况下,结果真的公平吗?

OpenAI的胜利,真有道理还是在作弊?
昨天,AI圈子里都在热议GPT-5.2把Gemini 3.0 Pro打得落花流水的消息,尤其是它在ARC AGI 2测试中的表现,简直是让人刮目相看。
不过,咱们得想想,这些结果的真实性可能并不那么简单。

比如在备受关注的ARC AGI 2的测试中,GPT-5.2的高配版得分是52.9%,而每个任务却要消耗大约13.5万个token。
按照API的定价,单个任务的算力成本竟然高达1.9美元。
而相比之下,谷歌的Gemini 3.0 Pro在使用6.7万token的情况下,得到了类似的成绩,效率简直是一倍以上。
如果我们把算力的投入进行标准化对比,会发现这两个模型的真实实力其实不相上下。
如果这个推论是普遍适用的,那么在token使用量超过Gemini 3的两倍情况下,GPT 5.2在HLE、MMMU-Pro、Video-MMMU和Frontier Math Tier 4的表现还不尽如人意。
在GPQA的测试中,它们的成绩差不多。而在Frontier Math Tier 3中,GPT 5.2的高配版只比Gemini 3 Pro高了2.7%。
唯一的例外是GDPVal——这是OpenAI自己设计的测试集。可以说,它既是裁判又是选手,这样的结果可真让人怀疑。


Ilya:我早就说过了
说实话,Ilya之前在采访里就提到过,现在的AI大模型其实都是围绕排行榜在优化的,榜单的可信度真的要打个问号。
在业内,大家都知道,AI基准测试的竞争早已不单纯是技术的比拼了。各个公司都在推出自己的评测标准,而这些标准往往是站在自家模型的角度来设计的。

而且,这种情况可不止OpenAI一家在干。
比如谷歌的FACTS Benchmark中,Gemini 2.5 Pro超越GPT-5的结果,也许也得重新审视一下。
在SWE Bench(软件工程测试)中,情况就变得更复杂了。
每个模型在不同的编程任务上都有自己的优劣势,但没有哪个模型能在所有任务上全面领先。显然,现实中的问题远比一个简单的分数要复杂得多。
所以,这次事件就揭示了AI评测的一大困境——
如果GPT-5.2的提升仅仅是依赖更强的算力,那么这算不算是真正的智能进步呢?还是说只是「暴力计算」的胜利而已?
对于OpenAI这次的「虚假宣传」,网友们也是热议不断。

关于OpenAI的争议,大家怎么看?
有些人认为,如果用户得到的“推理力度”参数是一样的,而且用的也是相同的token,那么OpenAI就不算是在虚假宣传。
但如果实际测评的版本和用户使用的完全不一样,那就不太好说了,这就可能是欺骗了。

当然,也有不少人选择支持OpenAI。
他们觉得,即便Gemini 3的token数量增加了,它也未必能超越GPT-5.2,从这点上来说,Gemini 3确实有些跟不上。
还有人认为,既然模型的价格是透明的,那就没什么好说的,不能算是欺骗。



谁说一切都那么完美?GPT-5.2的真实反馈来了!
有趣的是,大家都开始提起“货不对板”这个问题了。

在另一个帖子里,有人也提到OpenAI的“作弊”问题——
早在GPT-5.1发布的时候,所有的基准测试都用的是高推理强度(high),可plus用户却只能用中等版本。
而现在的5.2版本中,OpenAI引入了更高的“xhigh”推理强度,因此基准测试中看到的性能,实际上远远超出了ChatGPT付费用户的真实体验。


用户体验GPT-5.2到底怎样?
不看那些排行榜,咱来聊聊用户实际的感受吧。
有位网友分享了他的使用体验,坦言对GPT-5.2的第一印象并不怎么样。

你知道吗?在检查代码的时候,这个版本的幻觉现象特别严重。
有网友原以为GPT-5.2会比5.1有很大提升,结果一用却发现,它根本搞不懂他写的函数代码。

还有一些网友觉得,GPT-5.2对待成年人就像是对待小孩一样,真心觉得这次更新像是退步。

OpenAI的老用户们,似乎还是最想念GPT-4o的表现。

总的来说,GPT-5.2的真实使用感受和基准测试的结果差别很大,可能又是个匆忙推出的产品。
OpenAI的变化,你看到了吗?
说实话,OpenAI今天的样子,真不是一两天就能搞出来的。它被谷歌逼得连滚带爬的背后,隐藏着许多故事。
扩展阅读:奥特曼都怕了!GPT-5.5的「大蒜」与谷歌的较量,红色警报已经拉响。

OpenAI,变了
你想想看,当一家机构既要研究AI,又得靠AI来赚钱,它还能老老实实地面对那些难听的事实吗?
根据Wired的最新报道,OpenAI内部正在经历一场关于“真相权”的大动荡。
在面对“AI会不会抢走你的工作”这种致命问题时,OpenAI的做法悄然发生了变化:闭嘴,专心挣钱。
为了商业利益而牺牲学术独立性,结果是把自己的研究员都“气走”了。

“我们成了老板的喉舌”
回顾2023年,OpenAI发布的那篇重磅论文《GPTs Are GPTs》,直接分析了哪些行业最有可能被AI打乱,并且在第二年就上了Science。
那时候,他们还敢直面“技术性失业”的阴影。

OpenAI的最新动态:报告引发的热议

论文地址:[点击这里](https://arxiv.org/abs/2303.10130)
Science:[点击这里](https://www.science.org/doi/10.1126/science.adj0998)
不过,今年9月的情况有些不同了。
在新任首席经济学家亚伦·查特吉的带领下,OpenAI推出了一份名为《全球用户如何使用ChatGPT》的报告。
这份报告从学生的作业到职场的日常,详尽描绘了AI如何改变我们的生活。
结论也是不言而喻:AI正成为提升生产力的关键,创造着巨大的经济价值。
报告中提到,很多企业用户表示,ChatGPT每天能为他们节省40到60分钟的时间。

报告地址:[点击这里](https://www.nber.org/papers/w34255)
扩展阅读:7亿人每周发出180亿条消息!OpenAI首次揭秘ChatGPT的热门用途
对此,一位前员工则表示:「这简直是为『AI创造价值』这个观点写的广告,感觉很不真实。」

离职信中的“真相”
最近的一个矛盾焦点,就是OpenAI的一位重要成员、经济研究团队的Tom Cunningham选择了离职。
过去一年,OpenAI对与「负面影响」相关的研究审查越来越严格。
那些讨论AI如何取代一些初级岗位(比如客服和行政助理)的课题,要么被要求调整措辞,要么就被直接忽视。
Cunningham忍无可忍,在Slack上留下了一封直言不讳的告别信:
我们本来是要做严谨学术研究的,现在却变成了公司宣传的工具。
他认为,团队不仅失去了研究AI负面影响的空间,反而被迫为公司抹光。

Cunningham并不是唯一一个选择离开的员工。
- 前政策研究主管Miles Brundage在离职时直言,公司过于张扬,限制太多,导致他无法发表真正重要的观点。
- 超级对齐团队的William Saunders因对公司只顾推新产品、忽视用户风险的不满而愤然辞职。
- 前安全研究员Steven Adler则公开批评ChatGPT可能会引发用户的「精神危机和妄想」。
扩展阅读:我为何离开OpenAI?一位六年老员工的离职长文:AGI时代即将来临,但我们远未准备好

价值一万亿美元的「沉默」
面对Cunningham的离职,OpenAI的高层们迅速展开了危机公关。
首席战略官Jason Kwon在备忘录中做了回应:
既然我们把AI带到了这个世界,就得负起责任,去解决问题,而不是一味地盯着问题本身。
简单来说就是:别再发论文说AI会造成失业了,这样对销售不利;多想想怎么吹捧我们的产品能提高效率吧。
那么,OpenAI为啥要如此行事?答案其实在他们的账本里。
OpenAI的悖论:在盈利与责任之间的挣扎

现在的OpenAI可真是变了模样,不再是当初的非营利性实验室,估值已经冲上了1万亿美元,并且正在筹备史上最大的上市。
- 他们从微软那里获得了数百亿美元的资金;
- 为了继续发展,他们还计划向芯片制造商再融资1000亿;
- 未来,他们承诺将向微软支付2500亿美元以购买云服务。
在如此巨额的利益面前,诚实似乎成了奢侈品。
如果你正在筹备上市,还想让大家都来支持AI的发展,那肯定不希望自家研究人员跳出来说:“根据数据,AI可能会让30%的白领失业。”
扩展阅读:OpenAI明年上市,万亿美元估值将成史上最大IPO

「岁月静好」的另一面
有趣的是,老对手Anthropic似乎选择了截然不同的策略。
他们的CEO Dario Amodei甚至直接放话,警告说到2030年,AI可能会取代一半的入门级白领。
当然,这未必是出于诚实——很多人认为,这只是Anthropic为了争取监管利益而制造的“焦虑”。
扩展阅读:Anthropic CEO:最快明年,一半初级白领下岗!失业率将达10%-20%
但回头看看OpenAI,他们的情况更为复杂。
现在负责经济研究的,是曾经的克林顿顾问,绰号「灾难大师」的危机公关高手——Chris Lehane。
AI:你的贴心助手,而不是社会动荡的元凶
在这次修订过的新版本中,AI并不是那个会让社会动荡的“怪物”,反而是个贴心的助手,帮你每天节省40分钟的时间。
那么,关于失业、动荡和经济泡沫的那些尴尬事实呢?
嘘,为了那1万亿的估值,咱们还是别吵了。
