本文基于权威资料和个人看法撰写,欢迎各位朋友支持哦。
刚刚,GPT-5.2宣称击败了Gemini3.0Pro,结果网友们却指出这背后似乎有点问题,怎么看都像是在作弊吧?
推理能力全开,每完成一个任务就得消耗13.5万个Token,算力成本直接飙到1.9美元,相比之下,Gemini只需6.7万Token,效率差得让人咋舌。
更让人尴尬的是,普通用户体验后纷纷表示,感觉还不如GPT-4o好用,这次升级是不是反向操作啊?

得分高却效率低,GPT-5.2的「算力争议」
从ARCAGI2测试分数来看,GPT-5.2确实以52.9%的得分超越了Gemini3.0Pro。
可是深入分析数据,情况就不一样了。
有技术博主算了一笔账,按照这样的Token消耗,完成一个任务的花费差不多能买一杯奶茶,普通用户可承受得起吗?
更有趣的是,标准化算力后的表现。
将两者的算力拉平后,HLE、MMMU-Pro等测试中,两个模型的表现几乎不相上下。

唯独OpenAI自己制作的GDPVal测试集中,GPT-5.2却突然表现出色,这感觉就像是裁判和运动员是一家人啊。
OpenAI的联合创始人Ilya早就提到,现在的大型模型普遍在进行「榜单优化」,测试结果的可信度其实不高。
当时还有人觉得他在危言耸听,现在看来,GPT-5.2的情况不就是证明了吗?
不仅是OpenAI,谷歌也干过类似的事。
之前Gemini2.5Pro自称在FACTSBenchmark超越GPT-5,结果被揭穿测试集全是自己擅长的领域。

这些大厂都在这么干,AI评测快成营销工具了。
软件工程评测SWEBench的情况更能说明这一点。
有的模型在Python上表现出色,有的则在Java上更强,根本没有谁能够全面超越。
现实世界的问题可不是简单的榜单能概括的,靠算力堆出来的分数,到底是智能的进步还是暴力计算的胜利呢?
用户对GPT-5.2的体验表示失望
厂商们忙着刷榜单,而用户们却在用真实体验投票,GPT-5.2的实际使用感受,远比分数来的扎心。

小王这个程序员最近有些无奈,他用它来查代码,结果把「循环嵌套」给理解成了「变量赋值」,这表现真的是比之前的GPT-4o还夸张。
而且,它的互动方式也让人哭笑不得。
设计师小李对此也有话说,问它排版建议,居然回复得跟哄小朋友一样,‘宝宝觉得这个颜色好可爱哦’,我需要的是专业的分析啊!
和GPT-4o的直接相比,这种体验简直是降级。
为什么测试版和用户版差别这么大呢?有消息透露,GPT-5.1测试时用的是高推理能力,而Plus用户根本用不到,普通用户仅能体验到中等水平。

说白了,就是用高配版来刷榜单,却给用户提供阉割版,这不就跟手机厂商发布会那种演示机的套路一模一样吗?
不过,厂商也有自己的苦衷。
因为高推理能力会带来高昂的服务器成本,若是全部开放给用户,利润就得减少不少。
但如果一直用这种特殊版本来制造领先的假象,用户迟早会反感吧?最近的社区调查显示,有超过六成的用户表示不再相信厂商的测试数据,反而更关注第三方的实测视频。
这种体验的下滑,反映出OpenAI悄然发生了变化,从当初的学术实验室变成了如今的商业巨头,有些东西也被掩盖了。

上个月,经济研究员Tom Cunningham离职,临走前写了篇长文吐槽,表示团队早就不再是个学术研究的地方,而成了公司的宣传部门。
他提到去年评职称时,有一篇关于AI替代客服岗位的论文,结果被要求改成AI如何提升客服效率,负面内容全被删掉。
2023年,OpenAI还敢发布《GPTsAreGPTs》来讨论技术性失业,而今年的报告只剩下「AI每天能帮助用户节省40分钟」这样的内容,敏感话题统统避开。
这种变化也不奇怪。
从一个非营利组织转变为追求万亿估值的公司,目标早就变了。
AI行业的现状与未来:从营销回归本质
新上任的首席经济学家似乎只会发布一些迎合的正面报告,而曾经的克林顿顾问则专注于公关故事,整个研究方向都围绕着公司估值转变。
最近,几位专注AI伦理的研究人员离开了公司,内部调查发现,只有不到四成的人认为公司依然把安全放在第一位。
其实用户的需求并不复杂,别来那些空洞的分数,能解决实际问题、值得信赖就行。
一些中小型的AI团队反而更懂得这一点,有的专注于修复代码的小模型,有的则在文案优化上深耕,虽然它们在排行榜上不显眼,但用户粘性却相当高。
AI行业的竞争,早就该摆脱单纯比拼算力的怪圈了。
与其关注谁的Token多、谁的分数高,不如看看谁能让程序员少改几行bug,设计师多省出几个小时的排版时间。
毕竟,用户并不会为排行榜付费,他们只会为好用的产品买单。
如果OpenAI继续沉迷于营销包装,迟早会被用户用卸载来表达不满。
毕竟,建立信任需要好几年,而一声轻飘飘的回复就可能让信任崩塌。
AI的未来,应该回归到解决问题的核心,否则,即便再高的分数,也无法支撑起万亿估值的泡沫。
不知道你对此怎么看呢?欢迎在评论区分享你的想法,喜欢这篇文章的话记得点赞关注,我们下次再见哦!









