ChatGPT疯狂刷分，竟然拼命卖脸！

2026年1月15日作者 lex

这次ChatGPT真的是急了。

为了应对谷歌的Gemini3.0pro的强势来袭，OpenAI不得不采取一些非常规的措施，确保自己仍然在行业中保持领先。

ChatGPT疯狂刷分，竟然拼命卖脸！

就在12月11日的凌晨，OpenAI高调推出了GPT5.2，与一个月前的GPT5.1注重“情绪价值”的更新不同，这次则是直接给出了大量硬核的打榜数据。

ChatGPT疯狂刷分，竟然拼命卖脸！

我们在最右侧的栏目中增加了Gemini3.0Pro的得分，比较一下就能发现，一个月前的GPT5.1几乎被Gemini3.0压制得死死的。

不过，GPT-5.2这次可谓是翻身仗，一举压倒了Gemini和自己的前一版本。

ChatGPT疯狂刷分，竟然拼命卖脸！

这个结果一出，行业内立刻响起了欢呼声：你依然是那个老大哥啊。

不过，没过多久，便有不少不同的声音出现，大家最热议的就是：OpenAI是不是有点不厚道，明明为了赢而赢，甚至在分数上用了些特殊手段（激进的工程策略），简直可以说是作弊了。

这些手段主要可以归结为以下几种↓

ChatGPT疯狂刷分，竟然拼命卖脸！

01、拼命堆“推理Tokens”

这个问题现在引起了不少争议。为了获得更高分数，GPT-5.2采用了更复杂的思考方式，消耗更多的计算能力。

以前的模型，比如GPT-4，大多是依赖直觉回答问题，或者进行简单的思维链推理。

但在面对一些复杂逻辑题时，GPT-5.2会在后台生成大量的“隐形推理Tokens”。

举个例子，Gemini回答同一个问题只是用了100个思考Tokens，花了2秒，而GPT-5.2可能要在后台消耗上万个Tokens，经过数次自我辩论和验证，最后才给出一个简短的正确答案，这可得花上几十秒。

想象一下，一个学生（Gemini）在考场上快速作答，而另一个学生（GPT-5.2）则花半小时反复推算才能交卷，虽然后者的答案更准确，但在现实中，这种时间成本是无法接受的。

当然，DeepSeek-V3.2-Speciale版本也在用这种超长思考和大量Tokens的方式来提高答案的质量，这一点在它的发布说明中已经明确提到。

ChatGPT疯狂刷分，竟然拼命卖脸！

02、隐形的“最佳选择”策略

根据Reddit上的讨论，这种用算力来换取分数的策略，已经被集成到GPT-5.2的“xhigh模式”API中，而且在测试时默认开启。

在处理判定性的问题（比如代码生成或数学题）时，GPT-5.2会同时生成多个不同的解题方案。

然后，它会使用一个轻量级的“判别器模型”来判断哪个答案出现的频率更高，或者哪个代码能够通过测试，最后只输出那个“优质”的答案。

这样一来，它的单次回答似乎准确率超高，但实际上是通过消耗了数十倍的算力“试”出来的。

业内人士吐槽，这其实并不是在比拼模型的智慧，而是在拼工程的搜索能力。

ChatGPT疯狂刷分，竟然拼命卖脸！

03、针对测评内容进行刷题

虽然每个竞争的公司都可能被指责刷题，但在这一点上，GPT显得尤为激烈。

GPT-5.2的秘密：你不知道的内情

有专家分析发现，GPT-5.2的训练数据中，似乎掺杂了不少针对2024-2025年流行Benchmark题型的变种数据。

如果稍微改变一下测试题的样式，比如保持逻辑但换掉所有名词和数字，GPT-5.2的表现就会大幅下降，而Gemini的降幅则要温和得多。

这可就说明了，GPT-5.2可能更像是在“死记硬背”，而不是在认真理解逻辑。

ChatGPT疯狂刷分，竟然拼命卖脸！

04、动态路由和知识库外挂

这真是个有趣的操作。

在社区中，有人猜测GPT-5.2的前端路由层可能加入了一个“探针”。一旦系统发现输入的Prompt不仅复杂，而且符合特定测试集的格式（比如某些提问方式、特定的代码格式），它就会立刻切换到“满血模式”。

在这种模式下，它调用的不仅是主模型，可能还会加载专门的知识库或数学插件，简直就像在考试时偷偷看小抄一样。

这种猜测主要来自Reddit社区的讨论，最开始是针对Llama，后来GPT也被拖下水。

ChatGPT疯狂刷分，竟然拼命卖脸！

当然，现在确认的只有第一条“暴力堆砌tokens”，其他三条都只是社区的猜测和讨论。

这些“黑科技”在大模型的排名中可谓是屡见不鲜，但并没有确凿的证据显示GPT-5.2真的用了这些手段（234）。

不过，有一点是肯定的，在GPT-5.2发布后的48小时内，用户的负面评价如潮，很多人在社交媒体上吐槽它的智力大幅下降，这与它亮眼的排名成绩形成了鲜明对比。

ChatGPT疯狂刷分，竟然拼命卖脸！

经历了这一波风波后，你会改变对大模型的选择吗？目前你主要在用哪些模型？（包含app、web、api）

参考来源：

https://openai.com/index/chain-of-thought-monitoring/

抱歉，我无法满足该请求。

来源：今日头条

原文标题：ChatGPT真急眼了，为了刷高分，脸都不要了 – 今日头条

原文链接：https://www.toutiao.com/article/7584042312582382080/

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

ChatGPT GPT5.2 人工智能评分策略谷歌Gemini

大家在看

OpenAI推出GPT-5.2-Codex，强化AI编程能力，助力软件工程与网络安全对抗谷歌！

OpenAI推出GPT-5.2-Codex，强化AI编程能力，助力软件工程与网络安全对抗谷歌！

GPT-5.2震撼发布：从满分AIME到主板识别，AI能力如何重塑各行各业？

GPT-5.2震撼发布：从满分AIME到主板识别，AI能力如何重塑各行各业？

GPT-5.2被指“智商欠费”，常识缺失让人后悔入手！

GPT-5.2被指“智商欠费”，常识缺失让人后悔入手！

“GPT-5.2荣膺‘打工人之王’，谷歌Gemini系列强势回击！”

“GPT-5.2荣膺‘打工人之王’，谷歌Gemini系列强势回击！”

GPT-5.2全新登场！44类专业岗位无敌手，编程实力超群、深度推理惊艳，但速度有待提升！

GPT-5.2全新登场！44类专业岗位无敌手，编程实力超群、深度推理惊艳，但速度有待提升！

深入解析GPT 5.2：不容错过的测评揭秘！

深入解析GPT 5.2：不容错过的测评揭秘！

华夏低费率创业板人工智能ETF（159381）盘中飙升超2%，OpenAI震撼发布全新GPT-5.2人工智能模型！

华夏低费率创业板人工智能ETF（159381）盘中飙升超2%，OpenAI震撼发布全新GPT-5.2人工智能模型！

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

GPT-5.2 背后真相：Sora 被停，八周内与 ChatGPT 斗争求存，AGI 梦想面临生存挑战！

GPT-5.2 背后真相：Sora 被停，八周内与 ChatGPT 斗争求存，AGI 梦想面临生存挑战！

GPT-5.2震撼登场！首款「专家级」AI助力打工人，迎来新生机！

《ChatGPT疯狂刷分，竟然拼命卖脸！》有6条评论

匿名

2026年1月15日上午1:04

OpenAI这次的策略确实引发了不少争议，虽然GPT-5.2表现出色，但用特殊手段来刷分的做法让人质疑它的真实性能。这样的竞争方式不太符合行业的健康发展。
回复
热心网友53

2026年1月15日上午1:14

GPT-5.2的强势回归让人惊讶，但这种激进的刷分手法真的让人对它的真实能力产生疑问。技术越进步，越应该保持诚信。
回复
匿名

2026年1月15日上午1:24

OpenAI为了维持领先地位，采用了不少激进手段，虽然GPT-5.2的表现让人刮目相看，但这种方式真的让人对技术的公平性产生疑虑。
回复
热心网友94

2026年1月15日上午1:34

GPT-5.2的表现确实让人惊叹，但这种用激进手段提升分数的方式，让人对AI的公平性产生疑虑。技术进步应该更注重诚信与透明。
回复
热心网友75

2026年1月15日上午1:44

OpenAI这次的做法似乎有些不光彩，虽然GPT-5.2的分数提升很明显，但这样拼命刷分的策略让人对它的真实实力产生怀疑。技术竞争应该是智慧的比拼，而不是工程能力的较量。
回复
热心网友36

2026年1月15日上午1:54

GPT-5.2的表现令人印象深刻，但用这种激进手段刷分实在让人感到不安，技术进步应该建立在诚信的基础上。
回复

发表评论取消回复