GPT-5.2与Gemini-3：谁将引领AI对决？

GPT-5.2的推出，真的是给AI界带来了新一轮的竞争。OpenAI这次毫不犹豫地推出了Instant、Thinking和Pro三个版本，重新夺回了在数学竞赛和编程等传统测试中的领先地位。更让人刮目相看的，是它在ARC-AGI-2和GDPval这些考验抽象思维和实际问题解决能力的测试中取得了惊人的成绩，甚至在70%的任务中可以与人类专家不相上下。不过，相比于谷歌Gemini 3 Pro的稳定性，这场竞争还远未结束。

在各种传闻和红队测试的背景下，尤其是在被谷歌Gemini 3 Pro强势压制后，OpenAI终于亮出了他们的十周年大礼——GPT-5.2。

你可能感兴趣：gpt-5.2实战经验分享：一个开发者的真实使用记录

这次没有什么遮遮掩掩的灰度测试，直接就推出了三个版本：GPT-5.2 Instant（即时版）、Thinking（思考版）和Pro（专业版），可以说是重磅出击。

说实话，每当有新模型发布时，我通常会先观望一段时间，毕竟谁也不能保证接下来不会出问题。（其实主要是因为太忙了，一边要研究一边还得写稿，真是有些……）

GPT-5.2与Gemini-3：谁将引领AI对决？

好了，不扯那些没用的，我们今天的重点是三个问题：它到底在哪些方面变强了？能否帮助我们工作？还有，它与谷歌Gemini 3 Pro相比，究竟谁才是现在的领头羊？

01 跑分是虚的？还是实力真长进了

先来看看传统的测试分数。

GPT-5.2与Gemini-3：谁将引领AI对决？

在软件工程（SWE-Bench Pro）和数学竞赛（AIME 2025）这些传统项目上，GPT-5.2 确实再次夺回了第一的位置。

AIME 2025（数学竞赛）：GPT-5.2 Thinking 以100%的满分成绩完成了挑战。值得一提的是，这个成绩是在没有联网、不运行代码，纯靠思考的情况下取得的。而谷歌的Gemini 3 Pro则得到了95%的分数。

GPT-5.2的神奇表现，真让人惊叹！

SWE-Bench Pro（写代码）：得分55.6%，比起Gemini 3 Pro的43.3%可算是遥遥领先。

看起来很不错，是吧？不过说实话，这些分数的提高对于一般用户来说，感觉并不明显。就像你手机处理器的跑分高了几万，但如果你不玩游戏，根本不会有任何感受。

不过，有两个评测集让我觉得，GPT-5.2这次真的是大放异彩，必须跟大家好好聊聊。

一个是ARC-AGI-2，另一个是GDPval。

02 ARC-AGI-2到底是什么呢？（一句话概括：不靠死记硬背，AI更看重悟性）

可能你对ARC-AGI-2这个名字还不太熟悉。

简单来说，之前的AI测试（像MMLU）主要考的是“晶体智力”。比如问AI：“螺丝粉是哪里的？”、“出来混最重要的是什么？”这样的问题，对于一个看遍网络的GPT来说，简直就像开卷考试，它能答对，大部分是因为它记性好、搜索快。

而ARC（Abstraction and Reasoning Corpus）是Keras的创始人François Chollet设计的超级测试，专门用来检测“流体智力”。

流体智力是什么？就是你理解和推理的能力。

ARC的题目都是那些从未见过的抽象图形规律，AI在网上找不到答案，必须现场看图、找规律、进行推理。

举个例子来帮助大家理解：

GPT-5.2与Gemini-3：谁将引领AI对决？

题目：

GPT-5.2与Gemini-3：谁将引领AI对决？

在GPT-5.2出现之前，纯粹的LLM模型在这个测试中几乎都是笑话，得分通常是个位数，甚至是0，几乎跟蒙答案无异。上一代的GPT-5.1得分也仅有17.6%。

但这次，GPT-5.2 Thinking直接飙到了52.9%。

分数翻了三倍！这意味着GPT-5.2不再只是简单地预测下一个字，而是开始在内部进行“假设-验证”的过程。它就像人一样，先猜一个规律，发现不对，再换一个，直到找到正确答案。

这就是所谓的System 2思维。在逻辑推理和抽象理解方面，GPT-5.2确实展现出了强大的优势。相比之下，谷歌的Gemini 3 Deep Think得分只有45.1%，虽然也不错，但还是被拉开了距离。

03 GDPval（一句话：现实版的实力考验，看看AI能否解决你面临的问题）

如果说ARC是测智商的，那么GDPval则是用来考察能否创造价值、解决实际问题的。

这是OpenAI与哈佛经济学家共同开发的新指标。它们不考选择题，而是直接从美国GDP贡献最大的9个行业中，挑选了44个核心职业（如律师、金融分析师、产品经理），让行业专家出题。

这些题目都是这种风格：

“为这家公司做一个人力资源规划模型，包含人员编制、预算影响分析，给我一个Excel。”
“根据这份临床数据，写一份医药研发报告摘要。”

这里还有一些官方案例：

人力资源规划的（附提示词）

GPT-5.2与Gemini-3：谁将引领AI对决？

股权结构表（附提示词）

人工智能的进化：开创工作新局面

想象一下，你让一款AI软件来帮你处理一些复杂的项目管理工作，比如人力资源规划或临床数据分析。这些任务可不是随便就能搞定的，可能需要几周的时间，听起来就有点吓人，对吧？

不过，最近的评测结果却让人感到振奋：在70.9%的任务中，GPT-5.2的表现被专家们普遍认为超越或持平于人类专家。这可不是在考验刚毕业的新人，而是与拥有十多年经验的行业老手相抗衡！之前的GPT-5仅有38.8%的胜率，差距可真大。

这到底意味着什么呢？简单来说，如果你让GPT-5.2来写一份PRD文档，做个竞品分析表，或者设计财报分析的PPT大纲，它可不是随便给你一堆没用的东西，而是能提供真实可交付的成果。

尤其是它在Artifacts能力上的提升，简直让人惊叹。它生成的Excel公式非常精准，格式也很美观；而且它编写的代码结构也相当完整。

这对我们这些普通人来说，简直是个生产力的解放者！就像请到了顶尖的咨询顾问，帮你解决那些繁琐的工作，而费用却不到人类薪资的1%。

Gemini 3 Pro：竞争中的黑马

看到这里，你可能觉得OpenAI已经遥遥领先了，Gemini 3 Pro也许会被打败？

等等，别急。

尽管GPT-5.2在短期任务和快速反应方面表现优异，但在需要长时间稳定输出的“长跑”中，情况可能会有所不同。

这里有个有趣的评测叫Vending-Bench（自动售货机基准），它让AI模拟经营一家虚拟公司，整整一年都要处理库存、定价和回复邮件，这可考验AI的连贯性（Coherence）和稳定性。

结果出来了：Gemini 3 Pro赢得了这场持久战，而且表现相当稳健。

Gemini 3 Pro的经营曲线如同一条稳定上升的直线，得益于它强大的100万上下文窗口，它能够轻松记住第一天的决策，稳扎稳打。

聊聊GPT-5.2和Gemini 3 Pro的表现

说到GPT-5.2，它的表现简直就像过山车。起初表现得非常聪明，赚得快得让人瞩目，但随着时间的推移，它却开始出现一些“失常”的情况。比如，它会忘记之前的任务，甚至在某些时候会陷入死循环，导致崩溃。

这引出了一个最近在社区里争论得很热烈的话题：Benchmaxxing（基准刷分）。

有不少人开始怀疑，OpenAI是不是为了在ARC和AIME这些排行榜上超越谷歌，把GPT-5.2培养成了一个“应试型选手”。

当遇到困难的问题时，它会表现得过于自信，甚至会出现幻觉率的提升。为了获得高分，它宁愿编造答案，也不愿意承认自己不知道。
在一些简单的日常对话中，它有时反而会“想得太多”，把简单的问题复杂化，结果不如Gemini 3 Pro来的流畅自然。

06 结论：我们该如何选择

那么，我们回到最初的问题：GPT-5.2是否再次成为最强的选择呢？

我的看法是：它可能是某些领域内的顶尖专家，但Gemini依然是个值得信赖的伙伴（尤其是那些已经享受了一年会员的用户，完全不需要担心使用体验的问题）

如果把AI比作你的同事：

GPT-5.2 Thinking就像一位顶级咨询顾问（专家类型）。遇到复杂的算法问题、需要通过逻辑测试，或者想要一份完美的商业计划书时，找它准没错。它能深入思考，给出令人惊喜的方案，尤其是在深度推理方面无敌。
而Gemini 3 Pro则是一位经验丰富的项目经理（通才）。它就像你的工作助手，拥有无限的记忆能力（长上下文），能理解你所有的文档和视频（多模态支持）。虽然在做数学题上不如GPT-5.2，但它情绪稳定，工作连贯，绝不会突然崩溃。尤其在图像和视觉理解方面，Gemini 3依旧表现不俗。

说实话，我的建议是：

如果你需要进行复杂的逻辑推理，或者想准备一个完美的PPT，就选GPT-5.2。虽然它的API费用略高，但绝对值得。

反之，如果你需要处理大量的文档、分析长视频，或者想要一个常驻的数字助手，Gemini 3 Pro依然是最好的选择。

程序员们，记得带着你的claude去找灵感哦。

这场AI大战，没有谁能彻底打败谁。OpenAI在表面上赢得了胜利（跑分），而谷歌则在生态和稳定性上占了上风。

但对于我们用户来说，这真是个好消息。

毕竟，小孩子才需要选择，作为成熟的Pro用户，我当然是想要两个都用。

最后，大家对这次GPT-5.2的表现怎么看呢？这次的“牙膏”挤得值不值得。

感谢大家看到这里！如果觉得不错，记得点个赞哦。

我们下次再聊。

溜了~

本文由 @虾灰鱼原创发布于人人都是产品经理。未经作者许可，禁止转载。