GPT-5.2与Gemini-3:谁将引领AI对决?

GPT-5.2的推出,真的是给AI界带来了新一轮的竞争。OpenAI这次毫不犹豫地推出了Instant、Thinking和Pro三个版本,重新夺回了在数学竞赛和编程等传统测试中的领先地位。更让人刮目相看的,是它在ARC-AGI-2和GDPval这些考验抽象思维和实际问题解决能力的测试中取得了惊人的成绩,甚至在70%的任务中可以与人类专家不相上下。不过,相比于谷歌Gemini 3 Pro的稳定性,这场竞争还远未结束。

GPT-5.2与Gemini-3:谁将引领AI对决?

在各种传闻和红队测试的背景下,尤其是在被谷歌Gemini 3 Pro强势压制后,OpenAI终于亮出了他们的十周年大礼——GPT-5.2。

这次没有什么遮遮掩掩的灰度测试,直接就推出了三个版本:GPT-5.2 Instant(即时版)、Thinking(思考版)和Pro(专业版),可以说是重磅出击。

说实话,每当有新模型发布时,我通常会先观望一段时间,毕竟谁也不能保证接下来不会出问题。(其实主要是因为太忙了,一边要研究一边还得写稿,真是有些……)

GPT-5.2与Gemini-3:谁将引领AI对决?

好了,不扯那些没用的,我们今天的重点是三个问题:它到底在哪些方面变强了?能否帮助我们工作?还有,它与谷歌Gemini 3 Pro相比,究竟谁才是现在的领头羊?

01 跑分是虚的?还是实力真长进了

先来看看传统的测试分数。

GPT-5.2与Gemini-3:谁将引领AI对决?GPT-5.2与Gemini-3:谁将引领AI对决?

在软件工程(SWE-Bench Pro)和数学竞赛(AIME 2025)这些传统项目上,GPT-5.2 确实再次夺回了第一的位置。

  • AIME 2025(数学竞赛):GPT-5.2 Thinking 以100%的满分成绩完成了挑战。值得一提的是,这个成绩是在没有联网、不运行代码,纯靠思考的情况下取得的。而谷歌的Gemini 3 Pro则得到了95%的分数。
  • GPT-5.2的神奇表现,真让人惊叹!

    • SWE-Bench Pro(写代码):得分55.6%,比起Gemini 3 Pro的43.3%可算是遥遥领先。

    看起来很不错,是吧?不过说实话,这些分数的提高对于一般用户来说,感觉并不明显。就像你手机处理器的跑分高了几万,但如果你不玩游戏,根本不会有任何感受。

    不过,有两个评测集让我觉得,GPT-5.2这次真的是大放异彩,必须跟大家好好聊聊。

    一个是ARC-AGI-2,另一个是GDPval

    02 ARC-AGI-2到底是什么呢?(一句话概括:不靠死记硬背,AI更看重悟性)

    可能你对ARC-AGI-2这个名字还不太熟悉。

    简单来说,之前的AI测试(像MMLU)主要考的是“晶体智力”。比如问AI:“螺丝粉是哪里的?”、“出来混最重要的是什么?”这样的问题,对于一个看遍网络的GPT来说,简直就像开卷考试,它能答对,大部分是因为它记性好、搜索快

    而ARC(Abstraction and Reasoning Corpus)是Keras的创始人François Chollet设计的超级测试,专门用来检测“流体智力”

    流体智力是什么?就是你理解和推理的能力。

    ARC的题目都是那些从未见过的抽象图形规律,AI在网上找不到答案,必须现场看图、找规律、进行推理。

    举个例子来帮助大家理解:

    GPT-5.2与Gemini-3:谁将引领AI对决?

    题目:

    GPT-5.2与Gemini-3:谁将引领AI对决?

    在GPT-5.2出现之前,纯粹的LLM模型在这个测试中几乎都是笑话,得分通常是个位数,甚至是0,几乎跟蒙答案无异。上一代的GPT-5.1得分也仅有17.6%

    但这次,GPT-5.2 Thinking直接飙到了52.9%

    分数翻了三倍!这意味着GPT-5.2不再只是简单地预测下一个字,而是开始在内部进行“假设-验证”的过程。它就像人一样,先猜一个规律,发现不对,再换一个,直到找到正确答案。

    这就是所谓的System 2思维。在逻辑推理和抽象理解方面,GPT-5.2确实展现出了强大的优势。相比之下,谷歌的Gemini 3 Deep Think得分只有45.1%,虽然也不错,但还是被拉开了距离。

    03 GDPval(一句话:现实版的实力考验,看看AI能否解决你面临的问题)

    如果说ARC是测智商的,那么GDPval则是用来考察能否创造价值、解决实际问题的。

    这是OpenAI与哈佛经济学家共同开发的新指标。它们不考选择题,而是直接从美国GDP贡献最大的9个行业中,挑选了44个核心职业(如律师、金融分析师、产品经理),让行业专家出题。

    这些题目都是这种风格:

    • “为这家公司做一个人力资源规划模型,包含人员编制、预算影响分析,给我一个Excel。”
    • “根据这份临床数据,写一份医药研发报告摘要。”

    这里还有一些官方案例:

    人力资源规划的(附提示词)

    GPT-5.2与Gemini-3:谁将引领AI对决?

    股权结构表(附提示词)

    人工智能的进化:开创工作新局面

    想象一下,你让一款AI软件来帮你处理一些复杂的项目管理工作,比如人力资源规划或临床数据分析。这些任务可不是随便就能搞定的,可能需要几周的时间,听起来就有点吓人,对吧?

    不过,最近的评测结果却让人感到振奋:在70.9%的任务中,GPT-5.2的表现被专家们普遍认为超越或持平于人类专家。这可不是在考验刚毕业的新人,而是与拥有十多年经验的行业老手相抗衡!之前的GPT-5仅有38.8%的胜率,差距可真大。

    这到底意味着什么呢?简单来说,如果你让GPT-5.2来写一份PRD文档,做个竞品分析表,或者设计财报分析的PPT大纲,它可不是随便给你一堆没用的东西,而是能提供真实可交付的成果

    尤其是它在Artifacts能力上的提升,简直让人惊叹。它生成的Excel公式非常精准,格式也很美观;而且它编写的代码结构也相当完整。

    这对我们这些普通人来说,简直是个生产力的解放者!就像请到了顶尖的咨询顾问,帮你解决那些繁琐的工作,而费用却不到人类薪资的1%。

    Gemini 3 Pro:竞争中的黑马

    看到这里,你可能觉得OpenAI已经遥遥领先了,Gemini 3 Pro也许会被打败?

    等等,别急。

    尽管GPT-5.2在短期任务和快速反应方面表现优异,但在需要长时间稳定输出的“长跑”中,情况可能会有所不同。

    这里有个有趣的评测叫Vending-Bench(自动售货机基准),它让AI模拟经营一家虚拟公司,整整一年都要处理库存、定价和回复邮件,这可考验AI的连贯性(Coherence)稳定性

    结果出来了:Gemini 3 Pro赢得了这场持久战,而且表现相当稳健。

    Gemini 3 Pro的经营曲线如同一条稳定上升的直线,得益于它强大的100万上下文窗口,它能够轻松记住第一天的决策,稳扎稳打。

    聊聊GPT-5.2和Gemini 3 Pro的表现

    说到GPT-5.2,它的表现简直就像过山车。起初表现得非常聪明,赚得快得让人瞩目,但随着时间的推移,它却开始出现一些“失常”的情况。比如,它会忘记之前的任务,甚至在某些时候会陷入死循环,导致崩溃。

    这引出了一个最近在社区里争论得很热烈的话题:Benchmaxxing(基准刷分)

    有不少人开始怀疑,OpenAI是不是为了在ARC和AIME这些排行榜上超越谷歌,把GPT-5.2培养成了一个“应试型选手”。

    • 当遇到困难的问题时,它会表现得过于自信,甚至会出现幻觉率的提升。为了获得高分,它宁愿编造答案,也不愿意承认自己不知道。
    • 在一些简单的日常对话中,它有时反而会“想得太多”,把简单的问题复杂化,结果不如Gemini 3 Pro来的流畅自然。

    06 结论:我们该如何选择

    那么,我们回到最初的问题:GPT-5.2是否再次成为最强的选择呢?

    我的看法是:它可能是某些领域内的顶尖专家,但Gemini依然是个值得信赖的伙伴(尤其是那些已经享受了一年会员的用户,完全不需要担心使用体验的问题)

    如果把AI比作你的同事:

    • GPT-5.2 Thinking就像一位顶级咨询顾问(专家类型)。遇到复杂的算法问题、需要通过逻辑测试,或者想要一份完美的商业计划书时,找它准没错。它能深入思考,给出令人惊喜的方案,尤其是在深度推理方面无敌。
    • 而Gemini 3 Pro则是一位经验丰富的项目经理(通才)。它就像你的工作助手,拥有无限的记忆能力(长上下文),能理解你所有的文档和视频(多模态支持)。虽然在做数学题上不如GPT-5.2,但它情绪稳定,工作连贯,绝不会突然崩溃。尤其在图像和视觉理解方面,Gemini 3依旧表现不俗。

    说实话,我的建议是:

    如果你需要进行复杂的逻辑推理,或者想准备一个完美的PPT,就选GPT-5.2。虽然它的API费用略高,但绝对值得。

    反之,如果你需要处理大量的文档、分析长视频,或者想要一个常驻的数字助手,Gemini 3 Pro依然是最好的选择。

    程序员们,记得带着你的claude去找灵感哦。

    这场AI大战,没有谁能彻底打败谁。OpenAI在表面上赢得了胜利(跑分),而谷歌则在生态和稳定性上占了上风。

    但对于我们用户来说,这真是个好消息。

    毕竟,小孩子才需要选择,作为成熟的Pro用户,我当然是想要两个都用。

    最后,大家对这次GPT-5.2的表现怎么看呢?这次的“牙膏”挤得值不值得。

    感谢大家看到这里!如果觉得不错,记得点个赞哦。

    我们下次再聊。

    溜了~

    本文由 @虾灰鱼 原创发布于人人都是产品经理。未经作者许可,禁止转载。

    题图来自Unsplash,基于CC0协议。

来源:今日头条
原文标题:GPT-5.2 来了,究竟是GPT-5.2好还是Gemini-3 强呢? – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!

发表评论