GPT-5.2 全新三大版本发布!抽象推理超越 Gemini,70% 任务媲美人类专家 – 今日头条

嘿,大家好!今天我想聊聊最近热议的GPT-5.2,这次它的三个版本一同上线,真的很有意思。尤其是在抽象推理方面,简直把Gemini都压得喘不过气来,70%的任务表现堪比人类专家呢。

GPT-5.2 全新三大版本发布!抽象推理超越 Gemini,70% 任务媲美人类专家 – 今日头条

在Gemini 3 Pro的强力竞争下,OpenAI终于在十周年之际推出了这一系列新产品,真是让人期待啊。

这次可没有进行灰度测试,直接就放出了GPT-5.2的Instant、Thinking和Pro三个版本,不仅在传统测试中重新夺回了冠军宝座,甚至在抽象推理和实际工作场景中也取得了不少突破。

GPT-5.2 全新三大版本发布!抽象推理超越 Gemini,70% 任务媲美人类专家 – 今日头条

但是,面对谷歌Gemini 3 Pro的稳定性优势,这场AI的竞争,到底谁能笑到最后呢?

GPT-5.2 全新三大版本发布!抽象推理超越 Gemini,70% 任务媲美人类专家 – 今日头条

传统测试中夺得双冠,数学和代码表现都很突出

GPT-5.2 全新三大版本发布!抽象推理超越 Gemini,70% 任务媲美人类专家 – 今日头条

在老牌的测试中,GPT-5.2展现出了超强的实力,直接把Gemini 3 Pro甩在了后面。

在AIME 2025数学竞赛中,GPT-5.2 Thinking版本没有联网,也不运行代码,完全依靠推理就取得了满分,而Gemini 3 Pro则得了95分。

AI在测试中表现亮眼,真有点“长脑子”的感觉

GPT-5.2 全新三大版本发布!抽象推理超越 Gemini,70% 任务媲美人类专家 – 今日头条

在软件工程测试 SWE-Bench Pro 里,GPT-5.2以 55.6% 的得分远超 Gemini 3 Pro 的 43.3%,显示出代码编写能力的显著提升。

不过,普通用户可能觉得这些分数的提升不太明显,真正的惊喜其实在其他两个测试中。

GPT-5.2 全新三大版本发布!抽象推理超越 Gemini,70% 任务媲美人类专家 – 今日头条

抽象推理能力提升三倍,AI真不简单

ARC-AGI-2 测试的进展,才是 GPT-5.2 的真正亮点。

这个测试是由 Keras 的创始人设计,专门用来评估不需要死记硬背的“流体智力”,里面全是新颖的抽象图形规律题。

前一代的 GPT-5.1 只得了 17.6 分,而 GPT-5.2 Thinking 直接飙升到了 52.9%,分数翻了三倍。

它不再只是单纯地预测下一个字,而是像人一样进行“假设-验证”,展现出更高层次的思维方式,让 Gemini 3 Deep Think 的 45.1% 看起来有些逊色。

GPT-5.2 全新三大版本发布!抽象推理超越 Gemini,70% 任务媲美人类专家 – 今日头条

完成70%任务超越专家,AI干活能力确实很强

GPT-5.2 全新三大版本发布!抽象推理超越 Gemini,70% 任务媲美人类专家 – 今日头条

如果说 ARC 是测智商,那么 GDPval 就是评估赚钱能力的硬核测试。

这个测试是 OpenAI 联合哈佛的经济学家一起设计的,涵盖了9个高 GDP 行业的44个核心职位,都是基于真实复杂的工作任务。

GPT-5.2与Gemini 3 Pro的对比:谁更胜一筹?

GPT-5.2 全新三大版本发布!抽象推理超越 Gemini,70% 任务媲美人类专家 – 今日头条

你知道吗?在很多任务上,GPT-5.2 Thinking 可不是一般的厉害,竟然在70.9%的情况下,被专家们评为“表现优于或持平”那些经验丰富的人类专家。

想想看,上一代的胜率只有38.8%,这次它在生成 Excel 公式和代码结构时,简直展现了无与伦比的专业性,真的是在帮助我们提高效率。

GPT-5.2 全新三大版本发布!抽象推理超越 Gemini,70% 任务媲美人类专家 – 今日头条

长跑翻车? Gemini 3 Pro 稳守优势

GPT-5.2 全新三大版本发布!抽象推理超越 Gemini,70% 任务媲美人类专家 – 今日头条

不过,GPT-5.2 也不是完美的,它在长期稳定性测试中暴露了不少短板。

比如,在 Vending-Bench 这个虚拟公司运营评测中,AI 需要模拟一整年的日常运营,这就考验了它的连贯性和记忆力。

而 Gemini 3 Pro 则凭借着一百万的上下文窗口,经营曲线稳步上升,决策始终清晰。

GPT-5.2 全新三大版本发布!抽象推理超越 Gemini,70% 任务媲美人类专家 – 今日头条

而 GPT-5.2 在初期表现得非常抢眼,但到了后期却常常出现“失忆”现象,忘记之前的订单,陷入死循环,甚至崩掉。

这引发了不少讨论:难道 GPT-5.2 是为了提高分数而陷入了“应试教育”的泥潭?它的长跑能力亟待提升。

来源:今日头条
原文标题:GPT-5.2 三版本齐发!抽象推理碾压 Gemini,70% 任务比肩人类专家 – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!

发表评论