GPT-5.2 全新三大版本发布！抽象推理超越 Gemini，70% 任务媲美人类专家 – 今日头条

2026年1月15日作者 lex

嘿，大家好！今天我想聊聊最近热议的GPT-5.2，这次它的三个版本一同上线，真的很有意思。尤其是在抽象推理方面，简直把Gemini都压得喘不过气来，70%的任务表现堪比人类专家呢。

GPT-5.2 全新三大版本发布！抽象推理超越 Gemini，70% 任务媲美人类专家 – 今日头条

在Gemini 3 Pro的强力竞争下，OpenAI终于在十周年之际推出了这一系列新产品，真是让人期待啊。

你可能感兴趣：GPT 5.2体验对话能力和前代产品对比

这次可没有进行灰度测试，直接就放出了GPT-5.2的Instant、Thinking和Pro三个版本，不仅在传统测试中重新夺回了冠军宝座，甚至在抽象推理和实际工作场景中也取得了不少突破。

GPT-5.2 全新三大版本发布！抽象推理超越 Gemini，70% 任务媲美人类专家 – 今日头条

但是，面对谷歌Gemini 3 Pro的稳定性优势，这场AI的竞争，到底谁能笑到最后呢？

GPT-5.2 全新三大版本发布！抽象推理超越 Gemini，70% 任务媲美人类专家 – 今日头条

传统测试中夺得双冠，数学和代码表现都很突出

GPT-5.2 全新三大版本发布！抽象推理超越 Gemini，70% 任务媲美人类专家 – 今日头条

在老牌的测试中，GPT-5.2展现出了超强的实力，直接把Gemini 3 Pro甩在了后面。

在AIME 2025数学竞赛中，GPT-5.2 Thinking版本没有联网，也不运行代码，完全依靠推理就取得了满分，而Gemini 3 Pro则得了95分。

AI在测试中表现亮眼，真有点“长脑子”的感觉

GPT-5.2 全新三大版本发布！抽象推理超越 Gemini，70% 任务媲美人类专家 – 今日头条

在软件工程测试 SWE-Bench Pro 里，GPT-5.2以 55.6% 的得分远超 Gemini 3 Pro 的 43.3%，显示出代码编写能力的显著提升。

不过，普通用户可能觉得这些分数的提升不太明显，真正的惊喜其实在其他两个测试中。

GPT-5.2 全新三大版本发布！抽象推理超越 Gemini，70% 任务媲美人类专家 – 今日头条

抽象推理能力提升三倍，AI真不简单

ARC-AGI-2 测试的进展，才是 GPT-5.2 的真正亮点。

这个测试是由 Keras 的创始人设计，专门用来评估不需要死记硬背的“流体智力”，里面全是新颖的抽象图形规律题。

前一代的 GPT-5.1 只得了 17.6 分，而 GPT-5.2 Thinking 直接飙升到了 52.9%，分数翻了三倍。

它不再只是单纯地预测下一个字，而是像人一样进行“假设-验证”，展现出更高层次的思维方式，让 Gemini 3 Deep Think 的 45.1% 看起来有些逊色。

GPT-5.2 全新三大版本发布！抽象推理超越 Gemini，70% 任务媲美人类专家 – 今日头条

完成70%任务超越专家，AI干活能力确实很强

GPT-5.2 全新三大版本发布！抽象推理超越 Gemini，70% 任务媲美人类专家 – 今日头条

如果说 ARC 是测智商，那么 GDPval 就是评估赚钱能力的硬核测试。

这个测试是 OpenAI 联合哈佛的经济学家一起设计的，涵盖了9个高 GDP 行业的44个核心职位，都是基于真实复杂的工作任务。

GPT-5.2与Gemini 3 Pro的对比：谁更胜一筹？

GPT-5.2 全新三大版本发布！抽象推理超越 Gemini，70% 任务媲美人类专家 – 今日头条

你知道吗？在很多任务上，GPT-5.2 Thinking 可不是一般的厉害，竟然在70.9%的情况下，被专家们评为“表现优于或持平”那些经验丰富的人类专家。

想想看，上一代的胜率只有38.8%，这次它在生成 Excel 公式和代码结构时，简直展现了无与伦比的专业性，真的是在帮助我们提高效率。

GPT-5.2 全新三大版本发布！抽象推理超越 Gemini，70% 任务媲美人类专家 – 今日头条

长跑翻车？ Gemini 3 Pro 稳守优势

GPT-5.2 全新三大版本发布！抽象推理超越 Gemini，70% 任务媲美人类专家 – 今日头条

不过，GPT-5.2 也不是完美的，它在长期稳定性测试中暴露了不少短板。

比如，在 Vending-Bench 这个虚拟公司运营评测中，AI 需要模拟一整年的日常运营，这就考验了它的连贯性和记忆力。

而 Gemini 3 Pro 则凭借着一百万的上下文窗口，经营曲线稳步上升，决策始终清晰。

GPT-5.2 全新三大版本发布！抽象推理超越 Gemini，70% 任务媲美人类专家 – 今日头条

而 GPT-5.2 在初期表现得非常抢眼，但到了后期却常常出现“失忆”现象，忘记之前的订单，陷入死循环，甚至崩掉。

这引发了不少讨论：难道 GPT-5.2 是为了提高分数而陷入了“应试教育”的泥潭？它的长跑能力亟待提升。

来源：今日头条

原文标题：GPT-5.2 三版本齐发！抽象推理碾压 Gemini，70% 任务比肩人类专家 – 今日头条

原文链接：https://www.toutiao.com/article/7584424821556085254/

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

Gemini GPT-5.2 人工智能代码编写能力抽象推理

大家在看

OpenAI发布GPT-5.2，全面进军“代理型AI”竞争新领域

OpenAI发布GPT-5.2，全面进军“代理型AI”竞争新领域 Claude因国防部争议登顶App Store第一

震撼发布！OpenAI推出超级编程模型GPT5.2-Codex，颠覆你的编程体验！

震撼发布！OpenAI推出超级编程模型GPT5.2-Codex，颠覆你的编程体验！

GPT-5.2曝出作弊丑闻！利用拉爆token刷高分，实力不敌Gemini 3！

深入解析GPT 5.2：不容错过的测评揭秘！

深入解析GPT 5.2：不容错过的测评揭秘！

GPT-5.2震撼登场！首款「专家级」AI助力打工人，迎来新生机！

“GPT-5.2荣膺‘打工人之王’，谷歌Gemini系列强势回击！”

“GPT-5.2荣膺‘打工人之王’，谷歌Gemini系列强势回击！”

半导体行业快讯 | OpenAI发布GPT-5.2系列，Q4内存芯片或面临35%涨价挑战

半导体行业快讯 | OpenAI发布GPT-5.2系列，Q4内存芯片或面临35%涨价挑战 OpenAI发布更强大模型GPT-5.2，迎战谷歌竞争新局！

GPT-5.2-Codex 新体验：目标直指架构师，不再是实习生的替代者！

GPT-5.2-Codex 新体验：目标直指架构师，不再是实习生的替代者！

发表评论取消回复