GPT-5.2性能突破极限，红色警报依旧悬挂！

这篇文章来自微信公众号：直面AI，作者苗正，封面图来源于视觉中国。

刚刚，ChatGPT-5.2新版本发布了！

你可能感兴趣：GPT 5.2体验对话能力和前代产品对比

这是OpenAI在发布红色警报（Code Red）后的首个新产品。

虽然GPT-5.2和5.1之间的时间间隔仅一个月，但从性能上看，GPT-5.2的进步可谓显著，甚至超越了谷歌和Anthropic在同一时期的产品。

不过，OpenAI的红色警报并没有因此解除，依旧面临着危机。

原因在于市场逐渐对OpenAI产生了质疑，大家开始冷静地评估每一分算力的投入和产出比。在这样的背景下，OpenAI不仅要展示自己是行业的佼佼者，还得证明自己不可或缺。

一

首先，得聊聊GPT-5.2的数学能力。

大家一直以来认为大语言模型在数学推理方面总是有些欠缺，但GPT-5.2的Thinking在AIME 2025数学竞赛中拿到了满分，真的是个不小的成就。

GPT-5.2性能突破极限，红色警报依旧悬挂！

AIME是美国数学邀请赛，其难度远超普通高中数学，考验的是扎实的数学基础和灵活的解题能力。GPT-5.2能在这样的比赛中全对，说明它在数学推理的能力上已达到很高的水平。

在更为复杂的FrontierMath测试中，GPT-5.2 Thinking解决了40.3%的专家级数学问题。这个测试专门为前沿数学研究设计，很多题目连专业数学家都需要花费大量时间思考。能解决40%的难题，已经显示出它在辅助科学研究方面的潜力。

除了数学推理，GPT-5.2在专业领域的表现也相当惊艳。

在OpenAI新推出的GDPval基准测试中，GPT-5.2 Thinking在涉及44种职业的知识工作任务上，有70.9%的情况下战胜或平局于顶尖行业专家。

这些任务包括制作演示文稿、构建复杂的财务模型、撰写专业文档等。OpenAI表示，它完成这些任务的速度是人类专家的11倍以上，而成本却不到1%。

在软件开发方面，GPT-5.2 Thinking在SWE-Bench Pro上达到了55.6%的准确率，而在SWE-bench Verified上更是达到了80%。这些测试旨在评估模型在真实代码库中修复bug和实现新功能的能力。

早期的测试者反馈显示，它在前端开发和复杂UI实现方面表现尤为突出，甚至能根据一条提示生成包含3D效果和物理模拟的完整应用程序。

在长文档理解能力上，GPT-5.2也有了明显的进步。在OpenAI的MRCRv2测试中，它成为首个在256k token长度下，针对4-needle变体任务接近100%准确率的模型。

这意味着用户可以上传数百页的报告、合同或研究论文，模型仍能准确理解分散在不同位置的相关信息，并进行综合分析。

GPT-5.2性能突破极限，红色警报依旧悬挂！

在视觉理解方面，GPT-5.2的错误率在图表推理和软件界面理解任务上几乎减半。它对图像中物体的空间位置有了更准确的把握。

OpenAI展示了一个例子：即使输入一张模糊的主板照片，GPT-5.2也能准确识别出各个组件的位置并标注边界框，而前代模型只能识别出少数部分且位置偏差较大。

新一代GPT-5.2发布，AI助手更智能、更高效

最近发布的GPT-5.2有三个不同版本哦。首先是GPT-5.2 Instant，专门为日常工作设计，像是信息查询、技术写作和翻译之类的任务，特别方便。接着是GPT-5.2 Thinking，这个版本更注重深度推理，适合编程、数据分析和复杂文档处理，算是专业人士的首选。而最后的GPT-5.2 Pro，则是最聪明的那个，特别适合那些需要“耐心等待高质量答案”的难题。

说到这次发布的亮点，不仅是模型能力的提升，还有个令人咋舌的效率数据：在ARC-AGI-1测试中，GPT-5.2 Pro的效率提高了大约390倍。

回想一年前，OpenAI验证了一个未发布的o3预览版本，在ARC-AGI-1测试中准确率为88%，但每个任务的费用大约是4500美元。而现在的GPT-5.2 Pro，不仅准确率提升到90.5%，单个任务的成本下降到仅11.64美元。这种效率提升的规模，意味着以前只能在实验室展示的能力，现在有可能真正应用到实际工作中。

ARC-AGI测试是为了评估抽象推理能力而设计的，要求模型在面对全新模式时，依然能够找到规律并给出答案。这种能力就像人类的“举一反三”一样。

GPT-5.2 Pro在ARC-AGI-1验证集上的表现，使其成为首个突破90%准确率的模型。而在更难的ARC-AGI-2上，GPT-5.2 Thinking也达到了52.9%的准确率，创造了链式思维模型的新纪录。

不过，值得注意的是，GPT-5.2的强大并不意味着它能在所有测试中都表现出色。真正的竞争不止于单一的基准测试，而在于谁能更好地满足用户需求，谁能在技术上保持领先的同时控制成本，以及谁能在不同场景中提供更可靠的服务。

例如，在来自GitHub的开源基准测试中，GPT-5.2的表现并没有达到预期。

NYT Connections是《纽约时报》推出的一个文字游戏，玩家需要从16个词中找出四组相关词汇，这个测试用来评估模型的语言理解能力和分类推理能力。它的设计增加了额外的干扰词，测试的难度也随之提高，目前包含759个谜题。

在这个排行榜中，Gemini 3 Pro Preview以96.8%的准确率领先，紧随其后的是xAI的Grok 4.1 Fast Reasoning，准确率为93.5%。而在OpenAI的模型中，表现最好的GPT-5 Pro准确率为83.9%，排在第八位，GPT-5.2在高推理模式下的准确率为77.9%，排名第11。

这个结果确实有些意外，GPT-5.2在数学竞赛中可以拿满分，在专业任务中可以超越人类专家，但在这个看似简单的文字游戏中，却落后了竞争对手近20个百分点。

深入分析后发现，这并不是简单的性能问题。NYT Connections测试的是模型对语言文化背景的理解、词语之间隐含关联的把握，以及在多种可能性中做出合理选择的能力。

比如，BANK、INTEREST、RATE、LOAN可能组成金融类词汇，也可能BANK与SHORE、BEACH、COAST组成河岸类词汇。模型需要同时考虑多个维度的关联，并找到最合理的分组方式。

Gemini 3 Pro在这个测试上的领先，表明谷歌在某些语言理解的维度上确实有独到之处。Grok系列模型的表现也值得关注，虽然xAI起步较晚，但在特定任务上已经显示出竞争力。

有趣的是，测试数据还显示，在最近的100个谜题中，各模型的排名保持一致，这说明训练数据污染的可能性不大。模型之间的差距是实质性的，而不是来自对题目的记忆。

这个测试的存在，给AI社区提供了一个更全面的视角。评估模型能力时，不仅仅要看主流基准测试，还要关注那些看似边缘却真实反映深层能力的测试。

NYT Connections考察的联想和分类能力，在实际应用中同样重要，比如在信息检索、内容推荐、知识图谱构建等场景中。

从这个角度来看，GPT-5.2的Code Red警报似乎还不能解除。虽然它在很多领域表现出色，但并没有在所有方面都领先，竞争对手在某些方向上依旧保持优势，甚至在不断拉大差距。

最后，技术竞争最终要落实到商业层面，OpenAI在市场上的处境比单纯的技术指标要复杂得多。

OpenAI的价格策略：高价背后的奢侈品逻辑

说到价格，GPT-5.2在API层面的定价可不便宜，每百万输入token要1.75美元，而输出token则需要14美元，这比之前的GPT-5.1贵了40%呢。

而GPT-5.2 Pro的价格更是高得离谱，输入token每百万要21美元，输出token的价格直接飙升到168美元。

GPT-5.2性能突破极限，红色警报依旧悬挂！

这可是个不小的涨幅，OpenAI解释说是因为新模型能力更强，性价比反而提升了。但对于那些频繁使用API的开发者来说，价格上涨可不是小事。

相比之下，Gemini 3 Pro的价格体系就显得亲民多了，核心型号gemini-3-pro-preview的token定价是根据上下文窗口的长度来分的。比如，当提示词在20万token以内，输入token每百万只要2美元，输出token则是12美元；如果超过20万token，价格就翻倍了，输入和输出分别变成4美元和18美元。

至于Claude方面，最新的Opus 4.5更是大幅调整价格，输入token的费用降到每百万5美元，输出价格为25美元，和前一代相比降幅达到了约三分之二，且不再对长上下文加价，窗口为200K token。

当Gemini和Claude的竞争对手们纷纷降价，力图把AI变得像水电一样便宜时，OpenAI却走了另一条路。它不仅没有参与这场价格竞争，反而自信地将价格定得这么高。这只能说明，它想把GPT塑造成一种“奢侈品”。

在商业运作中，奢侈品的定义通常不是看它的实用性，而是要看它的稀缺性和极致性。OpenAI可能在赌，这个世界上有一部分高端用户，他们对价格并不敏感，但对质量的要求几乎是完美主义。

对于这类用户来说，只要能提供最精准的答案，168美元的价格反而显得很划算，甚至成为了一种身份和能力的象征。

这或许才是“红色警报”在商业层面的真正意义。它不再是单纯的害怕落后，而是对平庸的恐惧。

OpenAI正在进行一场风险博弈：试图通过高价策略将自己与普通AI彻底区隔开，打造类似于爱马仕或苹果的品牌壁垒。

但这也意味着，它失去了“差不多就行”的容错余地。问题在于，如果这个昂贵的“奢侈品”在实际使用中没有带来压倒性的优越感，用户转身离开的速度可想而知。

而且，拯救OpenAI的可不只是一个高性能的模型那么简单，OpenAI现在需要的是一个足够吸引人的新故事。

本文来自微信公众号：直面AI，作者：苗正

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。如对本稿件有异议或投诉，请联系tougao@huxiu.com。

本文来自虎嗅，原文链接：
https://www.huxiu.com/article/4816688.html?f=jinritoutiao

来源：今日头条

原文标题：GPT-5.2性能爆表，但红色警报没有解除 – 今日头条

原文链接：https://www.toutiao.com/article/7582938458444857892/

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

《GPT-5.2性能突破极限，红色警报依旧悬挂！》有7条评论

热心网友74

2026年1月14日上午6:59

GPT-5.2的数学能力突破确实令人惊讶，能够在AIME竞赛中满分实属不易。这种进步不仅提升了模型的实用性，也为科学研究提供了更强大的工具。期待它在更多领域的表现！
回复
匿名用户

2026年1月14日上午7:09

GPT-5.2在数学推理和专业任务上的表现真是突破性进展，尤其是能在AIME获得满分，看来未来的应用潜力无限。
回复
科技爱好者

2026年1月14日上午7:19

看到GPT-5.2在数学领域取得的成绩，真的很震撼！这不仅是模型能力的体现，更是对科学研究的一大助力。希望未来能看到更多应用实例。
回复
热心网友81

2026年1月14日上午7:29

GPT-5.2在长文档理解和视觉理解方面的提升让人倍感期待，尤其是处理复杂信息的能力，真是为各种行业带来了新的可能性。
回复
热心网友75

2026年1月14日上午7:39

GPT-5.2在处理长文档时表现突出，能准确理解复杂信息，真是太棒了！这对各行业的工作效率提升将有很大帮助。
回复
热心网友35

2026年1月14日上午7:49

GPT-5.2在数学推理和专业任务上的表现让人刮目相看，尤其是在复杂领域的应用潜力，引发了我对未来发展的无限遐想。
回复
热心网友14

2026年1月14日上午7:59

OpenAI的GPT-5.2在各个领域的表现都让人印象深刻，尤其是它在复杂数学问题上的解决能力，为科研提供了强大的支持，未来可期。
回复

GPT-5.2性能突破极限，红色警报依旧悬挂！

大家在看

《GPT-5.2性能突破极限，红色警报依旧悬挂！》有7条评论

发表评论取消回复

相关阅读

大家在看

《GPT-5.2性能突破极限，红色警报依旧悬挂！》有7条评论

发表评论 取消回复

发表评论取消回复