GPT-5.2性能突破极限,红色警报依旧悬挂!

GPT-5.2性能突破极限,红色警报依旧悬挂!

这篇文章来自微信公众号:直面AI,作者苗正,封面图来源于视觉中国。

刚刚,ChatGPT-5.2新版本发布了!

这是OpenAI在发布红色警报(Code Red)后的首个新产品。

虽然GPT-5.2和5.1之间的时间间隔仅一个月,但从性能上看,GPT-5.2的进步可谓显著,甚至超越了谷歌和Anthropic在同一时期的产品。

不过,OpenAI的红色警报并没有因此解除,依旧面临着危机。

原因在于市场逐渐对OpenAI产生了质疑,大家开始冷静地评估每一分算力的投入和产出比。在这样的背景下,OpenAI不仅要展示自己是行业的佼佼者,还得证明自己不可或缺。

首先,得聊聊GPT-5.2的数学能力。

大家一直以来认为大语言模型在数学推理方面总是有些欠缺,但GPT-5.2的Thinking在AIME 2025数学竞赛中拿到了满分,真的是个不小的成就。

GPT-5.2性能突破极限,红色警报依旧悬挂!

AIME是美国数学邀请赛,其难度远超普通高中数学,考验的是扎实的数学基础和灵活的解题能力。GPT-5.2能在这样的比赛中全对,说明它在数学推理的能力上已达到很高的水平。

在更为复杂的FrontierMath测试中,GPT-5.2 Thinking解决了40.3%的专家级数学问题。这个测试专门为前沿数学研究设计,很多题目连专业数学家都需要花费大量时间思考。能解决40%的难题,已经显示出它在辅助科学研究方面的潜力。

除了数学推理,GPT-5.2在专业领域的表现也相当惊艳。

在OpenAI新推出的GDPval基准测试中,GPT-5.2 Thinking在涉及44种职业的知识工作任务上,有70.9%的情况下战胜或平局于顶尖行业专家。

这些任务包括制作演示文稿、构建复杂的财务模型、撰写专业文档等。OpenAI表示,它完成这些任务的速度是人类专家的11倍以上,而成本却不到1%。

在软件开发方面,GPT-5.2 Thinking在SWE-Bench Pro上达到了55.6%的准确率,而在SWE-bench Verified上更是达到了80%。这些测试旨在评估模型在真实代码库中修复bug和实现新功能的能力。

早期的测试者反馈显示,它在前端开发和复杂UI实现方面表现尤为突出,甚至能根据一条提示生成包含3D效果和物理模拟的完整应用程序。

在长文档理解能力上,GPT-5.2也有了明显的进步。在OpenAI的MRCRv2测试中,它成为首个在256k token长度下,针对4-needle变体任务接近100%准确率的模型。

这意味着用户可以上传数百页的报告、合同或研究论文,模型仍能准确理解分散在不同位置的相关信息,并进行综合分析。

GPT-5.2性能突破极限,红色警报依旧悬挂!

在视觉理解方面,GPT-5.2的错误率在图表推理和软件界面理解任务上几乎减半。它对图像中物体的空间位置有了更准确的把握。

OpenAI展示了一个例子:即使输入一张模糊的主板照片,GPT-5.2也能准确识别出各个组件的位置并标注边界框,而前代模型只能识别出少数部分且位置偏差较大。

新一代GPT-5.2发布,AI助手更智能、更高效

最近发布的GPT-5.2有三个不同版本哦。首先是GPT-5.2 Instant,专门为日常工作设计,像是信息查询、技术写作和翻译之类的任务,特别方便。接着是GPT-5.2 Thinking,这个版本更注重深度推理,适合编程、数据分析和复杂文档处理,算是专业人士的首选。而最后的GPT-5.2 Pro,则是最聪明的那个,特别适合那些需要“耐心等待高质量答案”的难题。

说到这次发布的亮点,不仅是模型能力的提升,还有个令人咋舌的效率数据:在ARC-AGI-1测试中,GPT-5.2 Pro的效率提高了大约390倍。

回想一年前,OpenAI验证了一个未发布的o3预览版本,在ARC-AGI-1测试中准确率为88%,但每个任务的费用大约是4500美元。而现在的GPT-5.2 Pro,不仅准确率提升到90.5%,单个任务的成本下降到仅11.64美元。这种效率提升的规模,意味着以前只能在实验室展示的能力,现在有可能真正应用到实际工作中。

ARC-AGI测试是为了评估抽象推理能力而设计的,要求模型在面对全新模式时,依然能够找到规律并给出答案。这种能力就像人类的“举一反三”一样。

GPT-5.2 Pro在ARC-AGI-1验证集上的表现,使其成为首个突破90%准确率的模型。而在更难的ARC-AGI-2上,GPT-5.2 Thinking也达到了52.9%的准确率,创造了链式思维模型的新纪录。

不过,值得注意的是,GPT-5.2的强大并不意味着它能在所有测试中都表现出色。真正的竞争不止于单一的基准测试,而在于谁能更好地满足用户需求,谁能在技术上保持领先的同时控制成本,以及谁能在不同场景中提供更可靠的服务。

例如,在来自GitHub的开源基准测试中,GPT-5.2的表现并没有达到预期。

NYT Connections是《纽约时报》推出的一个文字游戏,玩家需要从16个词中找出四组相关词汇,这个测试用来评估模型的语言理解能力和分类推理能力。它的设计增加了额外的干扰词,测试的难度也随之提高,目前包含759个谜题。

在这个排行榜中,Gemini 3 Pro Preview以96.8%的准确率领先,紧随其后的是xAI的Grok 4.1 Fast Reasoning,准确率为93.5%。而在OpenAI的模型中,表现最好的GPT-5 Pro准确率为83.9%,排在第八位,GPT-5.2在高推理模式下的准确率为77.9%,排名第11。

这个结果确实有些意外,GPT-5.2在数学竞赛中可以拿满分,在专业任务中可以超越人类专家,但在这个看似简单的文字游戏中,却落后了竞争对手近20个百分点。

深入分析后发现,这并不是简单的性能问题。NYT Connections测试的是模型对语言文化背景的理解、词语之间隐含关联的把握,以及在多种可能性中做出合理选择的能力。

比如,BANK、INTEREST、RATE、LOAN可能组成金融类词汇,也可能BANK与SHORE、BEACH、COAST组成河岸类词汇。模型需要同时考虑多个维度的关联,并找到最合理的分组方式。

Gemini 3 Pro在这个测试上的领先,表明谷歌在某些语言理解的维度上确实有独到之处。Grok系列模型的表现也值得关注,虽然xAI起步较晚,但在特定任务上已经显示出竞争力。

有趣的是,测试数据还显示,在最近的100个谜题中,各模型的排名保持一致,这说明训练数据污染的可能性不大。模型之间的差距是实质性的,而不是来自对题目的记忆。

这个测试的存在,给AI社区提供了一个更全面的视角。评估模型能力时,不仅仅要看主流基准测试,还要关注那些看似边缘却真实反映深层能力的测试。

NYT Connections考察的联想和分类能力,在实际应用中同样重要,比如在信息检索、内容推荐、知识图谱构建等场景中。

从这个角度来看,GPT-5.2的Code Red警报似乎还不能解除。虽然它在很多领域表现出色,但并没有在所有方面都领先,竞争对手在某些方向上依旧保持优势,甚至在不断拉大差距。

最后,技术竞争最终要落实到商业层面,OpenAI在市场上的处境比单纯的技术指标要复杂得多。

OpenAI的价格策略:高价背后的奢侈品逻辑

说到价格,GPT-5.2在API层面的定价可不便宜,每百万输入token要1.75美元,而输出token则需要14美元,这比之前的GPT-5.1贵了40%呢。

而GPT-5.2 Pro的价格更是高得离谱,输入token每百万要21美元,输出token的价格直接飙升到168美元。

GPT-5.2性能突破极限,红色警报依旧悬挂!

这可是个不小的涨幅,OpenAI解释说是因为新模型能力更强,性价比反而提升了。但对于那些频繁使用API的开发者来说,价格上涨可不是小事。

相比之下,Gemini 3 Pro的价格体系就显得亲民多了,核心型号gemini-3-pro-preview的token定价是根据上下文窗口的长度来分的。比如,当提示词在20万token以内,输入token每百万只要2美元,输出token则是12美元;如果超过20万token,价格就翻倍了,输入和输出分别变成4美元和18美元。

至于Claude方面,最新的Opus 4.5更是大幅调整价格,输入token的费用降到每百万5美元,输出价格为25美元,和前一代相比降幅达到了约三分之二,且不再对长上下文加价,窗口为200K token。

当Gemini和Claude的竞争对手们纷纷降价,力图把AI变得像水电一样便宜时,OpenAI却走了另一条路。它不仅没有参与这场价格竞争,反而自信地将价格定得这么高。这只能说明,它想把GPT塑造成一种“奢侈品”。

在商业运作中,奢侈品的定义通常不是看它的实用性,而是要看它的稀缺性和极致性。OpenAI可能在赌,这个世界上有一部分高端用户,他们对价格并不敏感,但对质量的要求几乎是完美主义。

对于这类用户来说,只要能提供最精准的答案,168美元的价格反而显得很划算,甚至成为了一种身份和能力的象征。

这或许才是“红色警报”在商业层面的真正意义。它不再是单纯的害怕落后,而是对平庸的恐惧。

OpenAI正在进行一场风险博弈:试图通过高价策略将自己与普通AI彻底区隔开,打造类似于爱马仕或苹果的品牌壁垒。

但这也意味着,它失去了“差不多就行”的容错余地。问题在于,如果这个昂贵的“奢侈品”在实际使用中没有带来压倒性的优越感,用户转身离开的速度可想而知。

而且,拯救OpenAI的可不只是一个高性能的模型那么简单,OpenAI现在需要的是一个足够吸引人的新故事。

本文来自微信公众号:直面AI,作者:苗正

本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。如对本稿件有异议或投诉,请联系tougao@huxiu.com。

本文来自虎嗅,原文链接:
https://www.huxiu.com/article/4816688.html?f=jinritoutiao

来源:今日头条
原文标题:GPT-5.2性能爆表,但红色警报没有解除 – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!

《GPT-5.2性能突破极限,红色警报依旧悬挂!》有7条评论

  1. GPT-5.2的数学能力突破确实令人惊讶,能够在AIME竞赛中满分实属不易。这种进步不仅提升了模型的实用性,也为科学研究提供了更强大的工具。期待它在更多领域的表现!

    回复
  2. GPT-5.2在数学推理和专业任务上的表现真是突破性进展,尤其是能在AIME获得满分,看来未来的应用潜力无限。

    回复
  3. 看到GPT-5.2在数学领域取得的成绩,真的很震撼!这不仅是模型能力的体现,更是对科学研究的一大助力。希望未来能看到更多应用实例。

    回复
  4. GPT-5.2在长文档理解和视觉理解方面的提升让人倍感期待,尤其是处理复杂信息的能力,真是为各种行业带来了新的可能性。

    回复
  5. GPT-5.2在处理长文档时表现突出,能准确理解复杂信息,真是太棒了!这对各行业的工作效率提升将有很大帮助。

    回复
  6. GPT-5.2在数学推理和专业任务上的表现让人刮目相看,尤其是在复杂领域的应用潜力,引发了我对未来发展的无限遐想。

    回复
  7. OpenAI的GPT-5.2在各个领域的表现都让人印象深刻,尤其是它在复杂数学问题上的解决能力,为科研提供了强大的支持,未来可期。

    回复

发表评论