最新的GPT-5.2悄无声息地在多个平台上线了,没有发布会,API价格也涨了40%,但它的表现绝对值得一看!在竞赛数学和软件工程等领域,它的排名已经超越了竞争对手,GDPval测试覆盖了44种职业任务,功能如Excel建模和3D效果生成也相当出色。不过,关于后缀命名的混乱和某些场景的表现不佳也引发了不少讨论。

刚刚出炉的GPT-5.2再次证明了自己的强大,竟然没有像往常一样搞发布会,真是浪费了我不少时间!现在它已经全面上线了,在ChatGPT、OpenAI平台、Cursor、Codex、Perplexity等地方都能使用。不过,这次API的价格上涨了40%,真得好好看看值不值得。
我迫不及待地拿GPT-5.2跟Gemini 3 Pro做了个编程对比,还找出了10种新玩法。刚开始用打印机进行测试,发现GPT-5.2和Gemini 3 Pro之间的差异有点大,再看看OpenAI发布的主案例,结果连Gemini 2.5 Pro都没能胜过。



难道是我理解错了吗?再仔细看看,GPT-5.2的表现确实很强!在AIME 2025(竞赛数学)中拿到了满分,而在ARC-AGI-2(视觉推理)上也达到了52.9%(比之前翻了三倍,和Gemini 3平起平坐),在SWE-Bench Pro(软件工程)和GPQA Diamond(科学问题)上也稳居第一!256K文档的四针测试得到了惊人的100%正确率,知识更新到2025年8月,真是让人刮目相看。
难怪之前有人说GPT-5.2是一系列中的第一!
OpenAI的新动态:GPT-5.2的显著提升
最近,OpenAI在多个平台上测试了他们的最新模型,特别是在GDPval和ARC-AGI-2这两个领域,他们的表现非常突出。

简单说,OpenAI想看看他们的模型在现实生活中对GDP的贡献,也就是赚钱的能力。GDPval这个数据集是从银行获取的信息,专门挑选出了对美国GDP贡献最大的九个行业中的四十四种职业。

这个测试包含了1320个专业任务,每个任务都是由拥有超过14年经验的专家们设计的。任务内容涵盖了参考文件、背景信息,预期的结果包括文档、PPT、图表、电子表格以及多媒体资料。

测试的结果显示,GPT 5.2 Thinking的平均得分比之前的版本高出了9.3%。这个提升还是挺明显的,大家都能感受到变化。
标题:用GPT 5.2轻松搞定Excel模型和视频转录,真是太方便了!
最近我用Gemini 3 Pro做了一个复杂的Excel模型,简单来说,就是想在Excel里从头开始打造一个商业预测模型,主要是为了蜜雪冰城在12月的定价、销量、收入、成本、费用、利润和现金流的预测,此外还要能比较不同情境和展示关键指标。
这个模型的使用者主要是业务和财务负责人,所以我得确保它的结构简单明了,审计起来没问题,还得能扩展,所有的计算都要用Excel的原生公式,不想依赖宏。
(后面还有每张表的详细设定)
GPT 5.2 Thinking可真给力,半小时内就把我所有的需求都搞定了,出去后自称Excel专家也不怕被揭穿了!
接着我试了个视频转录的任务,发现GPT 5.2 Thinking没有自带工具,但它很聪明,直接去网上找了一个免费的转录工具,转录完后把整理好的结果给我。
(视频链接)总结这个视频的记录,并分享所有学到的知识
这还没完,既然转录能找到免费的,那么PDF排版应该也能试试吧。
将这份PDF转换成可编辑的Word文档。
以往使用GPT 2.5的时候,它的办法是把图片和结构图截成图放到Word里,看看效果,除了代码部分行号和文字排版有些乱,其他内容和格式基本都保留得很好。
我必须提一下,关于instant、thinking和pro这几个后缀,报告里出现的时候真是让我眼花缭乱,我觉得这是AI界的中杯、大杯、超大杯的组合。
说到GPT 5.2在ARC-AGI-2的表现,它的能力真的很强,简单说就是能在完全陌生的图像推理题上表现得不错。
这里有个专业术语叫流体智力(Fluid Intelligence),它指的是在没有以前知识的情况下,在全新情境中进行逻辑推理、识别模式和解决问题的能力。
我记得第一代的时候,我找了很多人做测试,结果只对了3条,而GPT 5.2的得分已经达到了52.9%,比前一版本高出35.3%,准确率过半,真是让人惊喜!
还有一个让我印象深刻的案例是关于3D深海的,那个光影效果让我想起了一个超赞的3A游戏。
嘿,大家好!今天想跟你们聊聊一个有趣的项目,名字叫“海洋波浪模拟”。说实话,一开始看到这个要求,我还以为挺简单的,结果发现事情没那么简单,很多人都觉得思维模式会被限制。
就拿@向阳乔木来说,他用同样的提示语,结果在用不同的生成工具(如instant、thinking和pro)时,得到了三张截然不同的图像。
Xbox手柄的SVG代码

为了更好地体验,我决定换用GPT5.2(不带后缀的版本),结果效果真心不错!我花了一晚上时间抽卡,得到了一个3D小球弹跳的效果,还有模拟海浪的动画。这真让我觉得很赞,@karminski-牙医的测试结果也差不多。下面的两个动画是我从他那儿截取的一部分效果,基本可以说是不错了!虽然GPT 5.2的thinking和pro版本间差别不大,但价格可是便宜了11倍呢。至于大象牙膏测试,效果甚至比GPT5还差,粒子效果还不如一些国产模型;不过在鞭炮连锁爆炸测试中,建模、光照和粒子效果都挺不错的,但为了追求画质,性能反而牺牲了。总体来说,生成的代码都挺美观,但性能提升不大。
最后,我决定测试一下GPT5.2的写作能力。既然它涵盖了44种职业,那么它的文案水平自然也要跟上了。我用一个固定的提示语去测试,发现太短的内容看不出AI的特点,而太多提示限制又无法看出最低下限。
写一篇千字的中文科技小说篇章
我竭尽所能地写了,但把3k字压成图片传上来还是有点模糊。说实话,GPT5.2的AI味儿还是很明显,破折号、双引号、冒号的用法都相对固定,不过故事的设定我还是觉得蛮有趣的,像是AI零七和被算法误解的噪音工程师林佑的合作,确实吸引人。
最后,GPT-5.1将在三个月后下线,我们又一次与一个以GPT开头的模型告别。就在GPT5.2发布的那天,OpenAI也庆祝了十周年,奥特曼还写了一封公开信《Ten Years》,他说再过十年,超级智能几乎肯定会实现。
说实话,我对OpenAI的感情有些复杂。在Gemini 3.0 Pro表现出色、而Claude几乎用不上的情况下,我真的希望GPT5.2能继续进步,不要被超越了,期待它能多多优化!
撰文:卡尔
本文由人人都是产品经理的作者【卡尔的AI沃茨】发布,未经授权禁止转载。
题图来自Unsplash,基于CC0协议。
