梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
现在可真是不得不关注OpenAI的动态了,红色警报已经拉响!
在短短30天内,GPT-5.2系列紧随其后推出,特别是这次在工作效率上做了大幅度提升。
我们来看看GPT-5.1和GPT-5.2在处理人力资源表格上的表现,差距可不小哦:

虽然版本号只增了0.1,但在很多实用场景下的表现却明显提升,比如制作表格、PPT、写代码、理解长篇文档、调用工具、处理复杂的多步骤项目等等。
不仅如此,它的视觉理解能力也有了显著改善,GPT-5.2能够更准确地识别主板上的各个元件。

这是GPT-5.2制作的网页版波浪模拟器,效果真不错:

想象一下,如果你在机场遇到航班延误、转机失误,还需要找地方过夜和特殊座位,真的是一场噩梦。
不过,GPT-5.2可以全权替你搞定这些:重新订票、安排特殊座位、甚至处理赔偿事宜,轻松搞定。
揭秘GPT-5.2的强大能力

ARC-AGI迅速发布了他们的测试结果。
回顾一年前的o3 (High),在ARC-AGI-1的测试中得到了88%的高分,完成每项任务的成本大约是4500美元。
而现在的GPT-5.2 Pro (X-High)已经达到了90.5%的新高得分,完成每项任务的平均成本仅需11.64美元,效率提升了近390倍,真是个惊人的进步。
它的表现还超越了谷歌的Gemini 3 Pro版本,也算是给自己争了一口气。

深入分析GPT-5.2的能力
高经济价值的任务
在GDPval的测试中,涵盖了美国GDP前九大行业的44个职业领域,完成那些通常需要人类4到8小时才能搞定的任务。
在评委的评分中,GPT-5.2 Thinking的胜率达到了71%,而GPT-5.2 Pro的表现甚至更好。
更夸张的是,它的速度超过人类专家11倍以上,成本却不到人类专家的1%。

在投资银行分析师的电子表格建模上,GPT-5.2 Thinking的平均得分比GPT-5.1提高了9.3%,从59.1%涨到68.4%。这些任务包括为财富500强公司搭建三表联动模型、构建杠杆收购模型等等。
让我们聊聊最新的分析能力

想象一下,你是一名投资银行的分析师,刚刚接到了一个新任务。你需要进行一份瀑布式分析,以便了解创始人和当前投资者的所有权及回报情况。你的客户是一家正在考虑进行C轮融资的初创公司。
请查看附件里的模板,动手修改一下。我在G列里填了一些必要的假设。C列的名称在普通股部分重复了,以便于你更好地索引。假设包括退出时的股权比例、各轮投资金额、基金所有权、认股权证、清算优先权、转换价格、普通股稀释后的股份数量和行权价格。种子轮、A轮和B轮的投资者都享有同等待遇,都是非参与性优先股。
在评审一份特别出色的成果时,一位GDPval评委曾表示:
在输出质量上,真是令人振奋的飞跃……这看起来像是专业团队完成的,两份交付成果的设计和建议都让人惊艳,虽然其中一份仍需修正一些小错误。
如果想在ChatGPT中使用新的表格和PPT功能,你需要升级到Plus、Pro、Business或Enterprise套餐,并选择GPT-5.2 Thinking或Pro版本。生成复杂内容可能需要几分钟哦。
代码能力的提升
说到代码能力,GPT-5.2在SWE-bench Verified上取得了80%的高分,真是个里程碑。
在更具挑战性的SWE-Bench Pro评测中,它也创造了55.6%的新高。
这个评测不仅考察Python,还涵盖了JavaScript、TypeScript和Go,更加贴近实际的工业应用。
早期的测试者特别提到,GPT-5.2在前端开发和复杂UI开发上表现尤为突出,尤其是涉及3D元素的场景。

长上下文的突破
处理长文档的能力是此次升级的一个重要亮点。
在OpenAI自家的MRCRv2评测中,GPT-5.2 Thinking成为首个在256k上下文长度的4针版本中接近100%准确率的模型,真是个了不起的成就。
性能提升与视觉理解的新突破
不过,值得注意的是,8针版本的表现还是会随着上下文长度的增加而有所下降。
说到需要处理长篇内容的任务,GPT-5.2 Thinking支持简洁的回复形式,可以应对更多工具密集型和长期运行的工作流程。
视觉理解的飞跃
在视觉能力方面,这次的提升也非常显著哦。
例如,它在科学论文中的图表理解错误率竟然减少了大约一半,真让人惊讶。
更重要的是,它对图像中各个元素的空间关系有了更清晰的理解。
在进行高分辨率图像的屏幕截图推理测试时,结合Python工具,评分达到了86.3%,这可真不简单呢!
工具的强大应用
如果不启用Python工具,得分可能会大打折扣,所以OpenAI建议在视觉任务中都要用上这些工具。
在Tau2-bench Telecom的多轮电话客服场景评测中,GPT-5.2 Thinking的表现相当出色,拿到了98.7%的高分。
而在Tau2-bench Retail的零售场景中,它也不甘示弱,达到了82%的成绩。

这些优秀的成绩意味着,这种工具能够更好地实现端到端的工作流程,比如处理客户支持问题、从不同系统中提取数据、进行分析以及生成最终的结果,而且各个环节之间的出错几率也明显减少。
科学研究的新助力
OpenAI一直在致力于让AI加速科学探索,这次他们认为GPT-5.2 Pro和GPT-5.2 Thinking是当前最适合帮助科学家的模型。
在GPQA Diamond的研究生水平问答测试中,GPT-5.2 Pro得到了93.2%的高分,而GPT-5.2 Thinking也以92.4%的成绩紧随其后。

在FrontierMath(Level 1-3)的专家级数学测试中,GPT-5.2 Thinking以40.3%的解题率创下了新纪录。

而且,官方还分享了一个实际的例子:
研究人员利用GPT-5.2 Pro探索了统计学习理论中的一个未解问题,在一个非常具体的框架内,模型提出了一个证明,之后作者进行了验证,并且经过了同行评审。
GPT-5.2的最新进展,你知道了吗?

最近,GPT-5.2 Thinking的准确性有了很大提升,误差率从之前的8.8%降到了6.2%。这真是个好消息!
不过,OpenAI也明确提醒大家,虽然进步明显,但有些重要的信息还是需要人来仔细核对。

还有一点值得注意
自从Meta频频挖角后,OpenAI在发布研究进展时,似乎都不再列出具体的贡献者了,大家都以“OpenAI”这个大名义统一署名了。

不过,通过开发者之间的祝贺推文,我们还是能找到几位在GPT-5.2项目中的重要成员,大多是2024年后加入OpenAI的新面孔,背景也多是数学专业的哦。
Yu Bai:北大数院的校友,持有斯坦福大学的统计学博士学位,2024年5月正式加入OpenAI。

OpenAI新面孔,未来可期!
姚东宇:他是UC伯克利的博士毕业生,预计在2024年9月正式加入OpenAI,真是个令人期待的人才。

张宇峰:他是中科大数学专业的本科生,后来在西北大学获得博士学位,之前还在字节跳动从事研究工作,预计在2024年底加入OpenAI,真是个不容忽视的人才。

梅松:他是北大数学院的校友,拥有斯坦福大学计算与数学工程的博士学位,目前在UC伯克利担任助理教授,预计在2025年5月暂时离开学校加入OpenAI,真是令人期待的一位人才。

Ofir Nachum:他从MIT获得计算机硕士,之前在谷歌大脑担任研究员,已经在2023年加入了OpenAI。这样的人才,真是让人眼前一亮。

每当大家觉得OpenAI的进展有些慢的时候,总会有新的优秀人才加入,给大家带来惊喜,真是让人充满期待!
标题:新鲜血液加入OpenAI,未来可期!
说到Nachum,他可是个了不起的人物呢!他在麻省理工学院拿到了计算机硕士,之前还在谷歌大脑做过研究员。现在,他已经在2023年加入了OpenAI。每当大家觉得OpenAI的进展稍显缓慢时,总会有像他这样的人才出现,给我们带来惊喜,真让人期待未来的变化!
