哎,1106天过去了,OpenAI从“强者”变成了“被追赶者”。
就在上周,Google发布了Gemini 3,OpenAI的CEO奥特曼紧急拉响了“红色警报”,宣布将所有资源重新集中于ChatGPT,其他项目都得靠边站。
这是OpenAI成立以来第一次进入这种“危机状态”,也是它首次如此明确地表明:竞争的压力大到必须全力以赴。

紧接着,OpenAI又推出了GPT-5.2模型,像是给竞争对手狠狠一击。这一版本将面向ChatGPT的付费用户,并通过API供开发者使用,分为三个不同的版本:
- Instant:快速优化版,适合信息查询、写作以及翻译等日常任务;
- Thinking:擅长处理复杂的任务,比如编程、分析长文档、数学运算及规划;
- Pro:高端版本,专注于在高难度任务中提供最佳的准确性和可靠性。
不闲聊,真心干活,GPT-5.2来袭
大家原本以为OpenAI会更注重提升ChatGPT的个性化和用户体验,没想到GPT-5.2的发布依然是走实用主义的路线。
OpenAI应用的CEO Fidji Simo说过:“我们设计GPT-5.2就是为了让用户创造更多经济价值。”
那么,什么是经济价值呢?
简单来说,就是让AI真正能工作,比如做表格、写PPT、编程、看图、阅读长文、调用工具、管理复杂项目,这些都是GPT-5.2的强项。
而且,数据看起来也很惊人。每个ChatGPT企业版用户平均每天能省下40到60分钟,重度用户甚至每周可以节省超过10小时。

其中,GPT-5.2的Thinking版本是这次发布的重头戏。
在针对44个职业知识型任务的GDPval测试中,它成为第一个在整体表现上达到或超过人类专家水平的模型。具体来说,在与行业专家的比较中,GPT-5.2的Thinking版本在70.9%的任务中胜出或持平,评判者都是人类专家。
全新升级的GPT-5.2,真的是让人惊艳!
这些任务可不是随便设定的哦,涵盖了美国GDP前九大行业,比如销售演示、会计报表、急诊排班、制造业图纸、短视频制作等等,都是现实工作中非常重要的内容。
在编程方面的进步也相当显著。
SWE-Bench Pro测试非常严格,它评估的是模型在真实软件工程中的表现,涉及四种编程语言,相比只测Python的版本,这个难度可大多了。GPT-5.2 Thinking在这个测试中取得了55.6%的成绩,创造了行业的新高。
更让人惊叹的是,在SWE-bench Verified测试中,GPT-5.2直接达到了80%的高分,成为目前的最高记录。这意味着它在调试生产环境中的代码、实现功能需求、重构大型代码库等方面都能更加高效,减少人工干预。
前端开发的表现也提升了不少。
早期测试者反馈,它在处理复杂或非常规的前端UI任务时非常出色,特别是在涉及3D元素的场景中,简直就是全栈工程师的得力助手。
OpenAI还展示了一些根据单一提示生成的实例,比如海浪模拟器、节日贺卡生成器、打字雨游戏。只需一个提示词,整个单页应用就能生成,参数可调、动画效果真实、UI风格宁静,样样俱全。
幻觉率降低30%,长文本处理能力接近完美
说到准确性,GPT-5.2 Thinking的“幻觉率”相比于前一版本GPT-5.1明显降低了。
在一组匿名的ChatGPT查询中,错误回答的比例减少了大约30%。对专业人士而言,这意味着在研究、写作、分析和决策支持等任务中,出错的概率更低,使用起来更放心。
当然,OpenAI也提醒大家,尽管GPT-5.2提升了准确性,关键任务还是要自己再核实一遍。
它在处理长文本的推理能力上也设立了新标杆。
根据OpenAI MRCRv2基准测试,GPT-5.2的表现相当优秀。这个测试主要评估模型能否有效整合长文档中的信息,对于需要处理数十万token的深度文档分析任务,GPT-5.2的准确性远超GPT-5.1。
尤其是在MRCR的4针测试中,GPT-5.2是首个接近100%准确率的模型。在最多256k token的上下文中,它的表现让人刮目相看。
这也意味着专业用户可以使用GPT-5.2高效处理超长文档,比如报告、合同、学术论文、访谈记录和多文件项目,确保在处理数百页内容时逻辑清晰、信息准确。至于视觉理解方面,GPT-5.2 Thinking是目前OpenAI最强大的视觉模型,在图表推理和软件界面理解上,错误率降低了大约一半。
这对于日常专业使用来讲,意味着模型能更精准地解读数据仪表盘、产品截图、技术图纸和可视化报告,非常适用于金融、运营、工程、设计、客服等以视觉为核心的工作场景。
### GPT-5.2:智能助手的新突破
最近,GPT-5.2在空间理解和工具调用方面的能力得到了显著提升。在Tau2-bench Telecom的测试中,这个新版本的模型取得了惊人的98.7%的高分,显示出它在处理复杂、长时间的任务时,能够更可靠地使用各种工具。
即便是在推理能力最低的情况下,GPT-5.2的表现也明显优于之前的GPT-5.1和GPT-4.1。这表明,它在执行完整工作流程时的能力更强,能够更有效地处理客户服务的案例,提取多个系统中的数据,并进行分析,输出结果的过程中出错的概率更小。
说到数学和科学的能力提升,这也是此次更新的一个重要亮点。在GPQA Diamond这样的研究生级别科学问答测试中,覆盖了物理、化学和生物学等多个领域,GPT-5.2的表现相较于以往显著提升。而在FrontierMath这样考察专家级数学问题解决能力的测试中,它也能顺利应对。
更令人惊讶的是,在ARC-AGI-1测试中,GPT-5.2 Pro成为第一个准确率超过90%的模型,表现上升至90%以上,而去年的o3-preview则只达到了87%,而且成本下降了大约390倍。这真是个巨大的飞跃!
在更复杂的ARC-AGI-2版本测试中,重点考察了流动性推理的能力,GPT-5.2 Thinking取得了52.9%的高分,创下了“链式思维模型”的新纪录,而GPT-5.2 Pro则更进一步,达到了54.2%。
官方博客分享了一个令人印象深刻的案例:在统计学习理论的一个开放问题上,GPT-5.2 Pro甚至给出了一个可行的证明方案。这个问题源于2019年学习理论大会COLT提出的未解难题,内容涉及当模型设定完全正确、数据呈标准正态分布时,学习曲线是否会单调。
研究人员没有提前设计算法或提供证明思路,甚至没有输入任何中间步骤或提示,而是直接让GPT-5.2 Pro给出完整的证明。结果,模型竟然提出了一种可行的解决方案,并通过人工验证和外部专家的评审确认其正确性。
这说明,在一些有明确公理基础的领域,比如数学和理论计算机科学,GPT-5.2 Pro已经能够发挥更为实质性的科研辅助作用,比如探索证明路径、验证假设以及发现潜在的联系。
GPT-5.2的惊人表现与未来计划
说到GPT-5.2的API,性能真的是让人瞠目结舌,当然,这样的实力背后也得花不少银子。
Thinking和Deep Research模式消耗的算力可不一般,远远超过普通的聊天机器人,因为它需要进行更深层次的思考。OpenAI现在在模型推理上的花费,基本上都是直接用现金支付,而不是通过微软Azure的云服务积分来抵扣。
长此以往,这样的花费方式到底能坚持多久,真的很难说。
总体来看,GPT-5.2更像是对之前两次模型更新的整合,而不是什么彻底的重做。
8月推出的GPT-5可谓是架构上的一次大革新,引入了可以在快速响应和深度思考模式之间灵活切换的机制。而11月的GPT-5.1,让系统变得更加友好、对话性更强,也更适合智能体和编程任务。
而现在的GPT-5.2,则是在这些优势的基础上,力求推出一个更加可靠的生产级模型。更值得注意的是,这次发布的三款GPT-5.2模型,其底层知识库已经完成了更新。

目前,GPT-5.2已经在ChatGPT中逐步上线,首批开放给付费用户。GPT-5.1会在“传统模型”选项中保留三个月,之后就会正式下架。
至于API方面,开发者们也可以开始使用了。虽然价格比GPT-5.1贵了一些,但OpenAI表示,由于token的使用效率更高,整体成本反而会更低。
坏消息与好消息
除了模型的更新,OpenAI在商业化方面也有两个截然不同的消息。
虽然这次没有新图像生成模型的推出,但OpenAI却与迪士尼达成了一项为期三年的授权协议。
这意味着用户可以生成包含迪士尼、漫威、皮克斯和星球大战等200多个角色的社交视频,部分生成的视频还可以在Disney+上播放。
作为交换,迪士尼向OpenAI投资了10亿美元,并成为重要客户。内容IP结合AI生成,想象空间的确很大。

另一个值得注意的消息是,ChatGPT的“成人模式”终于有了明确的上线时间。
随着越来越多的AI聊天机器人开始涉及成人内容,OpenAI也不打算当个旁观者。根据彭博社的报道,Fidji Simo已经明确表示,该功能预计将在2026年第一季度上线。
在这之前,OpenAI会继续完善年龄识别功能,确保未成年人能够自动启用内容保护机制。目前,年龄预测模型正在部分国家进行早期测试,评估识别青少年的能力,尽量避免误判成年人。
面对谷歌Gemini的紧逼,OpenAI通过推出GPT-5.2这套组合拳来应对,速度更快、性能更强,更像是一个成熟的商业产品。
同时,OpenAI在拥抱迪士尼的同时,又准备推出成人模式,真的是在技术领先和快速变现之间寻找平衡;既要占领企业市场,又不想放过任何流量入口。
值得庆幸的是,迎来十周年的OpenAI最终还是上演了一出精彩的反击大戏。
标题:揭秘OpenAI的十年反击之路!
说到OpenAI,最近他们真是有点儿动作频频。想象一下,像迪士尼这样的巨头与他们合作,同时还推出一种成人模式,简直是在技术和盈利之间找到了一种微妙的平衡。就像在商业舞台上跳舞,既要吸引企业客户,又不想放过任何潜在的流量。令人欣慰的是,OpenAI在庆祝十周年之际,竟然成功上演了一场精彩的反击,这可真是让人刮目相看呢。
别忘了,想了解更多内容,欢迎关注我们的微信公众号:爱范儿(微信号:ifanr),我们会第一时间为你奉上更多精彩内容哦!
爱范儿 | 原文链接 · 新浪微博

GPT-5.2的发布真是个好消息,尤其是它在工作效率上的提升,让打工人能更轻松地应对繁忙的任务。期待体验它的强大功能!
GPT-5.2的实用性让我感到振奋,它能有效降低工作负担,特别是在编程和复杂任务上的表现令人期待。希望能尽快看到它在工作中的应用效果。
OpenAI推出的GPT-5.2真是个游戏规则改变者!能在繁重的工作中节省时间,特别是对于那些需要处理复杂任务的打工人来说,绝对是个福音。期待它的实际应用效果!
GPT-5.2的发布让我对未来充满期待,尤其是它在复杂任务上的表现非常出色,这将极大提升工作效率,真是打工人的福音!
这次GPT-5.2的发布真是大大提升了工作效率,尤其是在处理复杂任务时表现超出预期,真的让人对未来工作充满信心!
GPT-5.2的实用性让人惊喜,特别是在复杂任务处理上,能够有效节省时间,真的是打工人的好帮手!
GPT-5.2在复杂任务上的表现令人印象深刻,尤其是在编程和调试方面的提升,让我对提高工作效率充满期待。
GPT-5.2的推出真是个利好消息,特别是在处理复杂任务和编程方面的提升,让我对未来的工作效率充满期待。希望能早日体验它的强大功能!