GPT-5:期待与失望的双重奏

GPT-5:期待与失望的双重奏

自从2022年11月ChatGPT问世以来,OpenAI的新品发布会就像科技界的春晚一样,每次都引发广泛关注。各大科技公司也是摩拳擦掌。但最近OpenAI发布的GPT-5似乎让不少用户感到失望,虽然这个大模型实力不凡,但并没有达到大家的期待。

距离GPT-4问世已经过去两年半,GPT-5的到来可谓是姗姗来迟。

从去年年底开始,GPT-5的发布时间就备受关注,被视为业内最受期待的模型。OpenAI的CEO山姆·奥特曼甚至在社交媒体上称其为“世界上最强的模型”,让科技迷们期待不已。

然而,发布当天,GPT-5的表现似乎并没有达到奥特曼的预言,也未能在业内掀起像GPT-4那样的波澜。

在北京时间8月8日的凌晨,GPT-5正式亮相。OpenAI一口气推出了四个版本,包括主流的GPT-5、面向开发者和企业的轻量版GPT-5 Mini、超轻量版GPT-5 Nano,以及专为企业用户设计的付费200美元的GPT-5 Pro模式,几乎覆盖了所有用户的需求。

在发布会上,山姆·奥特曼热情地将GPT-4到GPT-5的跨越比作从像素屏到视网膜屏的飞跃。他还举例说明,GPT-5可以针对任何问题提供博士级的解答。

但事实真的是这样吗?从性能上来看,GPT-5是否依然具备OpenAI之前发布的多款模型所具备的技术优势和行业领导地位呢?

01、马斯克对OpenAI的不满

从产品角度来看,GPT-5最大的变化就是使用体验更加简洁统一。以前,OpenAI的各种模型名称让人眼花缭乱,比如GPT-4o、o4、GPT-4.1等,而这次GPT-5则将所有模型整合,让用户不再为选择而烦恼。

GPT-5:开放AI的诚意与期待

说到价格,OpenAI这次真的是下了血本。普通用户可以享受限时免费的服务,每5小时能发送10条信息,真的是人人都能试试。而在API方面,GPT-5的收费也很友好,每百万Token的输入只需1.25美元,输出则是10美元。

曾经的OpenAI总是显得有些高冷,但这次他们似乎真心想让大家体验。相比于主要竞争者,GPT-5的价格降到了Claude Opus 4.1的1/15,甚至比Gemini 2.5 Pro更具竞争力。

不过,熬夜看完发布会的朋友们还是对GPT-5感到有点失望。

一位大模型从业者秦岚在接受《财经天下》采访时表示:“看了整体情况后,我并没有感受到GPT-5在架构上有什么特别的优势,虽然数据集有所提升,但功能上并没有给我带来惊艳的感觉。”

而另一位业内人士的看法则显得更加客观:“毕竟之前的GPT-4实在是太引人注目了,大家自然对GPT-5有着更高的期望,但技术进步从来不是一帆风顺的。”

GPT-5:期待与失望的双重奏

客观来说,GPT-5在各种基准测试中表现出色,相比于前代模型GPT-4o和o3都有明显的提升。尤其是在编程能力方面,GPT-5刷新了OpenAI所有模型的记录。

在长达1小时20分钟的发布会上,OpenAI的高层首先展示了GPT-5的编码能力,并满怀信心地宣称:“GPT-5是市场上最佳的编码模型。”

如今,AI编程能力已经成为科技巨头们竞争的焦点。就在国内,字节、腾讯、阿里这三大公司在7月21日至23日的短短几天内,接连推出了AI编程领域的新产品。

字节推出了AI编程助手TRAE 2.0,腾讯云则开启了CodeBuddy IDE的内测,而阿里云也发布了通义千问AI编程大模型Qwen3-Coder。此外,Kimi、智谱AI等公司也推出了包含编程能力的K2模型和GLM-4.5模型。

国外AI编程模型的激烈竞争

说到AI编程模型,谷歌的Gemini 2.5 Pro可是被誉为行业中的佼佼者,专注于处理长文本、多模态和多语言的理解。而今年四月,人工智能领域的新宠Anthropic也推出了Claude 4系列大模型,真是看得人眼花缭乱。

这些科技巨头的积极参与,显然是看中了AI编程正在成为智能体商业化的一个重要突破口。西部证券也指出,企业对于提高开发效率的需求日益增长,付费意愿逐渐明确,AI编程领域已经形成了一个完整的闭环,从技术验证到产品迭代再到商业变现。

不过,尽管GPT-5目前在排行榜上占据了第一的位置,但实际上它与其他竞争对手之间的差距并没有想象中那么明显。

根据OpenAI的数据显示,在SWE-bench编程测试中,GPT-5的得分是74.9%。而几天前,Anthropic发布的Claude Opus 4.1的成绩是74.5%,可见GPT-5也不过是高出0.4%而已。

而且,马斯克对GPT-5的表现也不太满意,甚至在社交媒体上表示,GPT-5在ARC-AGI-2这一专门评测AI流体智能的测试中,竟然没有战胜xAI的Grok 4,这显然让人有些意外。

02、基模训练的天花板问题

其实,围绕GPT-5的各种评价背后,反映出大模型训练也逐渐遇到了瓶颈。

“科技媒体The Information”曾提到,GPT-5在研发过程中面临不少挑战。一方面是高质量训练数据的匮乏,另一方面是大规模预训练的收益在下降,这使得GPT-5难以像GPT-3到GPT-4那样实现显著的进步。

为了应对这一局面,在GPT-5发布之前,OpenAI曾一贯坚持闭源的模式,但也开始尝试进入大模型的开源生态。

8月6日,OpenAI发布了自2019年以来的首批开源大语言模型:GPT-oss-120b和GPT-oss-20b,分别拥有1168亿和209亿个参数,迅速跻身全球人工智能领域的HuggingFace模型榜单前列。

“oss”是“Open Source Series”的缩写,代表开源系列。OpenAI发布开源模型后,奥特曼表示,“GPT-oss是我们投资数十亿美元研究成果的结晶”。

不过,比较之下,国内的一些科技公司如DeepSeek和MiniMax仅花费几百万美元,就训练出了同样开源的DeepSeek-R1和MiniMax M1模型,这让人不得不感叹,竞争的确是日益激烈。

OpenAI的巨额投资到底值不值?

说真的,OpenAI花了那么多钱,真的有值得的地方吗?从性能来看,据他们自己说,GPT-oss-120b在核心推理的基准测试中,表现得跟OpenAI的o4-mini差不多。而那个较小的GPT-oss-20b模型,结果在同样的评估中甚至达到了或超越了o3-mini的水平。

更特别的是,这两个GPT-oss模型都采用了最新的预训练和后训练技术,特别强调了推理能力、效率和在不同环境中的实用性。此外,它们还使用了混合专家(MoE)架构设计的Transformer,这样可以减少在处理输入时需要激活的参数数量。

GPT-5:期待与失望的双重奏

尽管OpenAI在开源方面表现得很积极,但有一个明显的问题还是被大家批评——就是模型的“幻觉”率太高了。OpenAI提到,在他们内部用来测试人物知识准确性的PersonQA测试中,GPT-oss-20b的回答竟有53%都是错误的。

值得注意的是,现如今DeepSeek-R1模型的幻觉率已经控制在10.5%了。与OpenAI最新的闭源模型GPT-5相比,它的幻觉率甚至低于1%。这样的差距,真的是让人感到震惊。

“其实,各大开源模型的公司都在不断通过算法的优化来减少幻觉率,取得了不小的进展。而GPT-oss-20b的53%幻觉率,不仅在DeepSeek-R1面前显得很落后,也明显低于它自家的闭源大模型。”大模型算法工程师陈伟在接受《财经天下》采访时表示。

不过,OpenAI这次重新开放源代码的做法,还是有其深远的意义。最开始,OpenAI在2018年发布的GPT-1和2019年的GPT-2模型,实际上就有开源的理念在里面。

2020年以后,OpenAI推出了震撼业界的GPT-3模型,才开始走上闭源的道路。这次再度改变策略,主要是因为开源生态的繁荣实在令人瞩目。

在2025年1月,DeepSeek掀起了开源热潮,奥特曼首次承认OpenAI在开源技术上“走错了方向”。

国产大模型开源潮,AI生态蓬勃发展

在DeepSeek的带动下,国内的开源大模型纷纷崭露头角。到7月30日,著名的AI开源平台Hugging Face的热门榜单上,中国的模型已占据了令人瞩目的9个席位。

想要继续引领技术潮流,OpenAI可不能再坐享其成了。陈伟在接受《财经天下》采访时提到,开源模型的开发者需要依靠社区贡献的数据和改进方案,来不断提升模型的表现。光靠一款模型的实力,缺乏持续的生态支持,是没办法在市场上占据一席之地的。

在建立开源生态合作方面,OpenAI也开始有所动作。它刚发布的两个开源模型就与微软的Windows设备建立了联系,同时还获得了亚马逊AWS的支持,算是得到了“认证”了。

不过,OpenAI在开源的同时,也为自己留了一手:禁止年收入超过1亿美元或日活跃用户超100万的公司使用GPT-oss来开发与其核心产品竞争的服务,这几乎涵盖了他们的所有竞争者。

03、周活跃用户7亿,OpenAI依然压力山大

在大家期待OpenAI推出GPT-5的同时,其他科技巨头也不甘示弱,纷纷展开了正面的AI技术竞争。

8月6日,谷歌发布了一款名为Genie 3的通用型世界模型,宣称它能以每秒24帧的速度实时生成可供探索的动态世界,且在720P的分辨率下能保持数分钟的画面一致性。不过,这一切目前还处于测试阶段,效果还有待验证。

在GPT-5即将发布之前,Anthropic也不甘落后,提前推出了新模型Claude 4.1,在编程能力上有所突破。值得一提的是,Claude 4.1的定价和之前的版本保持一致,继续以“加量不加价”的策略占据编程领域的优势。

GPT-5:期待与失望的双重奏

在国内市场上,大模型之间的竞争愈发激烈。自7月以来,阿里巴巴一周内就连续发布了四个模型产品,Kimi、阶跃星辰、商汤科技等公司也在不断推出新技术,竞争真是如火如荼。

OpenAI的挑战与机遇:在竞争激烈的市场中如何突围

说实话,最近的数据显示,OpenAI的ChatGPT在用户数量上真是火箭般上涨。今年8月份,它的周活跃用户已经达到了7亿,居然比去年增长了四倍!而且,付费用户也在不断增加,从2024年的300万提升到500万,其中Pro会员和企业版的用户贡献了超过60%的收入。

这么庞大的用户基础,确实让ChatGPT的商业收入屡创新高。就拿媒体报道来说,直到今年7月底,OpenAI预计年度经常性收入会达到120亿美元,这可是全球最大的AI创业公司哦!而它的主要竞争对手Anthropic同期的收入预期仅为50亿美元,差距还是蛮大的。

不过,OpenAI也面临着不小的挑战,特别是在企业市场上,竞争对手正在迅速地侵蚀它的市场份额,这可不是个小问题。

最近,海外投资机构Menlo Ventures的一份报告显示,Anthropic在企业大语言模型市场的占比已经达到了32%,而OpenAI则只有25%。这样一来,OpenAI的压力可想而知。

不仅如此,国内外的开源大模型竞争者也在悄然削弱OpenAI的优势。数据显示,截至今年7月,阿里的Qwen系列已经开源了300多个模型,全球下载量超过4亿次,衍生的模型数更是超过了14万个,稳居全球开源模型的第一名。

而且,最近几个月,Meta挖走了十多位OpenAI的研究员,这对OpenAI的发展来说无疑是个打击。Meta出价数亿美元的年薪,真是让人咋舌,这样的疯狂挖角让OpenAI倍感压力。市场消息说,他们已经开始了新一轮的员工期权兑现计划,估值高达5000亿美元。

这场人工智能的比赛还远没有到终点,未来的竞争只会越来越激烈。眼下那些容易获得的机会已经不多了,OpenAI想要继续在市场上保持领先,确实越来越难了。

(文中秦岚、陈伟为化名)

(作者 | 豆蔻,编辑 | 李不清,图片来源 | 视觉中国,本内容来自财经天下WEEKLY)

来源:今日头条
原文标题:GPT-5,放了个哑炮 – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!

发表评论