OpenAI重磅发布o3与o4-mini,开源AI编程工具引领“看图思考”革命,史上最大收购内幕揭秘!

智东西在4月17日的报道中提到,今天凌晨,OpenAI又带来了惊喜,发布了两个全新的视觉推理模型——OpenAI o3和o4-mini。这也是该系列首次能通过图像来进行思维链推理的模型。此外,OpenAI还开源了轻量级编程Agent Codex CLI,发布后短短7小时,就收获了超过5500个Star。

这两个模型各有千秋,OpenAI o3是目前最强的推理模型,而OpenAI o4-mini则是为了快速和经济高效的推理而优化的小型模型。新模型不仅首次将图像融入思维链,还能自主调用工具,在一分钟内给出答案。

OpenAI重磅发布o3与o4-mini,开源AI编程工具引领“看图思考”革命,史上最大收购内幕揭秘!

OpenAI新开源的编程Agent Codex CLI能够充分发挥模型的推理能力,还可以在本地部署。此外,今天OpenAI在AI编程领域还曝出了一项重磅收购交易。据外媒报道,他们正与AI辅助编程工具Windsurf进行洽谈,计划以30亿美元(约219亿元人民币)收购,这将成为OpenAI迄今为止规模最大的一次收购。

从今天开始,ChatGPT Plus、Pro和Team用户可以使用o3、o4-mini和o4-mini-high,这些新模型将替代o1、o3-mini和o3-mini-high。而ChatGPT的企业和教育用户将在一周后才能访问这些模型。免费用户在提交查询前,可以选择“思考”来试用o4-mini。OpenAI预计在几周内推出OpenAI o3-pro,并提供完整工具支持。目前,Pro用户依然可以使用o1-pro。o3和o4-mini通过Chat Completions API和Responses API向开发者开放。

OpenAI重磅发布o3与o4-mini,开源AI编程工具引领“看图思考”革命,史上最大收购内幕揭秘!

OpenAI的联合创始人兼CEO Sam Altman在社交平台X上也发文称赞o3和o4-mini“真的是天才级的产品”。

OpenAI重磅发布o3与o4-mini,开源AI编程工具引领“看图思考”革命,史上最大收购内幕揭秘!

被OpenAI考虑收购的Windsurf,正式名称是Exafunction Inc.,成立于2021年,已经筹集了超过2亿美元的风险投资,估值为30亿美元。近期的融资谈判中,还包括了Kleiner Perkins和General Catalyst等投资者。去年11月,Windsurf推出了全球首个智能体IDE。

Windsurf推出全球首款智能体IDE

最近,AI编程领域的投资热潮让人瞩目。比如,支持Cursor的初创公司Anysphere,最近就在与投资者谈判,估值接近100亿美元(大约731亿元人民币)。

之前,OpenAI也曾收购过像Rockset这样的向量数据库公司,以及远程协作平台Multi。如果这次收购Windsurf的交易最终达成,OpenAI将进一步增强其在AI编程助手领域的实力,和Anthropic、微软的Github、Anysphere等知名企业展开更激烈的竞争。

不过,交易的具体条款还没最终确定,谈判过程随时可能有变化。

01.

用图像思考

无论手绘草图还是颠倒文字都能应对

新的o3和o4-mini模型真是厉害,它们可以将图像直接融入思维链中,用图像进行思考,还能判断何时该用什么工具。

具体来说,这些模型能理解用户上传的白板照片、教科书图表或者手绘的草图。即使图像有点模糊或者颠倒,模型也可以借助工具来实时处理,比如旋转、缩放或变换,甚至可以和Python数据分析、网络搜索、图像生成等工具配合使用,这些都是模型推理的一部分。

比如,你上传了一张随手拍的照片,可以问模型:“这张图里最大的船名是什么?它停在哪里?”

在解决数学难题时,OpenAI的o3模型能在不借助搜索的情况下给出正确答案,而早期的o1模型就做不到这一点。

当用户上传一张“手持节目单”的照片时,o3能够准确分析日程安排并给出合适的计划,而o1在某些节目时间上却出现了错误,这让人有些失望。

OpenAI的新模型真是厉害了!

你知道吗?这些模型现在可以根据收到的信息快速反应和调整哦。简单来说,它们能在没有搜索引擎帮助的情况下,独立地处理各种任务,比如理解图像、推理和给出建议。这样一来,它们就能处理那些需要超出内置知识的复杂问题,简直像个聪明的小助手!

02.

多模态任务的表现大幅提升

视觉推理准确率达97.5%

在成本和性能上,OpenAI认为,新款o3和o4-mini比起o1和o3-mini,不仅更聪明,而且价格更实惠

看看o4-mini和o3-mini之间的对比吧:

OpenAI重磅发布o3与o4-mini,开源AI编程工具引领“看图思考”革命,史上最大收购内幕揭秘!

再看看o3和o1的对比:

OpenAI重磅发布o3与o4-mini,开源AI编程工具引领“看图思考”革命,史上最大收购内幕揭秘!

OpenAI对o3和o4-mini进行了各种人类考试和机器学习基准测试,结果显示这些新模型在多模态任务上表现远超前代产品

其中,图像思维能力在几乎所有的评估中都有显著提升。o3和o4-mini在STEM相关的问题、图表理解、视觉推理等领域都取得了领先的成绩。特别是在视觉推理方面,新模型的准确率达到了95.7%。

在处理图像、图表和视觉任务时,o3的表现尤为突出。有专家指出,o3在复杂任务中的重大错误率比o1低了20%,尤其是在生物学、数学和工程方面的分析能力也相当强。此外,它还能够生成和评估新的假设。

而在一些非STEM任务和数据科学上,o4-mini的表现超过了o3-mini,支持的使用限制也更高,具备更强的处理能力和效率。

评估专家普遍认为,这两个新模型在执行指令和提供有用响应方面,比之前的版本要强大得多。而且在自然对话中,它们还能参考之前的对话来提供更个性化的回答,真是太贴心了!

OpenAI重磅发布o3与o4-mini,开源AI编程工具引领“看图思考”革命,史上最大收购内幕揭秘!

看看这次的多模态能力评估结果吧:

03. 继续坚持“更多计算=更好性能”的理念

推出开源轻量级编程代理

在OpenAI o3的开发过程中,研究团队发现大规模的强化学习跟之前GPT系列所经历的“更多计算=更好性能”的现象有着相似的趋势。

他们通过在强化学习中追溯扩展路径,并在训练的计算和推理时间上提升了一个数量级,结果看到模型的性能有了显著的提升。这说明,只要给模型更多思考的时间,它的表现就会持续增强。

在延迟和成本与OpenAI o1相当的情况下,o3在ChatGPT中的表现更为出色。博客中提到,研究人员已经确认,如果让模型进行更长时间的思考,它的性能依然会有进一步提升。

此外,研究团队还通过强化学习训练了新模型使用工具的能力,教它不仅如何使用工具,还要根据情况判断何时使用。这样一来,新模型在涉及视觉推理和复杂工作流程的开放场景中表现得更为优异。

OpenAI还推出了一个轻量级编程代理Codex CLI,旨在提升o3和o4-mini等模型的推理能力,用户可以直接在终端上运行。OpenAI计划进一步支持更多的API模型,比如GPT-4.1。

用户可以通过上传截图或低保真草图,结合对本地代码的访问,从命令行中得到多模态推理的优势。OpenAI相信,这样可以更好地将模型与用户和他们的计算机连接起来。Codex CLI现在已经完全开源。

OpenAI重磅发布o3与o4-mini,开源AI编程工具引领“看图思考”革命,史上最大收购内幕揭秘!

开源地址:github.com/openai/codex

同时,OpenAI还启动了一项100万美元的倡议,支持使用Codex CLI和OpenAI模型的工程项目,评估并接受以25000美元API信用额度形式提供的补助金申请。

04. 仍然存在三大局限性:

推理链过程、感知错误、可靠性不足

05.

结语:发力视觉推理

迈向多模态推理

OpenAI的o3和o4-mini在视觉推理方面的表现真是让人眼前一亮,这些新模型在处理视觉感知任务时的能力有了大幅提升,能够解决以前那些难以攻克的问题,标志着我们在多模态推理的道路上又迈出了重要一步。

在他们的博客上,OpenAI提到,他们把o系列的专业推理能力和GPT系列的自然对话能力、工具使用能力结合起来,未来有望让模型实现更流畅、更自然的对话,还能主动利用工具来应对更复杂的问题。

而且,研究团队也在持续改进模型的图像推理能力,力求让这一过程更加简洁,减少冗余,提高可靠性。说白了,就是希望能让模型在处理图像的同时,做到更高效、更准确。

本文来自微信公众号“智东西”(ID:zhidxcom),作者:程茜,编辑:云鹏,36氪经授权发布。

来源:今日头条
原文标题:o3和o4-mini来了,OpenAI突破最强“看图思考”,开源AI编程神器,史上最大收购曝光 – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!

发表评论