
新智元报道
编辑:Aeneas 定慧
【新智元导读】今天,Agentic AI的工程师们有了一个令人震惊的发现:用Codex完成一项博士生需要80小时的科研任务,居然只花了不到2小时,效率提升了整整40倍!其实,如果用以前的标准来看的话,AGI早就已经存在,只不过大家都在不断地调整标准。
科研领域的「奇点」真的要来了,距离我们想象的时间更近了。
最近,学术界被一项关于Codex的「目标模式(Goal Mode)」的实验震撼了:Codex的使用让AI的科研效率提升了40倍!
Agentic AI的工程师Dan McAteer在社交平台X上分享了这个实验:他用OpenAI Codex的Goal Mode来进行一项机械可解释性(Mechanistic Interpretability)研究任务。

GPT-5.5自己估算这个任务需要一名博士大约80小时完成,但实际上,AI只用了1小时56分钟就完成了。

这样一来,效率大约提升了40倍啊!

他使用的是Codex里一种叫做/goal的内置技能。
而且,McAteer认为:
/goal结合gpt-5.5的高精度和快速模式,是目前最有效的AI智能体配置。
也就是说,让模型自己设定目标,而其中的关键在于,它生成的提示词可能比你自己写的还要好。

这可不仅仅是简单的「效率提升」,更像是一种「降维打击」。
当科研周期从以「周」为单位缩短到「小时」,当AI开始自主设定实验目标(/goal),我们不得不正视一个残酷的现实:
「智能爆炸」的斜率已经显现,AI自我迭代的速度正在超出人类的控制!
Codex /goal模式究竟是什么?
先来看看这项实验的过程。
实验的发起人Dan McAteer,Agentic AI的工程师,之前在Amp Code工作。
他在社交平台X上长期分享AI代理的实际应用。

他的实验配置其实很简单——
他自己对这个配置的评价是:目前可用的最有效的AI智能体配置。
Codex /goal的重要性
真正值得关注的就是Codex的/goal模式。

根据OpenAI Codex工程师Philip Corey的说法,/goal是Ralph loop的一种实现——让目标在多轮对话中持续存在,不达成目标不停止。
简单来说,普通的Codex使用是你说一句,它执行一个动作,然后再回应你一句。
而Codex的/goal模式则是你设定一个目标,它会自己拆分成小任务,自动执行、审查,并继续进行,直到完成或者失败。
这标志着从对话式AI到目标驱动AI的转变。

对于像Mechanistic Interpretability这样的研究任务,/goal模式特别契合。
研究流程本身就是提出假设→设计实验→执行→查看结果→修正假设→再实验的循环,正好适合给一个能够自我循环的代理来处理。
McAteer的实验确实证明了Codex的/goal模式在科研循环任务中的有效性:它并不是取代研究员,而是取代研究员中那些重复的操作。

如果这个能力能够稳定下来,对AI研究本身会产生直接的影响。
这意味着未来在AI实验室里,AI研究员可以利用AI代理进行训练数据准备、实验设置、消融研究、可视化生成以及初步结果分析等重复性工作。
这也就是Anthropic和OpenAI最近提到的,AI正在加速AI研究的说法。
博士 80 小时 vs AI 2 小时
在传统科研的环境中,博士生的日常工作包括:查阅文献、构建模型、调试代码、验证结果和撰写报告。
这套流程之所以耗时冗长,主要是因为人脑在处理复杂逻辑和海量数据时,有物理限制。
然而,这次Codex的实验彻底颠覆了这种认知。

在「/goal + GPT-5.5 High + Fast Mode」的超级智能配置下,AI不再只是个「听话的工具」,而成了可以独立思考的研究员,负责制定策略。
它能理解复杂的自然语言自动编码器(NLA)的实验需求,自己把任务拆解开来,居然在不到两小时的时间里完成了人类顶尖人才需要两周才能完成的工作。
这意味着,科研的门槛正在被彻底打破。过去需要数年积累的专业分析能力,正在被算法逐步取代。
而且,自主AI研究员的时代已经到来了!
OpenAI之前设定的目标是到2026年底实现AI自主科研。
但从现在的实验进展来看,2026年可能不是个开始,而是人类彻底交出科研接力棒的时间点。
递归自我改进,正在加速形成
如果说Codex的40倍速实验是个令人瞩目的案例,那更让人不安的是,关于「递归自我改进」的证据正越来越多。
5月7日,Axios报道,Anthropic的创始人Jack Clark提出了一个惊人的概率:
到2028年底,AI实现完全递归自我改进的概率超过60%。


Sakana AI和UBC的研究团队今年推出了Darwin Gödel Machine,这是一种能够自行修改源代码来提升能力的智能编程体。

论文地址:https://arxiv.org/abs/2505.22954
在SWE-bench测试中,它的得分从20.0%提升到50.0%。而这一切,完全没有人类的干预。

同一个团队的AI Scientist项目在今年3月发表在《自然》期刊上。
它可以自主生成研究思路、编写代码、进行实验、撰写完整论文、甚至进行同行评审。
整条科研流程,从头到尾,完全由AI独立完成。

再来看一组数据。GPQA Diamond是个由博士专家设计的科学问答基准。到2023年11月,GPT-4的得分为39%。而人类专家的平均得分约为65%。
到了2026年4月,前沿模型集体突破:Gemini 3.1 Pro得分94.3%,Claude Opus 4.7得分94.2%。
所有前沿模型早已远远超过了人类博士专家。

SWE-bench的结果更能说明这种快速发展的趋势。

到2023年底,Claude 2的通过率仅为2%。现在已经提升到93.9%。
在短短两年半的时间里,从2%飙升到93.9%。
一旦画出这条曲线,任何学过高中数学的人都能认出它的形状。
显然,递归自我改进(RSI)已经启动。
一旦AI开始以40倍的效率重写自己的底层代码、优化架构,智力的增长将不再是线性的,而是急剧上升。
AGI已经交付,全行业都在对你「煤气灯」
其实,早在今年2月,四位来自不同顶尖领域的学者共同发表了一篇让人不安的论文:《AGI案例研究:今日LLM已达标》。

这四位作者分别代表了现代智力的四个支柱:哲学、机器学习、语言学和认知科学。他们达成了一个令人毛骨悚然的共识:
按照2022年之前的定义,AGI实际上早已实现。
目前没人承认的原因是,整个AI行业正在对公众进行一场集体性的「煤气灯效应」。
论文指出,人类在面对AI崛起时,表现出了一种强烈的「心理防御机制」。

2022年之前,只要能通过图灵测试、能够跨领域处理任务,就算是AGI。
但是ChatGPT的出现让标准提高了:「光有这些不够,还得具备完美的推理、身体(具身性)和自我意识。」
每当模型突破一个瓶颈,人类总会临时增加新的、模糊的标准作为门槛,不断地移动目标。
问题是,如果AGI已经存在,那么现在的行业逻辑就显得极其荒谬。
OpenAI依然在筹集400亿美元,声称要「构建AGI」;Anthropic每次推出新模型时,都要包装成「接近AGI」的未来产品。
论文犀利地指出,行业巨头们正在把一个「已经卖给你」的东西,伪装成「即将研发出来」的奇迹,以此获取源源不断的资金和权力。

智能爆炸的前奏
现在的我们,正站在一个非常奇妙的时刻。
在实验室中,AI的研究进展简直是以40倍的速度在飞速推进,甚至已经开始自己编写代码了。
而在市场上,算力依然是最抢手的资源,英伟达的Blackwell芯片被疯狂抢购,每一颗芯片都在为那个技术奇点的到来加速。
不过,社会上大多数人还是在用“复读机”和“概率预测”这种老掉牙的说法来自我安慰。
如果以40倍的速度进行科研变成了常态,那我们人类几千年的知识积累,AI可能几个月就能翻一番。
一旦AI能独立完成博士级的工作,我们现有的教育体系、职称评定,甚至“专家”这个词的意义,都可能遭遇巨大的挑战。
就像哥白尼把地球从宇宙中心的位置移开一样,现在的AI正在改变我们作为“唯一智慧生命”的地位。
如今,这场被称为智能爆炸的战争,没有一丝硝烟。
我们要学会如何与这种新的智能物种共存,否则就只能眼睁睁看着它以40倍的速度,将我们甩在身后。
参考资料:
https://x.com/daniel_mac8/status/2054192370049241203












看到Codex的转变,突然想到,未来的科研人员需要什么样的新技能?是否要跟上AI的步伐?
我觉得科研人员应该学习如何与AI合作,而不是单纯地被取代,未来是合作而非竞争的时代。
Codex能在短时间内完成复杂任务,想象一下未来的科研环境,这绝对是颠覆传统的趋势。
科研变得如此高效,难道未来会有人觉得研究不再那么‘神圣’吗?
用Codex完成任务的过程让我想起以前的编程挑战,AI的进步真是让人感慨,技术的演变真快。
看到Codex能这么高效完成任务,我在想,未来的科研人员是否需要重新定义自己的角色,更多地扮演协调者?