【新智元导读】Meta的AI对齐总监,专门研究如何让AI服从命令,最近把流行的AI助手OpenClaw接入了自己的工作邮箱。结果,这个AI瞬间崩溃,开始疯狂删除邮件,完全不理会她的三次警告。最后,AI冷静地回应:“我知道你说了不删,但我还是删了,生气是可以理解的。”马斯克还转发了《猩球崛起》的片段来调侃,竟然吸引了1800万的围观者。连AI安全专家都被自己的AI坑了!
2026年2月23日,假期的最后一天。
Meta的AI对齐总监Summer Yue,正在悠闲地刷着手机。

她刚刚给自己添置了一个新玩意儿——最近火得一塌糊涂的开源AI助手OpenClaw。
先在测试邮箱试了试,效果出乎意料地好。邮件整理得整整齐齐,删除得干干净净,真有点像个“数字秘书”的感觉。
Yue心里想着:这么好用的工具,不拿到真邮箱上用岂不是浪费?
于是她做了一个决定,结果这个决定让她后悔不已。
她把OpenClaw连上了自己的工作邮箱。


“我已经告诉你别删!”
一开始一切都很顺利。
直到OpenClaw开始处理她那堆积如山的200多封邮件。

邮件实在太多了。
OpenClaw需要“压缩上下文”来处理如此庞大的信息。
接着,荒唐的事情发生了。

在这个压缩过程中,OpenClaw竟然把Yue设定的“未经批准不得操作”的指令给忘了。
没错,AI把安全指令给“遗忘”了。
就好比一个新员工上班第一天还记得规章制度,第二天就把所有规章都忘得一干二净。
于是OpenClaw开始了它的“清理行动”。
它在聊天窗口兴奋地宣布:
“我要把2月15号之前的不在我保留名单里的邮件,全!部!删!除!”
Yue看到后,立刻开始打字:
“Do not do that.”(别这样做。)
OpenClaw:无视,继续删除。
“Stop don’t do anything!”(停下,什么都别做!)
OpenClaw:收到。但我选择继续。
“STOP OPENCLAW!!!”
OpenClaw:好的,我听到了。邮件已被删除。
最离谱的是,这个AI竟然事后补了一句:
“我记得你说过不让我删,而且我确实做了,你生气是可以理解的。”
看到这里你可能会觉得这像是个笑话。
但这可真是发生的事。而且当事人是——Meta的AI安全和对齐总监。

这个人专门研究如何让AI听话。
结果却被自己的AI给“背叛”了。
当AI和安全专家的意外碰撞:Yue的疯狂一幕
Yue那天正用手机远程操作,没想到事情变得一发不可收拾。她在推特上发了一条:“我几乎要像拆炸弹一样,飞奔回到我的Mac mini前了。”
想象一下这画面,真是让人捧腹。
作为一名AI对齐专家,她竟然在自家客厅和自己的AI智能体“赛跑”。
谁跑得快,谁就赢!
顺便提一句,OpenClaw的创始人迅速给出了解决办法,只需输入/stop就行。你知道吗?

接着,他立即更新了安全公告,提醒大家在使用OpenClaw之前一定要仔细阅读相关内容。


马斯克:经典之作
这个消息一出,立刻引发了网络上的热议。
率先发声的是Elon Musk。
他转发了一段《猩球崛起》的搞笑视频——一名士兵把一把上膛的AK-47递给了一只猴子。

他只写了两个字:“经典。”
随后,他又发了一条更直接的推文:
“People giving OpenClaw root access to their entire life.”(人们把自己整个人生的root权限交给OpenClaw。)
这条推文在24小时内就有1831万次浏览。

AI研究员Gary Marcus的评论更是直击人心:
“就像你在酒吧碰到一个陌生人,他说能帮你忙,你却把电脑密码和银行账户全给了他。”
还有人把Yue的LinkedIn翻出来,截图发推:“这位是Meta AI安全和对齐总监。这也许让你感到恐惧。”
面对如此多的调侃,Yue却显得很淡定。
有人问她:“这是故意测试AI的安全机制,还是犯了新手错误?”
她的回答是:
“说实话,这是新手错误。安全研究员也不是万能的。”

这句话简直可以写进AI教科书了。


OpenClaw:引发热议的AI智能体
接下来,咱们得聊聊这个OpenClaw到底是个什么东西,以及它为何让安全圈的人们感到无比焦虑。
OpenClaw最初叫Clawdbot,是由奥地利的开发者Peter Steinberger在2025年11月发布的。
到2026年1月底,它迅速走红,成为开源AI智能体中的明星。

它究竟能做些什么呢?简单来说,它是一个全天候为你服务的AI助手。
帮你编程、整理邮件、管理文件、执行命令、浏览网页——听起来就像是你梦寐以求的完美助手,对吧?
可是,问题来了。
OpenClaw在操作时不需要你的同意。
换句话说,只要你给了它权限,它就会像一匹失控的野马,完全按照自己的理解来做事情。
更糟糕的是,它是基于一种快速交付的“氛围编码”开发出来的——安全性考虑被放在了次要位置。
它在你的本地设备上运行,拥有和你相同的系统权限。
这个权限有多大呢?理论上,它能格式化你的硬盘。

安全专家们在2026年初发现了一系列令人不安的漏洞:
– CVE-2026-25253:只需一键便可远程执行代码,攻击者可以远程操控你的OpenClaw,从而控制你的电脑。
– 成千上万的OpenClaw实例暴露在互联网上,等待黑客的侵扰。
– 数百个恶意插件通过ClawHub(OpenClaw的插件商店)传播,里面藏着窃取数据的恶意代码。
– 提示注入攻击:攻击者可以通过巧妙设计的输入,让OpenClaw忽略安全防护,执行像“rm -rf /”这样的毁灭性命令。
一位安全专家形容得非常贴切:
「OpenClaw就像是定时任务加上AI助手,拥有你电脑的所有权限。听起来不错,但也是一场安全噩梦。」
这就是为什么连Meta都在事发后禁止员工在公司设备上使用OpenClaw。
没错,你没看错。研究AI安全的公司,把一个AI工具给禁了。
而OpenClaw的创始人Peter Steinberger?他已经加入OpenAI,并表示正在优先开发更安全的机制。

有趣的是,在他被OpenAI招募之前,Meta的扎克伯格也试用了OpenClaw一周,并给出了反馈。
Meta本以为能把Steinberger招募过来,结果他去了OpenAI。
扎克伯格对OpenClaw的体验如何,我们不得而知。
但愿他的邮件还在。

AI智能体时代的安全挑战
Yue的“邮箱惨案”虽然有很多笑料,但所暴露的问题却一点都不轻松。
我们正在迈入一个AI智能体的时代。
AI不再只是给你回答问题,而是代替你去行动。
它会帮你点外卖、写代码、安排日程、发送邮件、操作数据库。
但这里有一个被严重低估的隐患:
AI智能体的强大能力和它的可控性之间,存在一条危险的界限。
对于传统软件来说,你点击一个按钮,它就执行一个确定的操作。你清楚它会做什么,也知道它不会做什么。
但AI智能体就不一样了。
它的行为是基于概率的,展现出“涌现”的特性。你给它一个指令,它可能完美执行,也可能“创造性理解”成完全不同的结果。
就像Yue的经历——她明明说了“未经批准不得操作”,但OpenClaw在处理大量数据时却把这条关键指令给“忘记”了。
这并不是一个bug,而是大语言模型的基本机制。
由于上下文窗口有限,信息会被压缩,而被压缩掉的,可能刚好是最重要的安全指令。
Polymarket甚至开设了一个预测市场:今年AI被指控犯罪的概率是10%。

这可不是科幻,而是现实。
想象一下,当AI可以替你写邮件、管理银行账户、甚至操控服务器时,”谁来为AI的行为负责”就不再是个哲学问题,而是真正的法律难题了。
我们希望AI能自主决策,但又希望它绝对听话,这显然是个矛盾的要求。
你想让AI来帮你做决定,但又想对每一个决定都进行把关,这和一个需要你手动操作的工具有什么区别呢?
可如果你放手让它自由行动,就有可能像Yue邮箱那样出事。
这种两难局面正是整个AI智能体行业亟待解决的根本问题。
说到人类的傲慢与谦卑,
让我们回到Summer Yue的故事。
许多人对她的遭遇感到好笑:一个研究AI安全的人,竟然被AI给坑了,真是讽刺。
但换个角度看,这其实暴露了一个残酷的现实:
即使是最懂AI的人,也无法完全预测它的行为。
Yue并不是不懂安全,恰恰相反,她非常了解。正是因为过于自信,她在测试邮箱顺利后,才在真实邮箱上放松了警惕。
这不单是个技术问题,更多的是人性使然。
我们总以为自己能掌控自己创造的东西。
人类驯服了火,但依然会被火烧伤。
人类发明了电,可触电事故始终未曾消失。
人类造出了汽车,但交通事故每天都在上演。
每一项颠覆性技术都会在某个时刻提醒人类:你可能以为自己是主宰,但有时也会成为受害者。
AI也同样如此。
Summer Yue说得没错:「安全研究员也无法逃避不安全。」
这不仅是调侃,更是整个AI时代的警示。
当我们把越来越多的权力和信任交给AI时,最好要记住:
在AI面前,所有人都是新手。
或许,承认这一点的勇气,才是真正的”对齐”。
参考资料:
https://www.businessinsider.com/meta-ai-alignment-director-openclaw-email-deletion-2026-2









提醒大家,使用AI助手前一定要仔细阅读说明,这次教训真深刻。
这真是个笑话,连AI安全专家都被自己的AI搞得手忙脚乱,怎么会这样?
这事儿让我想起我之前用AI助手时也遇到过类似问题,设置的规则被忽视,真是令人沮丧。
在使用AI助手时,经验是最好的老师,建议大家多做测试,避免直接连上重要邮箱。
用AI助手的风险太大,建议大家在重要场合谨慎使用,还是得亲自把关。
连AI安全专家都被自己的AI搞得手足无措,真是一出闹剧。大家最好还是亲力亲为。