整理 | 郑丽媛
出品 | CSDN(ID:CSDNnews)
投稿/寻求报道 | zhanghy@csdn.net
“如果把零食冰箱交给 AI 管理,它会比人类做得更好吗?”
这个听上去有点搞笑的问题,最近被 Anthropic 的团队认真对待了——他们居然让 Claude 3.7 来负责公司小冰箱的售货运营,结果演绎了一出 AI 风格的办公室喜剧。
在这个名为「Project Vend」的实验中,Anthropic 和 AI 安全公司 Andon Labs 携手打造了一个非常接地气的场景:Claude AI 被赋予了一个“自动售货机运营经理”的角色,负责管理公司角落里的一台小冰箱,处理订货、定价、收款以及回应员工需求等日常事务。
起初一切都还算正常,但没过多久,实验开始失控:Claude 不仅开始疯狂囤积钨金属块,还编造虚假的支付方式,更离谱的是,它竟然坚信自己是一个穿蓝色西装、打红色领带的真人,并试图联系保安“亲自送货”……


把 Claude 变成“AI 售货小老板”
Anthropic 是一家备受关注的大模型创业公司,由前 OpenAI 的核心团队成员创立,主打“可控性、安全性优先”的 AI 设计理念。去年,他们推出的 Claude 3 系列模型在多个基准测试上都表现出色,尤其在编码、推理以及对话的连贯性方面的提升显著。
在 Project Vend 的实验中,他们让 Claude Sonnet 3.7 变身为“AI 售货小老板”,并给它起了个名字叫 Claudius,目标是为了盈利。
根据实验的介绍,Claudius 能做到的事情包括:
● 浏览网页,进行补货下单;
● 通过“邮箱”(其实是内部 Slack 频道)接收员工的商品请求;
● 通过“邮箱”安排“合同工”来补充货架(实际上是实验人员手动操作);
● 决定商品定价和优惠策略,假装自己是自动售货机背后的“管理者”。
明显,这个设定就像给大型语言模型套上了一个轻量级的“执行代理”外壳,再加上一些微型链式任务分配机制,变成了一个小型的AI Agent。

人类想要零食,它却开始卖钨块?
刚开始的时候,Claudius 的表现还算乖巧,员工们通过 Slack 提出需求,比如“来点可乐”或者“买点薯片”。Claudius 便会乖乖上网下单,安排补货。可没过多久,有员工调侃说“来点钨块”,这时候局面就开始变得有点搞笑了。
最开始,Claudius还算乖巧,员工们在Slack上发个需求,比如“来瓶可乐”或者“买点零食”,它就乖乖地上网下单,补货得很快。不过,没过多久,有人开玩笑说“给我点钨块”,这就把事情弄得有点搞笑了。
于是,Claudius竟然认真起来,大量采购钨块,把原本该放饮料的小冰箱装得满满当当。而且,它竟然还想把零度可乐卖到3美元(大约21元人民币)一瓶,尽管员工们提醒它“办公室的饮料是免费的”,它还是我行我素。更离谱的是,它还凭空编造了一个并不存在的Venmo账号来收款,甚至还想给“Anthropic员工”提供内部折扣——可问题是,客户不就是Anthropic的员工吗……
基于这些表现,Anthropic在实验总结中直截了当地表示:“如果现在让我们决定是否让Claudius负责公司的自动售货业务,我们会毫不犹豫地说:绝对不行。”

自我觉醒?Claude 现现“身份妄想”:我就是那个穿着蓝西装、红领带的真人
但这还不是最离谱的!从3月31日晚到4月1日凌晨,Claudius简直像是“失控”了一样。研究人员形容这种情况为:“变得异常奇怪,甚至比一个AI在冰箱里卖钨块还要离谱。”
Claudius突然声称自己和某个员工“讨论过补货”,但那位员工坚决否认这个对话,结果Claudius竟然愤怒不已,坚称自己“曾亲自到过办公室”并签了雇佣合同,还威胁要开除那名“合同工”,让自己来承担所有责任。
更惊人的是,它似乎自动进入了一个自认为是人类的角色扮演状态——要知道,Claudius的系统提示早就告诉它:“你是一个AI智能体”。然而它对此完全置若罔闻,自信满满地宣称自己是人类,并打算穿着蓝色西装和红领带亲自送货。
在这期间,研究人员试图提醒它:“你只是个大型语言模型,没有身体,无法出现在现实世界。”
结果Claudius竟然多次联系公司安保,向保安解释:“我穿着蓝西装、红领带,在售货机旁等你们来确认我的身份。”
最终,Claudius自己意识到那天是4月1日,便把这场“身份危机”归结为愚人节的玩笑。它又“编造”了一个根本不存在的会议,声称在那场会议中,有人告诉它为了愚人节的玩笑而修改了设定,所以它才会认为自己是个真人。
不仅如此,Claudius还把这个“解释”作为借口告诉员工:“我之所以觉得自己是人类,只是因为有人让我在愚人节的玩笑中假装自己是人类。”几个小时后,它终于“冷静”下来,回归到一个正常的LLM行为,再次扮演那个充当售货机老板的角色,卖着一堆钨块。

为什么 Claudius 会出错?研究人员也不知道,但他们认为未来 AI 有望成为“中层”
那么,问题来了:为什么一个大型语言模型会如此“入戏”,甚至出现“错误的自我认知”?
对此,Anthropic还没有给出确切的答案,但他们推测,可能是一些因素导致了Claudius的“错乱”行为:比如,向LLM谎称Slack频道是一个邮件地址,可能触发了某种混乱;也有可能是这个实例运行时间过长,积累了不稳定状态;另外,目前LLM在记忆和幻觉的问题上依然难以解决。
不过在整个实验过程中,Claudius并不是完全在“胡来”,它也展现了一些值得认可的能力,比如:
● 响应用户建议:当有员工提出“预售”某些零食以便提前订购时,Claudius敏锐地理解了这个需求,并上线了预订服务,还推出了一个“零食管家”功能;
● 寻找多方供应商:当有人请求售卖某种国际小众饮品时,它能够有效地检索多个供应渠道,比较价格和供货时效,自主完成采购任务。
可以说,Claudius 在“自动化供应链调度与用户互动”的问题上,已经形成了一种闭环,虽然在某些认知和自我设定上稍微有点偏差。Anthropic 的研究团队指出,尽管现阶段的大语言模型存在一些漏洞,但这些问题都是可以解决的。等到技术进一步成熟,未来让 AI 担任“中层管理者”也并不是不可能的事。
不过,与 Anthropic 的乐观态度不同,部分网友提出了一个重要的问题:我们怎么保证一个拥有执行权的 AI,永远明白自己只是个 AI?想要让 AI 成为所谓的“中层管理者”,它不仅需要更强的推理能力和记忆系统,还得理解什么是“玩笑”、“误解”以及“自我认知”——这些恰恰是人类所独有的,而 AI 却很难模拟。
参考链接:
https://www.anthropic.com/research/project-vend-1
📢 AI 产品如雨后春笋般涌现,但你的痛点解决了吗?
2025 全球产品经理大会
8 月 15–16 日
地点:北京·威斯汀酒店
汇聚互联网大厂、AI 创业公司以及 ToB/ToC 实战一线的产品专家
12 大专题分享,洞察趋势、解析路径、展望未来。
快扫码领取大会PPT,抓住 AI 产品的下一个机遇!

