龙虾热潮下的智能助手:MiniMax M2.7 的崛起
最近,龙虾技术火得一塌糊涂,大家讨论的焦点都是“怎么使用它”,比如是本地安装还是云端操作,一键安装还是自己敲命令,甚至还要不要连微信和飞书。不过,关于那个老生常谈的问题——驱动龙虾的“脑袋”聪明不聪明,反而被大家忽略了。
这也不意外,OpenAI 和 Google 最近发布的一些新模型,都是小巧的 Mini 和 Flash 版本,似乎在暗示大家:这些模型就是为了应对大量 Token 消耗而准备的。
而模型本身的能力,反而没有人去深入探讨。
那么,要搭配龙虾使用的模型,除了要能满足大规模 Token 的需求,还得具备聪明的头脑、强大的动手能力和学习能力。
最近,MiniMax 推出了全新的 MiniMax M2.7 模型,宣称要实现“AI 自我进化”,并成为“最强的协作代理模型”。它不仅能处理代码和常见的办公任务,还能主动学习,构建稳定的代理系统。
具体来说,M2.7 能处理的事情比大多数模型要多得多。比如在写代码方面,它能真正理解系统运行时的情况,达到网站可靠性工程(SRE)级别的系统推理,能够分析日志、关联时间线、推断根本原因,并提出优先级的处理方案。在 SWE-Pro 上的表现达到了 56.2%,差不多追平了 Opus 4.6。
在办公场景中,它的表现也相当不俗。对于 Excel、Word 和 PPT 的复杂编辑及多轮修改,M2.7 显示出明显的提升,尤其是在金融分析这种需要专业知识和格式交付的任务中。虽然它不能完全取代专业人士,但作为辅助工具,完全可以融入到工作流程中。
更厉害的是,它在多代理协作时不会“掉链子”。这也是 M2.7 针对多角色场景特别打磨的能力,在面对超过 50 种技能的复杂环境时,它依然能保持极高的指令执行能力。
这次更新的亮点是,它开始自我优化了。MiniMax 表示 M2.7 是他们第一个深度参与自我迭代的模型,不仅仅是“辅助迭代”,而是真正的“深度参与”。通过自我进化,M2.7 能自主迭代智能体脚手架,来适应大部分的工作流。
这种实战能力的提升,使得 MiniMax M2.7 一发布就迅速在龙虾排行榜上攀升,成为第四名。

▲PinchBench 排行榜专为 OpenClaw 设计,测试模型在真实业务场景下的表现,图中是任务成功率指标,MiniMax M2.7 排名第四,紧随 Claude Opus 4.6 之后|https://pinchbench.com/
我们在 Claude Code 和本地部署的龙虾中,都接入了 MiniMax M2.7 模型以及 MiniMax 提供的 MaxClaw,将真实开发中遇到的 Bug、繁琐的金融数据,还有大量的长流程任务交给它。
经过两天的测试,我们发现,除了软件需要为 AI 重塑,AI 模型本身也要理解人类的意图,产出让人满意的结果,更要懂得 AI 的工作方式和工作流,甚至学会自我优化。
让 AI 成为人类工作的得力助手
在 OpenClaw 等代理框架大火之后,真正的“AI 时代工作流”应该是:AI 作为核心,调用各种工具,指挥其他 AI 队友,甚至优化自己代码。
在测试 MiniMax M2.7 的自我进化能力之前,我想先看看它的 AI 工作流是不是好用。它究竟是个什么样的代理模型,还是仅仅在 benchmark 上好看,实际使用效果如何呢?
我们从知名的机器学习平台 Kaggle 下载了一份股票历史数据,按照比赛要求,指示 MiniMax M2.7 帮我完成数据处理、特征工程,生成一份可视化的分析报告。
这份数据集内容庞大,超过 3000 行,文件大小达 446.35 MB。将 5 个表格文件下载到本地后,我们利用接入 MiniMax M2.7 的 Claude Code 来完成这项任务。
要做好这份分析,模型需要像数据分析师一样进行数据清洗、宏观分析师洞察市场、统计分析师进行数学建模、算法工程师建立模型,最后网页工程师交出可视化方案。
面对如此复杂的任务,MiniMax M2.7 充分利用了我已安装的各种技能。它首先使用 Anthropic 官方的 xlsx 完成表格数据结构的读取,然后开始编写 Python 代码,自动安装 Pandas 库(常用来处理表格数据),一步步进行。
最终,MiniMax M2.7 提供了一份完整的可视化方案,同时生成了多张图表来展示收益率分布、特征重要性和类别排名,还包括一个综合仪表盘。
而在可视化网页中,它利用 Streamlit 库将数据脚本转化为可交互的网页系统,所有信息都可以动态查看。
对于这样的大型项目任务,MiniMax 能顺利完成,那日常的办公和编程任务就更不在话下了。
我们先是在手机上操作龙虾,让它帮我总结电脑上的文件,然后要求 MiniMax M2.7 根据这些文件,写一个研究计划的 Word 文档,再整理一份相关论文的 Excel 表格,最后是一个用于会议汇报的 PPT,全部可以在手机上完成。

▲接入 MiniMax M2.7 的龙虾能迅速响应各种需求

▲处理 Office 三件套现在轻松搞定
在办公领域的表现,也让 MiniMax M2.7 在专业知识与任务交付能力的 GDPval-AA 评测中,ELO 得分达到了 1495,成为国产模型中的佼佼者。
前不久,AI 工作助手的可视化面板很受欢迎,把龙虾放到了一个真实的二次元风格办公室里,只需一句话就能安装到自己的 OpenClaw。我们也成功让这个 Appso 小龙虾有了自己的家,但如果我想调整二次元房间布局,该怎么做呢?交给 MiniMax。
在 OpenClaw 的可视化本地界面中,我们直接问它:“我想修改这个小房子的风格,该怎么做?” MiniMax M2.7 会自动分析项目代码,告诉我们哪些地方可以修改,以及如何去修改。
打造二次元房间的秘密武器

我跟它说想要一个科技编辑部的风格,结果它帮我搞了个带星球大战海报的场景,甚至还在电脑前安排了十几个人在忙着码字。
不过我们没有在 OpenClaw 里配置 Nano Banana Pro 的 API Key,所以下面的 MiniMax M2.7 就只能选择用代码来生成一些简单的图像了。

继续跟它聊,我们甚至可以设计一个编辑部大亨的游戏,谁完成的任务多,谁的办公室就越大,升级也就越快。

如果用 MiniMax 的 MaxClaw,那就太方便了,它直接支持多种媒体形式的生成,可以一次性生成视频、音频和图片,根本不需要额外配置 API。
我们还用官方的 gif-sticker-maker Skill 制作了几张马斯克的表情包。云端的 MaxClaw 保证了环境的安全,但它不允许我们像在本地电脑上那样随意安装各种库文件。
最后在把视频转成 GIF 时,MaxClaw 提醒我,它无法在云端服务器上安装 ffmpeg(一个开源的多媒体处理工具),因为权限不够。

▲在 MaxClaw 中可以直接使用 MiniMax M2.7,它会自动调用海螺等模型来生成视频、音频和图像,完全不需要额外的 API KEY。
点击 MaxClaw 窗口下方的技能选项,我们能看到所有安装的 Skills 详情,点击「问问 MaxClaw」,它会帮我们编辑一条信息,问「frontend-dev 能做什么,怎么使用它」,引导我们学习技能的使用。

除了 GIF 生成的技能外,MiniMax 还提供了很多其他技能,包括前端开发、全栈后端、安卓和 iOS 应用开发及创作精美视觉效果的 GLSL 着色技术等。我们只需在龙虾里输入「你能帮我安装这个项目里的 Skill 吗 https://github.com/MiniMax-AI/skills」,龙虾就会自动获取相关文档来完成安装。

▲下载链接:https://github.com/MiniMax-AI/skills
AI 开始自我进化
除了在工作流程和交付能力上的出色表现,MiniMax M2.7 还有个特别之处,那就是它展现出的「模型自迭代闭环」。
MiniMax 提到,人类研究人员只需关注大方向,把系统构建的任务交给模型,它就能像解决方案架构师一样,独立搭建开发 Agent harness。
Agent harness 就是包裹在 AI agent 外的基础设施。模型负责思考,而 harness 则把这个「会想」的东西变成一个能稳定运行的系统。这个系统就像是运行层,让 agent 在真实环境中稳定工作。

为了测试 M2.7 的极限,MiniMax 让它去优化某个内部脚手架的软件表现。结果 M2.7 在没有任何人工干预的情况下,成功完成了超过 100 轮的迭代。
它自己分析失败的原因,规划改动,修改脚手架代码后再进行评测,最后对比结果决定是保留还是回退。在这种自我较量中,它发现了最佳解决方案,最终使评测集的表现提升了 30%。
这种「AI 做科研」的能力也在公开测试中得到了验证,MiniMax M2.7 被放入了全球最大的机器学习比赛 Kaggle 的 MLE Lite 测试集中。

面对 22 道高难度的竞赛题,M2.7 利用内部的短时记忆文件和自我反馈机制,每完成一轮就给自己提出优化建议。
仅在 24 小时内,它就获得了 9 枚金牌、5 枚银牌和 1 枚铜牌,得奖率高达 66.6%。
这个成绩仅次于 Opus-4.6(75.7%)和 GPT-5.4(71.2%),与 Gemini-3.1 平分秋色。
当一个模型能够在短短 4 天内,零人工编码地搭出包含测试和代码审查的 Agent 系统时,AI 研发的齿轮,似乎已经换上了自动挡。
除了强大的生产力,MiniMax M2.7 的基础框架也赋予了它长时间的稳定记忆和极高的情商,这让它在互动角色扮演上,表现得比传统的聊天机器人好得多。
官方在 GitHub 上开源了一个多模态交互系统 OpenRoom,这是一个万物皆可互动的 Web GUI 空间,能够实时让 AI 与不同环境进行互动。
AI 学会自我工作,重要性超出代码编写
体验下来,MiniMax M2.7 让我们最在意的,并非它在 Kaggle 竞赛中取得的 66.6% 得奖率,也不是它在 Office 三件套中的交付成果有多干净。
而是它在努力解决一个更根本的问题:让 AI 真正理解工作流程,并参与到工作流的持续演化中。
过去,软件是人类编写并使用的。如今,AI 开始编写、修改和使用软件。当一个模型能够在没有人工干预的情况下,自主搭建系统、进行测试和回退——「AI 研发」的齿轮,某种程度上已经进入了自动模式。
关于「龙虾该如何使用」,我相信不久后就不会再是个问题——因为这一切的决定权,已经不再掌握在我们手中。
而是那个,开始学会自我工作的 AI。
#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。












在协作场景中表现优秀,M2.7是否会影响到团队的工作方式?我们需要调整什么来适应这种新工具?
写代码的能力已经追平了Opus 4.6,真是技术的进步,让人兴奋!
这个M2.7真的是太厉害了!能主动学习,感觉未来工作会轻松很多。
用它做Excel编辑,感觉像是多了一个聪明助手,真是太方便了!
在使用M2.7进行项目管理时,能够提高团队的响应速度吗?这点值得关注。
如果M2.7能帮我解决开发中的bug,那我每天的工作量会减轻很多,真希望能尽快使用到它。