快来补全OpenClaw进化拼图吧!AReaL v1.0开源,轻松一键接入智能体强化学习!

快来补全OpenClaw进化拼图吧!AReaL v1.0开源,轻松一键接入智能体强化学习!

机器之心编辑部

2026年已经过去两个月了,AI领域的Agent依旧是最热门的话题之一。OpenClaw(原名Clawbot)引发的Agent热潮至今仍在持续,甚至让「一人公司」的想法首次真正有了实现的机会。

最近,OpenClaw在GitHub上的Star数量超过了React和Linux,成为了非资源/教程类开源项目中最受欢迎的。

快来补全OpenClaw进化拼图吧!AReaL v1.0开源,轻松一键接入智能体强化学习!

从浏览器Agent到编程Agent,再到个人和企业级的工作流Agent,显而易见,Agent的功能在不断扩展。

与此同时,像LangChain、Claude Code和OpenClaw等各种运行时框架也在不断提升智能体的能力,使得它们能够处理更复杂的任务。尽管这些框架为Agent提供了更广阔的应用前景,但在真正的环境中,如何让它们持续提升并实现自我进化,依然缺乏成熟的体系支撑。

尤其是被寄予厚望的强化学习(RL)训练,作为支撑Agent在复杂、多轮和长程任务中进化的关键,工程落地却面临诸多挑战,这无疑限制了当前Agent的能力发展。

不过,AReaL v1.0的发布为行业注入了新的希望:一个开箱即用的Agentic RL训练基础设施已经搭建完成。

这是由蚂蚁和清华大学共同开发的开源强化学习框架AReaL,经过近一年的打磨,终于迎来了标志性的稳定版本。作为一整套面向Agent的全异步强化学习训练框架,这次最大的突破是实现了「Agent一键接入RL训练」,重新定义了智能体强化学习的方式。

快来补全OpenClaw进化拼图吧!AReaL v1.0开源,轻松一键接入智能体强化学习!

在Agentic RL算法系统的协同创新下,AReaL v1.0能够与任何Agent框架兼容,用户只需修改一个接口地址,就能无缝接入RL训练,包括最近非常火的OpenClaw,大大降低了强化学习的训练门槛。此外,AReaL v1.0还引入了系统化的AI辅助开发架构,并通过深度定制的PyTorch原生训练引擎Archon实现了千亿MoE模型的端到端训练,引领了下一代AI基础设施的创新。

零代码接入OpenClaw训练

传统的Agent强化学习训练,往往需要开发者深入理解底层训练框架,甚至修改Agent的运行代码或重构整个数据流程。然而,AReaL v1.0彻底打破了这个壁垒——你的Agent框架无需改动任何代码

快来补全OpenClaw进化拼图吧!AReaL v1.0开源,轻松一键接入智能体强化学习!

视频链接:https://mp.weixin.qq.com/s/w3JxlHsI1B4n3OqthaSQ6Q

让我们通过一个实际示例来看看这有多简单。

完整案例:https://github.com/inclusionAI/AReaL/tree/main/examples/openclaw

第一步:启动RL训练服务

uv run python3 examples/openclaw/train.py –config examples/openclaw/config.yaml

启动后,你会看到类似这样的输出:

(AReaL) Proxy gateway available at http://x.x.x.x:xx

记住这个网关地址,它是连接你的Agent和RL训练的桥梁。

第二步:配置你的Agent

以ZeroClaw为例,它是OpenClaw的一个变种。只需修改一个配置文件,将API地址指向AReaL网关:

# ~/.zeroclaw/config.tomldefault_provider = “localhost”api_key = “sk-sess-xxxxxxxxxxxx” # 从AReaL获取

[model_providers.localhost]base_url = “http://

” # AReaL代理网关地址

就这样,配置完成。你的ZeroClaw Agent现在每次LLM调用都会自动记录,用于强化学习训练。

第三步:正常使用你的Agent

启动智能体,像往常一样进行交互:

zeroclaw channel start # 启动Discord/Slack/CLI等任意交互渠道

你可以让Agent写代码、查资料、执行任务——一切照旧。在后台,AReaL悄悄记录着每次对话中的强化学习训练数据。

第四步:评分反馈,让Agent进化

当一个任务完成后,给Agent的表现打个分:

python set_reward.py http://

–api-key sk-sess-xxx –reward 1.0

就是这么简单。AReaL会自动将这次交互轨迹和奖励信号打包,送入训练流水线。

一旦收集到足够的交互轨迹(由配置中的batch_size控制),系统会自动触发一次训练迭代,更新模型权重。更神奇的是:更新后的权重会无缝应用到后续的推理请求中。

你的Agent仍在训练中运行,无需重启,也不需要重新加载模型——它会在你不知不觉中变得更加聪明

架构突破:用「异步训练」和「代理网关」实现Agent自我进化

那么,AReaL是如何让OpenClaw实现自我进化的呢?这涉及两个核心架构设计:「全异步训练」和「代理网关」。

用 AI 改变游戏规则:AReaL 的创新架构与开发新模式

AReaL 的一个重要创新就是在强化学习中,训练和推理完全分开。推理引擎可以持续不断地生成轨迹,而训练引擎则不断消耗这些样本,两个引擎在不同的 GPU 上并行运行。

得益于精心设计的 PPO 算法和老旧度控制机制,AReaL 在保证训练稳定性的同时,吞吐量提升超过两倍

这样的设计在智能体训练时特别有优势——训练引擎可以异步更新参数,不会影响智能体的推理,让你的 OpenClaw 一边忙着工作,一边悄悄学习

快来补全OpenClaw进化拼图吧!AReaL v1.0开源,轻松一键接入智能体强化学习!

AReaL 的代理网关和全异步强化学习架构

为了兼容各种智能体框架,AReaL 选择使用「协议」作为统一标准,设计了一个代理网关(Proxy Gateway)。这个网关能提供 OpenAI/Anthropic API 协议的推理服务,会把所有输入的请求转发到本地推理引擎(比如 SGLang、vLLM),使用起来就像普通的推理服务一样。

不过,这个代理网关的功能可不仅限于路由——它在推理的同时,还会捕捉每次 LLM 交互中的输入输出 Token 级信息。等到轨迹结束后,AReaL 会将后续的奖励值进行反向传播,为每一轮的输入输出打上奖励标签;这样一来,早期的决策也能获得合理的奖励配置,帮助模型学会“为长远目标做出明智的早期选择”。

在传统方法中,推理时的文本需要在训练时重新进行分词,可能因为 tokenizer 的配置不同导致 token 序列不一致。而 AReaL 的独立导出方案彻底避免了这个问题:推理时生成的 token IDs 会直接缓存,训练时则按原样使用。发给训练引擎进行梯度计算的 tokens 也正是推理引擎生成的 tokens,确保 100% 一致。

快来补全OpenClaw进化拼图吧!AReaL v1.0开源,轻松一键接入智能体强化学习!

AReaL 中的多轮交互应用实例

基于上述架构设计,AReaL 可以支持任何 Agent 框架的训练——无论是 OpenClaw 还是你自己打造的 Agent,只需将 API 地址指向 AReaL 的代理网关,就能轻松接入强化学习训练。

开发者无需改动原有 Agent 的代码或业务逻辑,就可以开启 RL 训练流程。这意味着,分散的 Agent 接口被整合成了一层标准化的协议级 RL 入口,让“任何 Agent 都能训练”真正实现

然而,同一个提示可能会产生多条不同的轨迹(比如多次采样),而且每条轨迹会被 AReaL 拆分成多条独立的输入输出。一个批次的数据之间往往会有大量共享前缀。传统训练方式对每条轨迹单独计算,导致了许多冗余计算。

为了解决这个问题,AReaL 引入了基于 Trie(前缀树)的序列打包方案:

树状注意力显著提升了性能:单个 Worker 的训练吞吐量最高提升了 8.31 倍,集群整体吞吐量最高提升了 6.20 倍,相比基线方案减少了超过 50% 的 GPU 显存占用

快来补全OpenClaw进化拼图吧!AReaL v1.0开源,轻松一键接入智能体强化学习!

关于 Agentic RL 训练的树状注意力实现图示,详细请参考论文:https://arxiv.org/pdf/2602.00482

用 AI 实现引擎重构:AI Infra 的工程范式革新

除了降低 Agent RL 训练的门槛,AReaL v1.0 的发布还带来了训练引擎的重大更新

在大规模 RL 训练领域,Megatron-LM 是业界的标杆。然而,它的安装依赖 Docker 环境和复杂的 C++ 编译,代码结构复杂,调试和扩展都很困难。团队一直在思考:能否用 PyTorch 原生 API 实现同样能力的分布式训练引擎

答案是 AReaL 团队基于 torchtitan 深度定制的训练引擎 Archon——一个支持完整 5D 并行(DP、TP、PP、CP、EP)的 PyTorch 原生训练引擎

令人惊讶的是,这么复杂的分布式系统,从零开始实现并验证正确性,仅用了 1 人·月的时间——在 32 天内通过 72 万行代码的修改完成了 Archon 引擎,并验证了它可以训练千亿参数的 MoE 模型。

创造这一效率奇迹的关键在于 AReaL 集成的一整套 AI 辅助开发体系,实现了复杂工程开发的高度自动化。

快来补全OpenClaw进化拼图吧!AReaL v1.0开源,轻松一键接入智能体强化学习!

基于 AI 编程的 Archon 引擎代码修改统计,来源 https://zhuanlan.zhihu.com/p/2003269671630165191

这些掌握 AI 编程的“秘籍”完全开源,让每位开发者都能借助“专业团队”,在 AReaL 中加速自己的 Agent RL 应用开发:

首先,为 AReaL 各核心模块配置领域专家 Agents,使其具备模块级架构认知,并在代码修改时提供上下文相关的精准指导。

其次,采用命令驱动的引导式工作流,通过一系列预设的简短指令将常见开发任务流程化、标准化,让开发方式从“手工实现”转向“声明需求”,由 AI 自动完成软件工程中最常见、最耗时的运维任务。

最后,在真实开发场景中,AReaL 提供的特定 Agent 可以全程自动化完成任务规划、代码生成、自动校验到 PR 创建。

快来补全OpenClaw进化拼图吧!AReaL v1.0开源,轻松一键接入智能体强化学习!

AReaL AI 编程子代理(图片由 AI 辅助生成)

这套 AI 辅助开发体系不仅加速了 Archon 引擎的落地,还传达了一个明确的信号:AI 辅助编程不仅是提高效率的工具,已经具备深度参与复杂系统开发的实际生产力。这一“用 AI 造训 AI 工具”的工程实践,重新定义了效率的边界。

因此,软件工程的角色分工也发生了深刻的变化,人类开发者可以减少在具体实现和重复性细节上的精力投入,更多地专注于“明确需求、设计系统”等决策性工作,而 AI 则承担更多流程固定、规则明确的工程实施任务。

未来的智能代理:从技术门槛到全民开发

随着这种范式的改变,之前那种依赖于工程与经验的代理强化学习(Agentic RL)有机会因开发门槛的降低而吸引更多的开发者加入。

总结

过去一两年,大家主要关注的是教代理怎么完成任务,通过更好的工具、更复杂的工作流,以及更精细的提示工程,帮助代理一步一步地解决问题。而现在,接下来的重心将转向“如何让代理自我进化”,这可真是个大挑战。

正因如此,像强化学习这样的系统化训练,从以前的锦上添花,逐渐变成了决定代理能力上限的重要因素。

在这个关键的时刻,AReaL v1.0 为行业提供了一个既易用又可靠、并且具备强大扩展性的开源代理强化学习范本:应用层是开放兼容的,允许轻松接入不同的代理框架;而引擎层经过深度优化,极大提升了训练效率和资源利用率。

展望未来,AReaL团队将继续在系统组件的可用性、Archon引擎的生产效率、AI辅助开发能力以及VLM/Omni模型的代理训练等四个方向上努力,力争打造成代理人工智能时代的高性能强化学习基础设施。

当训练框架变得简单,当代理接入方式变得统一,AI能够深度支持底层系统的开发时,代理强化学习将突破少数顶尖团队的局限,成为更多开发者的实用工具。这正是“技术民主化”的核心所在。

随着这种高性能基础设施的不断成熟,代理有望加速突破初级阶段,真正开启持续、自主、规模化的进化新篇章。

来源:百家号
原文标题:补齐OpenClaw进化拼图!AReaL v1.0开源,智能体强化学习一键接入
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!

《快来补全OpenClaw进化拼图吧!AReaL v1.0开源,轻松一键接入智能体强化学习!》有11条评论

发表评论