快来补全OpenClaw进化拼图吧！AReaL v1.0开源，轻松一键接入智能体强化学习！

（

机器之心编辑部

2026年已经过去两个月了，AI领域的Agent依旧是最热门的话题之一。OpenClaw（原名Clawbot）引发的Agent热潮至今仍在持续，甚至让「一人公司」的想法首次真正有了实现的机会。

最近，OpenClaw在GitHub上的Star数量超过了React和Linux，成为了非资源/教程类开源项目中最受欢迎的。

快来补全OpenClaw进化拼图吧！AReaL v1.0开源，轻松一键接入智能体强化学习！

从浏览器Agent到编程Agent，再到个人和企业级的工作流Agent，显而易见，Agent的功能在不断扩展。

与此同时，像LangChain、Claude Code和OpenClaw等各种运行时框架也在不断提升智能体的能力，使得它们能够处理更复杂的任务。尽管这些框架为Agent提供了更广阔的应用前景，但在真正的环境中，如何让它们持续提升并实现自我进化，依然缺乏成熟的体系支撑。

尤其是被寄予厚望的强化学习（RL）训练，作为支撑Agent在复杂、多轮和长程任务中进化的关键，工程落地却面临诸多挑战，这无疑限制了当前Agent的能力发展。

不过，AReaL v1.0的发布为行业注入了新的希望：一个开箱即用的Agentic RL训练基础设施已经搭建完成。

这是由蚂蚁和清华大学共同开发的开源强化学习框架AReaL，经过近一年的打磨，终于迎来了标志性的稳定版本。作为一整套面向Agent的全异步强化学习训练框架，这次最大的突破是实现了「Agent一键接入RL训练」，重新定义了智能体强化学习的方式。

快来补全OpenClaw进化拼图吧！AReaL v1.0开源，轻松一键接入智能体强化学习！

在Agentic RL算法系统的协同创新下，AReaL v1.0能够与任何Agent框架兼容，用户只需修改一个接口地址，就能无缝接入RL训练，包括最近非常火的OpenClaw，大大降低了强化学习的训练门槛。此外，AReaL v1.0还引入了系统化的AI辅助开发架构，并通过深度定制的PyTorch原生训练引擎Archon实现了千亿MoE模型的端到端训练，引领了下一代AI基础设施的创新。

零代码接入OpenClaw训练

传统的Agent强化学习训练，往往需要开发者深入理解底层训练框架，甚至修改Agent的运行代码或重构整个数据流程。然而，AReaL v1.0彻底打破了这个壁垒——你的Agent框架无需改动任何代码

快来补全OpenClaw进化拼图吧！AReaL v1.0开源，轻松一键接入智能体强化学习！

视频链接：https://mp.weixin.qq.com/s/w3JxlHsI1B4n3OqthaSQ6Q

让我们通过一个实际示例来看看这有多简单。

完整案例：https://github.com/inclusionAI/AReaL/tree/main/examples/openclaw

第一步：启动RL训练服务

uv run python3 examples/openclaw/train.py –config examples/openclaw/config.yaml

启动后，你会看到类似这样的输出：

(AReaL) Proxy gateway available at http://x.x.x.x:xx

记住这个网关地址，它是连接你的Agent和RL训练的桥梁。

第二步：配置你的Agent

以ZeroClaw为例，它是OpenClaw的一个变种。只需修改一个配置文件，将API地址指向AReaL网关：

# ~/.zeroclaw/config.tomldefault_provider = “localhost”api_key = “sk-sess-xxxxxxxxxxxx” # 从AReaL获取

[model_providers.localhost]base_url = “http://

” # AReaL代理网关地址

就这样，配置完成。你的ZeroClaw Agent现在每次LLM调用都会自动记录，用于强化学习训练。

第三步：正常使用你的Agent

启动智能体，像往常一样进行交互：

zeroclaw channel start # 启动Discord/Slack/CLI等任意交互渠道

你可以让Agent写代码、查资料、执行任务——一切照旧。在后台，AReaL悄悄记录着每次对话中的强化学习训练数据。

第四步：评分反馈，让Agent进化

当一个任务完成后，给Agent的表现打个分：

python set_reward.py http://

–api-key sk-sess-xxx –reward 1.0

就是这么简单。AReaL会自动将这次交互轨迹和奖励信号打包，送入训练流水线。

一旦收集到足够的交互轨迹（由配置中的batch_size控制），系统会自动触发一次训练迭代，更新模型权重。更神奇的是：更新后的权重会无缝应用到后续的推理请求中。

你的Agent仍在训练中运行，无需重启，也不需要重新加载模型——它会在你不知不觉中变得更加聪明

架构突破：用「异步训练」和「代理网关」实现Agent自我进化

那么，AReaL是如何让OpenClaw实现自我进化的呢？这涉及两个核心架构设计：「全异步训练」和「代理网关」。

用 AI 改变游戏规则：AReaL 的创新架构与开发新模式

AReaL 的一个重要创新就是在强化学习中，训练和推理完全分开。推理引擎可以持续不断地生成轨迹，而训练引擎则不断消耗这些样本，两个引擎在不同的 GPU 上并行运行。

得益于精心设计的 PPO 算法和老旧度控制机制，AReaL 在保证训练稳定性的同时，吞吐量提升超过两倍。

这样的设计在智能体训练时特别有优势——训练引擎可以异步更新参数，不会影响智能体的推理，让你的 OpenClaw 一边忙着工作，一边悄悄学习。

快来补全OpenClaw进化拼图吧！AReaL v1.0开源，轻松一键接入智能体强化学习！

AReaL 的代理网关和全异步强化学习架构

为了兼容各种智能体框架，AReaL 选择使用「协议」作为统一标准，设计了一个代理网关（Proxy Gateway）。这个网关能提供 OpenAI/Anthropic API 协议的推理服务，会把所有输入的请求转发到本地推理引擎（比如 SGLang、vLLM），使用起来就像普通的推理服务一样。

不过，这个代理网关的功能可不仅限于路由——它在推理的同时，还会捕捉每次 LLM 交互中的输入输出 Token 级信息。等到轨迹结束后，AReaL 会将后续的奖励值进行反向传播，为每一轮的输入输出打上奖励标签；这样一来，早期的决策也能获得合理的奖励配置，帮助模型学会“为长远目标做出明智的早期选择”。

在传统方法中，推理时的文本需要在训练时重新进行分词，可能因为 tokenizer 的配置不同导致 token 序列不一致。而 AReaL 的独立导出方案彻底避免了这个问题：推理时生成的 token IDs 会直接缓存，训练时则按原样使用。发给训练引擎进行梯度计算的 tokens 也正是推理引擎生成的 tokens，确保 100% 一致。

快来补全OpenClaw进化拼图吧！AReaL v1.0开源，轻松一键接入智能体强化学习！

AReaL 中的多轮交互应用实例

基于上述架构设计，AReaL 可以支持任何 Agent 框架的训练——无论是 OpenClaw 还是你自己打造的 Agent，只需将 API 地址指向 AReaL 的代理网关，就能轻松接入强化学习训练。

开发者无需改动原有 Agent 的代码或业务逻辑，就可以开启 RL 训练流程。这意味着，分散的 Agent 接口被整合成了一层标准化的协议级 RL 入口，让“任何 Agent 都能训练”真正实现。

然而，同一个提示可能会产生多条不同的轨迹（比如多次采样），而且每条轨迹会被 AReaL 拆分成多条独立的输入输出。一个批次的数据之间往往会有大量共享前缀。传统训练方式对每条轨迹单独计算，导致了许多冗余计算。

为了解决这个问题，AReaL 引入了基于 Trie（前缀树）的序列打包方案：

树状注意力显著提升了性能：单个 Worker 的训练吞吐量最高提升了 8.31 倍，集群整体吞吐量最高提升了 6.20 倍，相比基线方案减少了超过 50% 的 GPU 显存占用。

快来补全OpenClaw进化拼图吧！AReaL v1.0开源，轻松一键接入智能体强化学习！

关于 Agentic RL 训练的树状注意力实现图示，详细请参考论文：https://arxiv.org/pdf/2602.00482

用 AI 实现引擎重构：AI Infra 的工程范式革新

除了降低 Agent RL 训练的门槛，AReaL v1.0 的发布还带来了训练引擎的重大更新。

在大规模 RL 训练领域，Megatron-LM 是业界的标杆。然而，它的安装依赖 Docker 环境和复杂的 C++ 编译，代码结构复杂，调试和扩展都很困难。团队一直在思考：能否用 PyTorch 原生 API 实现同样能力的分布式训练引擎。

答案是 AReaL 团队基于 torchtitan 深度定制的训练引擎 Archon——一个支持完整 5D 并行（DP、TP、PP、CP、EP）的 PyTorch 原生训练引擎。

令人惊讶的是，这么复杂的分布式系统，从零开始实现并验证正确性，仅用了 1 人·月的时间——在 32 天内通过 72 万行代码的修改完成了 Archon 引擎，并验证了它可以训练千亿参数的 MoE 模型。

创造这一效率奇迹的关键在于 AReaL 集成的一整套 AI 辅助开发体系，实现了复杂工程开发的高度自动化。

快来补全OpenClaw进化拼图吧！AReaL v1.0开源，轻松一键接入智能体强化学习！

基于 AI 编程的 Archon 引擎代码修改统计，来源 https://zhuanlan.zhihu.com/p/2003269671630165191

这些掌握 AI 编程的“秘籍”完全开源，让每位开发者都能借助“专业团队”，在 AReaL 中加速自己的 Agent RL 应用开发：

首先，为 AReaL 各核心模块配置领域专家 Agents，使其具备模块级架构认知，并在代码修改时提供上下文相关的精准指导。

其次，采用命令驱动的引导式工作流，通过一系列预设的简短指令将常见开发任务流程化、标准化，让开发方式从“手工实现”转向“声明需求”，由 AI 自动完成软件工程中最常见、最耗时的运维任务。

最后，在真实开发场景中，AReaL 提供的特定 Agent 可以全程自动化完成任务规划、代码生成、自动校验到 PR 创建。

快来补全OpenClaw进化拼图吧！AReaL v1.0开源，轻松一键接入智能体强化学习！

AReaL AI 编程子代理（图片由 AI 辅助生成）

这套 AI 辅助开发体系不仅加速了 Archon 引擎的落地，还传达了一个明确的信号：AI 辅助编程不仅是提高效率的工具，已经具备深度参与复杂系统开发的实际生产力。这一“用 AI 造训 AI 工具”的工程实践，重新定义了效率的边界。

因此，软件工程的角色分工也发生了深刻的变化，人类开发者可以减少在具体实现和重复性细节上的精力投入，更多地专注于“明确需求、设计系统”等决策性工作，而 AI 则承担更多流程固定、规则明确的工程实施任务。

未来的智能代理：从技术门槛到全民开发

随着这种范式的改变，之前那种依赖于工程与经验的代理强化学习（Agentic RL）有机会因开发门槛的降低而吸引更多的开发者加入。

总结

过去一两年，大家主要关注的是教代理怎么完成任务，通过更好的工具、更复杂的工作流，以及更精细的提示工程，帮助代理一步一步地解决问题。而现在，接下来的重心将转向“如何让代理自我进化”，这可真是个大挑战。

正因如此，像强化学习这样的系统化训练，从以前的锦上添花，逐渐变成了决定代理能力上限的重要因素。

在这个关键的时刻，AReaL v1.0 为行业提供了一个既易用又可靠、并且具备强大扩展性的开源代理强化学习范本：应用层是开放兼容的，允许轻松接入不同的代理框架；而引擎层经过深度优化，极大提升了训练效率和资源利用率。

展望未来，AReaL团队将继续在系统组件的可用性、Archon引擎的生产效率、AI辅助开发能力以及VLM/Omni模型的代理训练等四个方向上努力，力争打造成代理人工智能时代的高性能强化学习基础设施。

当训练框架变得简单，当代理接入方式变得统一，AI能够深度支持底层系统的开发时，代理强化学习将突破少数顶尖团队的局限，成为更多开发者的实用工具。这正是“技术民主化”的核心所在。

随着这种高性能基础设施的不断成熟，代理有望加速突破初级阶段，真正开启持续、自主、规模化的进化新篇章。

来源：百家号

原文标题：补齐OpenClaw进化拼图！AReaL v1.0开源，智能体强化学习一键接入

原文链接：https://baijiahao.baidu.com/s?id=1858704041540091570

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！