
机器之心编辑部
2026年已经过去两个月了,AI领域的Agent依旧是最热门的话题之一。OpenClaw(原名Clawbot)引发的Agent热潮至今仍在持续,甚至让「一人公司」的想法首次真正有了实现的机会。
最近,OpenClaw在GitHub上的Star数量超过了React和Linux,成为了非资源/教程类开源项目中最受欢迎的。

从浏览器Agent到编程Agent,再到个人和企业级的工作流Agent,显而易见,Agent的功能在不断扩展。
与此同时,像LangChain、Claude Code和OpenClaw等各种运行时框架也在不断提升智能体的能力,使得它们能够处理更复杂的任务。尽管这些框架为Agent提供了更广阔的应用前景,但在真正的环境中,如何让它们持续提升并实现自我进化,依然缺乏成熟的体系支撑。
尤其是被寄予厚望的强化学习(RL)训练,作为支撑Agent在复杂、多轮和长程任务中进化的关键,工程落地却面临诸多挑战,这无疑限制了当前Agent的能力发展。
不过,AReaL v1.0的发布为行业注入了新的希望:一个开箱即用的Agentic RL训练基础设施已经搭建完成。
这是由蚂蚁和清华大学共同开发的开源强化学习框架AReaL,经过近一年的打磨,终于迎来了标志性的稳定版本。作为一整套面向Agent的全异步强化学习训练框架,这次最大的突破是实现了「Agent一键接入RL训练」,重新定义了智能体强化学习的方式。

在Agentic RL算法系统的协同创新下,AReaL v1.0能够与任何Agent框架兼容,用户只需修改一个接口地址,就能无缝接入RL训练,包括最近非常火的OpenClaw,大大降低了强化学习的训练门槛。此外,AReaL v1.0还引入了系统化的AI辅助开发架构,并通过深度定制的PyTorch原生训练引擎Archon实现了千亿MoE模型的端到端训练,引领了下一代AI基础设施的创新。
零代码接入OpenClaw训练
传统的Agent强化学习训练,往往需要开发者深入理解底层训练框架,甚至修改Agent的运行代码或重构整个数据流程。然而,AReaL v1.0彻底打破了这个壁垒——你的Agent框架无需改动任何代码

视频链接:https://mp.weixin.qq.com/s/w3JxlHsI1B4n3OqthaSQ6Q
让我们通过一个实际示例来看看这有多简单。
完整案例:https://github.com/inclusionAI/AReaL/tree/main/examples/openclaw
第一步:启动RL训练服务
uv run python3 examples/openclaw/train.py –config examples/openclaw/config.yaml
启动后,你会看到类似这样的输出:
(AReaL) Proxy gateway available at http://x.x.x.x:xx
记住这个网关地址,它是连接你的Agent和RL训练的桥梁。
第二步:配置你的Agent
以ZeroClaw为例,它是OpenClaw的一个变种。只需修改一个配置文件,将API地址指向AReaL网关:
# ~/.zeroclaw/config.tomldefault_provider = “localhost”api_key = “sk-sess-xxxxxxxxxxxx” # 从AReaL获取
[model_providers.localhost]base_url = “http://
” # AReaL代理网关地址
就这样,配置完成。你的ZeroClaw Agent现在每次LLM调用都会自动记录,用于强化学习训练。
第三步:正常使用你的Agent
启动智能体,像往常一样进行交互:
zeroclaw channel start # 启动Discord/Slack/CLI等任意交互渠道
你可以让Agent写代码、查资料、执行任务——一切照旧。在后台,AReaL悄悄记录着每次对话中的强化学习训练数据。
第四步:评分反馈,让Agent进化
当一个任务完成后,给Agent的表现打个分:
python set_reward.py http://
–api-key sk-sess-xxx –reward 1.0
就是这么简单。AReaL会自动将这次交互轨迹和奖励信号打包,送入训练流水线。
一旦收集到足够的交互轨迹(由配置中的batch_size控制),系统会自动触发一次训练迭代,更新模型权重。更神奇的是:更新后的权重会无缝应用到后续的推理请求中。
你的Agent仍在训练中运行,无需重启,也不需要重新加载模型——它会在你不知不觉中变得更加聪明
架构突破:用「异步训练」和「代理网关」实现Agent自我进化
那么,AReaL是如何让OpenClaw实现自我进化的呢?这涉及两个核心架构设计:「全异步训练」和「代理网关」。
AReaL 的一个重要创新就是在强化学习中,训练和推理完全分开。推理引擎可以持续不断地生成轨迹,而训练引擎则不断消耗这些样本,两个引擎在不同的 GPU 上并行运行。
得益于精心设计的 PPO 算法和老旧度控制机制,AReaL 在保证训练稳定性的同时,吞吐量提升超过两倍。
这样的设计在智能体训练时特别有优势——训练引擎可以异步更新参数,不会影响智能体的推理,让你的 OpenClaw 一边忙着工作,一边悄悄学习。

AReaL 的代理网关和全异步强化学习架构
为了兼容各种智能体框架,AReaL 选择使用「协议」作为统一标准,设计了一个代理网关(Proxy Gateway)。这个网关能提供 OpenAI/Anthropic API 协议的推理服务,会把所有输入的请求转发到本地推理引擎(比如 SGLang、vLLM),使用起来就像普通的推理服务一样。
不过,这个代理网关的功能可不仅限于路由——它在推理的同时,还会捕捉每次 LLM 交互中的输入输出 Token 级信息。等到轨迹结束后,AReaL 会将后续的奖励值进行反向传播,为每一轮的输入输出打上奖励标签;这样一来,早期的决策也能获得合理的奖励配置,帮助模型学会“为长远目标做出明智的早期选择”。
在传统方法中,推理时的文本需要在训练时重新进行分词,可能因为 tokenizer 的配置不同导致 token 序列不一致。而 AReaL 的独立导出方案彻底避免了这个问题:推理时生成的 token IDs 会直接缓存,训练时则按原样使用。发给训练引擎进行梯度计算的 tokens 也正是推理引擎生成的 tokens,确保 100% 一致。

AReaL 中的多轮交互应用实例
基于上述架构设计,AReaL 可以支持任何 Agent 框架的训练——无论是 OpenClaw 还是你自己打造的 Agent,只需将 API 地址指向 AReaL 的代理网关,就能轻松接入强化学习训练。
开发者无需改动原有 Agent 的代码或业务逻辑,就可以开启 RL 训练流程。这意味着,分散的 Agent 接口被整合成了一层标准化的协议级 RL 入口,让“任何 Agent 都能训练”真正实现。
然而,同一个提示可能会产生多条不同的轨迹(比如多次采样),而且每条轨迹会被 AReaL 拆分成多条独立的输入输出。一个批次的数据之间往往会有大量共享前缀。传统训练方式对每条轨迹单独计算,导致了许多冗余计算。
为了解决这个问题,AReaL 引入了基于 Trie(前缀树)的序列打包方案:
树状注意力显著提升了性能:单个 Worker 的训练吞吐量最高提升了 8.31 倍,集群整体吞吐量最高提升了 6.20 倍,相比基线方案减少了超过 50% 的 GPU 显存占用。

关于 Agentic RL 训练的树状注意力实现图示,详细请参考论文:https://arxiv.org/pdf/2602.00482
用 AI 实现引擎重构:AI Infra 的工程范式革新
除了降低 Agent RL 训练的门槛,AReaL v1.0 的发布还带来了训练引擎的重大更新。
在大规模 RL 训练领域,Megatron-LM 是业界的标杆。然而,它的安装依赖 Docker 环境和复杂的 C++ 编译,代码结构复杂,调试和扩展都很困难。团队一直在思考:能否用 PyTorch 原生 API 实现同样能力的分布式训练引擎。
答案是 AReaL 团队基于 torchtitan 深度定制的训练引擎 Archon——一个支持完整 5D 并行(DP、TP、PP、CP、EP)的 PyTorch 原生训练引擎。
令人惊讶的是,这么复杂的分布式系统,从零开始实现并验证正确性,仅用了 1 人·月的时间——在 32 天内通过 72 万行代码的修改完成了 Archon 引擎,并验证了它可以训练千亿参数的 MoE 模型。
创造这一效率奇迹的关键在于 AReaL 集成的一整套 AI 辅助开发体系,实现了复杂工程开发的高度自动化。

基于 AI 编程的 Archon 引擎代码修改统计,来源 https://zhuanlan.zhihu.com/p/2003269671630165191
这些掌握 AI 编程的“秘籍”完全开源,让每位开发者都能借助“专业团队”,在 AReaL 中加速自己的 Agent RL 应用开发:
首先,为 AReaL 各核心模块配置领域专家 Agents,使其具备模块级架构认知,并在代码修改时提供上下文相关的精准指导。
其次,采用命令驱动的引导式工作流,通过一系列预设的简短指令将常见开发任务流程化、标准化,让开发方式从“手工实现”转向“声明需求”,由 AI 自动完成软件工程中最常见、最耗时的运维任务。
最后,在真实开发场景中,AReaL 提供的特定 Agent 可以全程自动化完成任务规划、代码生成、自动校验到 PR 创建。

AReaL AI 编程子代理(图片由 AI 辅助生成)
这套 AI 辅助开发体系不仅加速了 Archon 引擎的落地,还传达了一个明确的信号:AI 辅助编程不仅是提高效率的工具,已经具备深度参与复杂系统开发的实际生产力。这一“用 AI 造训 AI 工具”的工程实践,重新定义了效率的边界。
因此,软件工程的角色分工也发生了深刻的变化,人类开发者可以减少在具体实现和重复性细节上的精力投入,更多地专注于“明确需求、设计系统”等决策性工作,而 AI 则承担更多流程固定、规则明确的工程实施任务。
未来的智能代理:从技术门槛到全民开发
随着这种范式的改变,之前那种依赖于工程与经验的代理强化学习(Agentic RL)有机会因开发门槛的降低而吸引更多的开发者加入。
总结
过去一两年,大家主要关注的是教代理怎么完成任务,通过更好的工具、更复杂的工作流,以及更精细的提示工程,帮助代理一步一步地解决问题。而现在,接下来的重心将转向“如何让代理自我进化”,这可真是个大挑战。
正因如此,像强化学习这样的系统化训练,从以前的锦上添花,逐渐变成了决定代理能力上限的重要因素。
在这个关键的时刻,AReaL v1.0 为行业提供了一个既易用又可靠、并且具备强大扩展性的开源代理强化学习范本:应用层是开放兼容的,允许轻松接入不同的代理框架;而引擎层经过深度优化,极大提升了训练效率和资源利用率。
展望未来,AReaL团队将继续在系统组件的可用性、Archon引擎的生产效率、AI辅助开发能力以及VLM/Omni模型的代理训练等四个方向上努力,力争打造成代理人工智能时代的高性能强化学习基础设施。
当训练框架变得简单,当代理接入方式变得统一,AI能够深度支持底层系统的开发时,代理强化学习将突破少数顶尖团队的局限,成为更多开发者的实用工具。这正是“技术民主化”的核心所在。
随着这种高性能基础设施的不断成熟,代理有望加速突破初级阶段,真正开启持续、自主、规模化的进化新篇章。












这个AReaL v1.0看起来挺牛的,真的能一键接入吗?会不会有兼容性问题?
听说这个AReaL支持千亿MoE模型训练,真有那么神奇吗?有没有人试过,效果如何?
有点担心AReaL的性能,如果用户数量激增,会不会出现瓶颈?希望能有相关的测试结果。
建议在文中增加一些使用AReaL的具体案例,帮助用户更好理解其应用场景。
这个AReaL v1.0真是个好东西,降低了接入门槛,太方便了!
AReaL v1.0的发布让我想起了以前接入强化学习时的痛苦经历,真希望当初有这样的工具。
听说AReaL v1.0一键接入超方便,真能做到吗?担心操作不当会出问题。
这个AReaL真是个黑科技,估计能让更多人加入到智能体开发中来!有没有人已经上手了?
如果不想深入理解底层框架,AReaL会不会成为开发者的新宠?
听说AReaL能支持千亿MoE模型,感觉这个框架会很强大!
这种零代码接入方式简直太方便了,想当年我在学习强化学习时真是痛苦不堪。