难以置信!补齐OpenClaw进化拼图,AReaL v1.0开源,轻松一键接入智能体强化学习!

开启你的智能代理之旅,轻松接入强化学习!

机器之心编辑部

2026年开年的这两个月里,智能代理(Agent)依旧是全球范围内备受关注的人工智能领域之一。OpenClaw(之前叫Clawbot)引发的那股代理热潮如今仍在持续,甚至让“一人公司”这个概念开始有了实际的落地可能。

最近,OpenClaw在GitHub上的关注度超越了React和Linux,成为了非资源类和教程类开源项目中星标数量最多的项目。

难以置信!补齐OpenClaw进化拼图,AReaL v1.0开源,轻松一键接入智能体强化学习!

从浏览器代理到编码代理,再到个人和企业级的工作流代理,大家可能会发现:代理的能力在不断增强,能做的事情越来越多。

与此同时,像LangChain、Claude Code和OpenClaw等一系列运行时框架也在不断扩展智能代理的能力,让它们能够处理更复杂的任务。虽然这些框架为代理提供了更广泛的应用前景,但要想让它们在真实环境下持续进步并具备自我进化的能力,仍然缺乏成熟的支撑体系。

尤其是被寄予厚望的强化学习(RL)训练,承载着让代理在复杂、多轮、长程任务中不断进化的重任,但在实际应用中却面临许多挑战,这限制了当前代理的能力提升。

不过,AReaL v1.0的发布给行业带来了好消息:一个即插即用的代理强化学习训练基础设施已经初步成型。

这个由蚂蚁和清华大学联合开发的开源强化学习框架AReaL,经过近一年的不断改进,终于发布了一个稳定的里程碑版本。作为一套专为代理设计的全异步强化学习训练框架,这次最令人瞩目的进展是实现了“代理一键接入RL训练”的目标,重新定义了智能体强化学习的方式。

难以置信!补齐OpenClaw进化拼图,AReaL v1.0开源,轻松一键接入智能体强化学习!

📦 GitHub 仓库:https://github.com/inclusionAI/AReaL

📄 论文:https://arxiv.org/abs/2505.24298

借助Agentic RL算法系统的协同创新,AReaL v1.0能够兼容任何代理框架,只需修改一个接口地址,就能无缝接入RL训练,包括最近非常火的OpenClaw,这极大地降低了强化学习的入门门槛。此外,AReaL v1.0还引入了系统化的AI辅助开发体系,并通过深度定制的PyTorch原生训练引擎Archon,实现了千亿MoE模型的端到端训练,引领了下一代AI基础设施的变革。

零代码接入OpenClaw训练

以往,进行Agent的强化学习训练,往往需要开发者深入理解底层框架,还得修改代理的运行时代码,甚至重构整个数据处理流程。而AReaL v1.0彻底打破了这种壁垒——你的代理框架完全不需要改动任何代码

让我们用一个实际的例子来看看这有多简单。

完整案例:https://github.com/inclusionAI/AReaL/tree/main/examples/openclaw

第一步:启动RL训练服务

uv run python3 examples/openclaw/train.py –config examples/openclaw/config.yaml

启动后,你会看到类似这样的输出:

(AReaL) Proxy gateway available at http://x.x.x.x:xx

记得记下这个网关地址,它可是连接你的代理和RL训练的桥梁哦。

第二步:配置你的代理

我们以ZeroClaw为例,这是OpenClaw的一个变种。只需要修改一个配置文件,把API地址指向AReaL网关:

# ~/.zeroclaw/config.tomldefault_provider = “localhost”api_key = “sk-sess-xxxxxxxxxxxx” # 从AReaL获取

[model_providers.localhost]base_url = “http://” # AReaL代理网关地址

就这样,配置完成。你的ZeroClaw代理现在每次LLM调用都会被自动记录,用于强化学习训练。

第三步:正常使用你的代理

让你的智能体在日常使用中不断进化

启动智能体,准备好和它进行互动吧:

使用命令:zeroclaw channel start # 这一操作可以让你在Discord、Slack或CLI等平台上与智能体交流。

你可以让这个智能体来写代码、查找信息、完成各种任务——一切都和往常一样。而在这些互动的背后,AReaL正默默地记录着每一次对话,为强化学习提供数据支持。

第四步:给出反馈,助力智能体进化

完成任务后,给你的智能体一个评分吧:

运行命令:python set_reward.py http:// –api-key sk-sess-xxx –reward 1.0

就这么简单。AReaL会将这次互动的记录和你的评分打包,送往训练系统进行处理。

当收集到足够的互动记录后(根据设置的batch_size来决定),系统会自动进行一次训练迭代,更新模型的权重。而且更新后的权重会直接应用到后续的推理请求中,毫不费力。

你的智能体在训练过程中依然可以正常工作,不需要重启,也不必重新加载模型——它会在不知不觉中变得更加聪明

用「异步训练」和「代理网关」打破智能体的进化瓶颈

AReaL是如何让OpenClaw实现自我进化的呢?这里面有两个关键的架构设计:「全异步训练」和「代理网关」。

AReaL的一个重要创新在于将强化学习中的训练和推理完全分开。推理引擎流式生成数据,训练引擎则持续处理样本,这两者在不同的GPU上同时运行。

通过精心设计的PPO算法和陈旧度控制机制,AReaL在确保训练稳定的同时,实现了2倍以上的吞吐提升

这种设计在智能体训练中更是大显身手——训练引擎异步更新参数,不会影响智能体的推理过程,让你的OpenClaw可以一边学习,一边全力以赴工作

难以置信!补齐OpenClaw进化拼图,AReaL v1.0开源,轻松一键接入智能体强化学习!

AReaL的代理网关与全异步强化学习架构

为了适应各种智能体框架,AReaL选择了「协议」作为统一标准,设计了一个代理网关(Proxy Gateway)。这个网关提供OpenAI/Anthropic API协议的推理服务,并会将所有输入请求转发到本地的推理引擎(比如SGLang、vLLM)进行计算,使用起来就像普通的推理服务一样。

不过,这个代理网关可不仅仅是路由功能——它在推理的同时,捕捉每一次LLM互动中的Token级信息。当一轮互动结束后,AReaL会将后续的奖励值反向传播,为每一轮的输入输出分配奖励,最终生成独立的训练样本。这样,即使是早期的决策也能获得合理的奖励分配,让模型学会「为长远目标做出正确的早期选择」。

传统方法中,推理时的文本必须在训练时重新进行tokenize,可能会因为tokenizer的配置不同导致token序列不一致。而AReaL的独立导出方案从根本上解决了这个问题:推理时产生的token IDs会被缓存,训练时照样使用。所以发送给训练引擎计算的tokens就是推理引擎生成的tokens,完全一致。

难以置信!补齐OpenClaw进化拼图,AReaL v1.0开源,轻松一键接入智能体强化学习!

AReaL中的多轮互动应用案例

基于以上架构设计,AReaL支持任何Agent框架的训练——无论是OpenClaw还是你自己搭建的Agent,只需将API地址指向AReaL的代理网关,就可以自动接入强化学习训练。

开发者无需改动现有Agent的代码或业务逻辑,就能启动RL训练流程。这意味着,原本分散的Agent接口被整合成了一层标准化的协议级RL入口,让「任何Agent都能训练」首次在工程上真正可行

然而,同一个prompt可能会生成多条不同的轨迹(比如多次采样),而且每条轨迹也会被AReaL拆分成多条独立的输入输出。一个批次的数据之间往往会有大量共享前缀。传统的训练方式对每条轨迹独立计算,导致了大量冗余的计算。

为了解决这个问题,AReaL引入了基于Trie(前缀树)的序列打包方案:

构建Trie结构:将共享前缀的序列压缩到同一个树结构中。

树状注意力计算:AReaL-DTA方法实现了完整的树状注意力前向和反向计算方案,让共享前缀只需计算一次。

AReaL的树状注意力带来了显著的性能提升:单Worker训练的吞吐量最高提升8.31倍,集群整体吞吐量最高提升6.20倍,相较于基线方案减少了超过50%的GPU显存占用

难以置信!补齐OpenClaw进化拼图,AReaL v1.0开源,轻松一键接入智能体强化学习!

这是关于Agentic RL训练中树状注意力的实现图,详细信息可以查看这篇论文:https://arxiv.org/pdf/2602.00482

用 AI 重新构建引擎:AI Infra 的工程模式革新

除了降低Agent RL训练的难度,AReaL v1.0的推出还带来了训练引擎的重大更新

在大规模的RL训练领域,Megatron-LM可谓是业界的标杆。不过,它的安装依赖于Docker环境,还有复杂的C++编译,代码结构层层嵌套,让人难以调试和扩展。团队一直在思考:是否可以用PyTorch原生API实现同样功能的分布式训练引擎

答案就是,AReaL团队基于torchtitan深度定制的训练引擎Archon——一个支持完整5D并行(DP、TP、PP、CP、EP)的PyTorch原生训练引擎

数据并行 (DP):基于FSDP2 fully_shard,进一步细分了模型参数,相较于Megatron默认的数据并行。

流水线并行 (PP):利用torch.distributed.pipelining,支持ZeroBublePipeline、1F1B、Interleaved1F1B等调度方式。

张量并行 (TP):基于DTensor,采用ColwiseParallel / RowwiseParallel来切分权重。

上下文并行 (CP):依靠Ulysses Sequence Parallelism,使用all-to-all来分布处理长序列

专家并行 (EP):基于all-to-all + grouped_mm,支持EP + ETP的2D分片。

令人瞩目的是,这个复杂的分布式系统,从零开始到验证正确性,仅花费了1人・月的时间——在32天内,通过修改72万行代码,成功实现了Archon引擎,并验证其能够训练千亿参数的MoE模型。

这一效率奇迹的背后,是AReaL集成的一整套AI辅助开发系统,大幅提升了复杂工程开发的自动化程度。

难以置信!补齐OpenClaw进化拼图,AReaL v1.0开源,轻松一键接入智能体强化学习!

基于AI编程的Archon引擎代码修改统计,

这些掌握AI编程的「秘籍」全部开源,任何开发者都能借助「专业团队」,在AReaL中加速自己的Agent RL应用开发:

首先,为AReaL的每个核心模块配备领域专家Agents,使它们具备模块级架构的理解,同时在代码修改时提供相关的精准指导。

其次,采用命令驱动的引导式工作流程,通过简单的一句话指令,将常见的开发任务流程化和标准化,让开发模式从「手动实现」转变为「声明需求」,让AI自动完成软件工程中那些繁琐且耗时的运维工作。

最后,在真实的开发场景中,AReaL提供的特定Agent可以全程自动化完成任务规划、代码生成、自动校验到PR创建的工作。

难以置信!补齐OpenClaw进化拼图,AReaL v1.0开源,轻松一键接入智能体强化学习!

AReaL AI Coding Sub-Agents(图片由AI辅助生成)

这套AI辅助开发体系不仅加速了Archon引擎的落地,还传达了一个明确的信号:AI辅助编程不仅仅是效率工具,它具备真正参与复杂系统开发的能力。这一「用AI造AI工具」的工程实践,重新定义了效率的边界。

相应的,软件工程中的角色分工也在深刻变化,开发者无需再把大量时间花费在具体实现和重复性细节上,而是可以更多地专注于「明确需求、设计系统」等决策性工作。AI则可以处理那些流程固定、规则明确的工程落实任务。

在这种模式变革下,以往重视工程和经验的Agentic RL有望随着开发门槛的降低,吸引更多的开发者参与。

总结

如果说在过去一两年,行业的重点在于教Agent「如何执行任务」,通过更好的工具调用、复杂的工作流编排和精细的prompt工程,让Agent一步步完成任务。那么在接下来的阶段,「如何让Agent自我进化」将成为重中之重。

正因如此,以RL为代表的系统化训练,从过去的加分项逐渐演变为决定Agent能力上限的关键因素。

在这样的转折点上,AReaL v1.0为行业提供了一个兼具易用性、可靠性和强扩展性的开源Agentic RL模板:应用层保持开放和兼容,轻松接入不同的Agent框架;引擎层经过深度优化,极大提高了训练效率和资源利用率。

未来,AReaL团队将继续在系统组件的可用性、Archon引擎的生产效率、AI辅助开发能力以及VLM/Omni模型Agent训练等四个方向上发力,最终目标是打造Agentic AI时代的高性能RL运行时基础。

让AI变得更亲民,开发变得更简单

想象一下,如果训练框架足够简单,Agent的接入方式也变得统一,再加上AI能够深入帮助底层系统的开发,那么Agentic RL就不再是少数顶尖团队的专属,而是能被更多开发者广泛使用的利器。这其实就是“技术民主化”的真谛。

随着这些高效基础设施的不断成熟,Agent很可能会迅速突破初步Demo阶段,真正迎来一个持续、自主和规模化演进的新纪元。

来源:百家号
原文标题:补齐OpenClaw进化拼图!AReaL v1.0开源,智能体强化学习「一键接入」
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!

《难以置信!补齐OpenClaw进化拼图,AReaL v1.0开源,轻松一键接入智能体强化学习!》有19条评论

  1. 刚接触这些代理技术,AReaL的零代码接入让我有种豁然开朗的感觉,期待接下来能有更多实践经验分享。

    回复

发表评论