AReaL v1.0落地昇腾:快速接入OpenClaw类Agent RL后训练

举报
AGENT魔方 发表于 2026/04/15 14:55:59 2026/04/15
【摘要】 近期,开源的AReaL强化学习框架正式发布v1.0版本,提供了较完整的Agentic RL训练底座。围绕这一里程碑版本,华为团队也已完成AReaL在Ascend平台上的支持与增强,不仅补齐了安装与运行能力,还进一步打通了训练、推理、权重同步、Agent场景落地等关键链路,使AReaL在昇腾AI基础软硬件平台上具备更强的工程可用性。

近期,开源的AReaL强化学习框架正式发布v1.0版本,提供了较完整的Agentic RL训练底座。围绕这一里程碑版本,华为团队也已完成AReaL在Ascend平台上的支持与增强,不仅补齐了安装与运行能力,还进一步打通了训练、推理、权重同步、Agent场景落地等关键链路,使AReaL在昇腾AI基础软硬件平台上具备更强的工程可用性。

近期,开源的Agentic RL框架社区AReaL关注度明显升温。官方仓库在2026年3月2日升级到v1.0,同步引入OpenClaw Agent训练完整样例。此后一周多时间社区Star数暴涨1k+,GitHub当前页面显示仓库已达到约5k Stars。AReaL从“高性能异步RL框架”进一步走向“Agentic RL社区主流底座”的趋势,已经被更多的开发者关注。

随着Agent从Demo走向真实业务,行业关注点也正在从“如何让Agent调起工具、跑通流程”,转向“如何让Agent持续学习、自我进化”。在这一过程中,强化学习不再只是模型后训练中的一个可选环节,而是在逐步成为决定Agent上限的关键基础设施。围绕这一阶段,华为团队已完成AReaL在昇腾AI基础软硬件平台上的支持与增强,不仅补齐安装与运行能力,还进一步打通针对大规模MoE模型的训练、推理、权重同步、Agent场景落地等关键链路,使AReaL在昇腾AI基础软硬件平台上从“能训练”进一步走向“可落地、可扩展、可复用”。

这意味着,开发者已经可以在昇腾超节点上,基于AReaL运行真实的Agentic RL训练任务,并将其能力扩展到更大模型、更复杂环境以及更长链路的训练场景中。在此基础上,后续将进一步面向真实业务推进落地,持续补齐LoRA RL、On-Policy Distillation RL 等关键能力。


一、安装指南已更新,AReaL v1.0可在昇腾AI基础软硬件平台快速部署

AReaL官方近期发布了v1.0稳定版本,标志着其在Agentic RL方向上的框架能力进一步成熟。为方便开发者在昇腾环境中快速部署与验证AReaL v1.0,华为团队已完成其在Ascend NPU平台的安装适配,并同步更新了安装指南。安装文档如下:

AReaL Ascend安装指南:https://inclusionai.github.io/AReaL/zh/tutorial/installation_npu.html

本次适配围绕基于Ascend的实际训练场景,对相关依赖、运行方式与工程路径进行梳理,使其能够更自然地与vLLM-Ascend、MindSpeed/Megatron、Ray多节点编排等组件协同运行。这意味着:AReaL在Ascend上已经具备可复现、可分享、可推广的基础接入能力


二、提供完整最佳实践:4个A3节点运行Tau2 Agent训练

> 从文档能力走向最佳实践能力

很多框架的难点并不在于功能本身,而在于开发者面对真实环境时,缺少一套能够直接复现的配置与步骤。为了让开发者可以真正地“照着就能跑起来”,我们提供了一个完整的昇腾最佳实践样例https://github.com/inclusionAI/AReaL/blob/ascend-v1.0.1/examples/tau2/README_NPU.md

该样例面向4个Ascend NPU A3节点,明确给出镜像、容器、环境准备和资源切分方式;在4个节点配置下,文档建议拿出1个节点作为user simulator,并给出推荐的分配模式,具体推荐配置如下:

  • 训练场景:Tau2 Agent训练(tau2-airline)
  • 模型:Qwen3-30B-A3B
  • 硬件规模:4个Ascend NPU A3节点

这个样例是AReaL在昇腾上的多节点、分布式、面向真实Agent任务的最佳实践,把昇腾的能力从“理论支持”推进到了“工程最佳实践”。 这传递出一个很清晰的信号:

AReaL 在昇腾AI基础软硬件平台上,已经不只是完成了代码级适配,而是具备了面向典型Agent训练任务的端到端运行能力。

对于广大开发者开展Agent环境训练、验证RL效果、探索更大规模模型,这一实践都具有较强的参考意义。

> 面向真实分布式场景的运行闭环

在这个最佳实践中,系统并不是以单机的方式运行,而是完整分布式Agentic RL训练闭环:

  • 使用vLLM OpenAI-compatible API server作为用户模拟器服务
  • 使用Ray完成4节点集群拉起与调度
  • 使用 AReaL负责训练与推理协同
  • 使用Megatron/MindSpeed并行模式进行训练侧资源切分

其中,推荐的资源分配模式为:

allocation_mode: vllm:d4t4+megatron:(attn:d2p4t4|ffn:d1p4e8)

这套配置体现了AReaL在昇腾上对推理侧vLLM并行训练侧Megatron并行的协同支持能力,也体现了其在30B级参数的MoE模型Agent训练场景中的可执行性。


三、与社区Agent训练路径同步:昇腾也可快速接入OpenClaw类RL后训练

特别值得强调的是,我们已经与社区主流的Agent训练接入范式保持同步,支持OpenClaw一类Agent框架的强化学习训练接入

AReaL官方README在2026年3月2日新增了OpenClaw示例:

https://github.com/inclusionAI/AReaL/tree/v1.0.0/examples/openclaw

给出的表述非常直接:开发者只需要把base_url和api_key替换成AReaL的RL service,就可以训练自己的OpenClaw Agent,不需要复杂依赖,也不需要改代码。

其核心机制并不是为某个特定Agent单独适配,而是通过Proxy Gateway提供统一的OpenAI/Anthropic协议兼容入口,使得Agent只需要修改接口地址,就能够接入AReaL的RL训练流水线。

1.png

这套思路的价值在于,它把原本与具体Agent实现深度耦合的训练接入方式,收敛成了一个更标准化的协议入口。对于使用者来说:

  • 不需要修改原有Agent主体逻辑
  • 不需要重构业务流程
  • 不需要重新设计训练数据链路

只需要让Agent的模型请求指向AReaL网关,就可以在原有运行过程中自动采集轨迹,并在获得reward后进入训练闭环。

而这一能力在昇腾AI基础软硬件平台上同样可行。这意味着,AReaL在昇腾上的适配,并不局限于基础语言模型RL训练,而是已能够覆盖到更具代表性的Agent场景。这一点非常重要,因为它表明Ascend平台不仅能够支撑“标准RL训练”,还能够承接更贴近下一阶段AI应用形态的Agentic RL训练范式

这为后续更多Agent框架、任务环境和交互式训练流程迁移到昇腾提供了更强信心。


四、AWEX×AReaL:让训练—推理权重同步从“能用”走向“高效、稳定、可规模化”

如果说安装指南、Tau2最佳实践和OpenClaw类Agent接入,解决的是“如何跑起来”和“如何快速对接”,那么AWEX×AReaL解决的则是“如何更高效、更稳定地跑起来”。

AWEX官方将自己定义为一个面向RL训练—推理权重同步的高性能框架,核心目标是尽可能缩短迭代延迟,让Rollout阶段持续使用最新模型。它强调的几项关键能力包括:只传输必要的shard、支持原地更新、避免冗余复制,并支持NCCL、RDMA、共享内存等多种传输模式。对于大模型、多分片、多节点的RL系统来说,这不是局部优化,而是训练—推理协同效率的关键基础设施。

在大模型RL训练系统中,训练与推理之间的权重同步往往是最容易被低估、但又最容易成为瓶颈的一环。尤其在以下场景中,这一问题会迅速放大:

  • 模型参数规模进一步增大
  • Dense模型演进到MoE模型
  • 并行切分复杂度上升
  • 多节点、多卡、多引擎协同运行

> AWEX:拓扑感知P2P,只传真正需要的shard

针对上述问题,我们在AReaL中完成了AWEX权重同步机制的正式集成。AWEX的核心思路并不是简单替换一种传输方式,而是从拓扑与参数分布角度重新设计权重交换路径:

  • 采用拓扑感知的P2P权重交换
  • 只传输实际需要的参数shard
  • 避免完整权重复制带来的冗余
  • 降低显存/bufferfoot print
  • 提升大规模场景下的稳定性

1.png

> AReaL已可通过配置直接启用AWEX

本次集成后,AWEX不再是一个独立实验组件,而是已经进入AReaL的使用路径中,开发者可以通过配置直接启用:

actor.weight_update_mode: awex

由PPOTrainer自动完成相关运行时准备。这意味着对于使用者,AWEX已经从“需要额外手工拼装的能力”变成了“框架内可直接调用的能力选项”。同时,这次工作还补齐了多项框架级支持,使其能够适配更复杂的实际训练部署:

  • 从原本主要面向Megatron->SGLang的链路,扩展到Megatron/MindSpeed->vLLM/vLLM-Ascend
  • 兼容NPU平台
  • 兼容Dense/MoE两类模型
  • 补齐训练侧PP模式下的参数meta、layer映射、非均匀pipeline切分支持

相关样例与说明也已补齐,包括:

  • AReaL/examples/experimental/awex/README.md
  • AReaL/examples/experimental/awex/gsm8k_grpo_awex_sample.yaml
  • AReaL/examples/experimental/awex/gsm8k_grpo_awex_npu_sample.yaml
  • AReaL/examples/math/gsm8k_rl.py

从工程能力建设角度看,这一步非常关键:

AWEX集成AReaL后,权重同步不再是系统中的“额外优化项”,而成为框架主路径中的一部分。

这会显著提升后续更大规模RL训练任务在Ascend上的可复用性与推广效率。

> 性能收益已经验证:权重同步从“能用”走向“高效、稳定、可规模化”

对于基础设施能力来说,是否真正有价值,最终还是要落到数据上。
目前,AWEX×AReaL的性能与稳定性收益已经在多个模型规模上得到验证:

  • 在qwen3-30B-A3B场景中,4个A3节点上的权重同步时间从约50s降低到约15s
  • 在更大的qwen3-235B-A30B场景中,也已能在更低buffer开销下保持稳定运行

这些结果说明,AWEX带来的并不只是小规模场景中的局部优化,而是对大模型、多节点、复杂并行RL系统都有效的工程收益。


五、结语:从框架适配走向业务落地,与社区共建昇腾上的Agentic RL能力

从安装指南到Tau2最佳实践,从与社区OpenClaw训练接入范式同步,到AWEX高效权重同步进入框架主路径,这一系列工作共同表明:AReaL×Ascend已经在朝着“好用、稳用、规模化可用”的方向持续演进。

更重要的是,这些能力并不只服务于框架验证本身,也为后续更大模型、更长上下文、更复杂Agent环境的强化学习训练,打下更坚实的基础。下一阶段,我们将继续面向实际业务场景推进Agentic RL,在昇腾上支持Code Agent、Deep Search Agent、Tool Use Agent等典型Agent的后训练能力,持续打通从训练底座到业务部署的完整链路。

我们希望把这项工作做成一个持续演进、可复用、可共建的社区能力。AReaL官方README明确写到,项目欢迎社区贡献,并保持活跃迭代。欢迎对Agentic RL基础设施、Ascend适配、Agent落地和训练系统优化感兴趣的同学,一起加入社区开发,共同把AReaL在昇腾上的能力做深、做稳、做广。

AReaL v1.0 的发布,标志着开源 Agentic RL 框架正式迈入成熟可用新阶段。华为云依托在大模型全链路优化领域的深厚技术积淀,在 NPU 异构协同、高效微调训练等方向形成了成熟工程化能力,并将核心优化成果全面贡献至 AReaL 社区。此次基于昇腾平台的深度适配与能力增强,也充分印证:昇腾不仅能高效支撑大模型训练与推理,更可完整承载 Agentic RL 这类更复杂的智能体训练体系。作为推动 Agentic RL 技术落地的重要生态伙伴,华为云不只追求极致的短期性能突破,更致力于构建长期稳定、可持续演进的技术体系,携手社区共同破解大规模分布式训练与推理的工程挑战,为智能体技术规模化落地与行业智能化升级持续注入动能。

📌AReaL开源项目:https://inclusionai.github.io/AReaL/zh/tutorial/installation_npu.html


容器模仿.png

关注AGENT魔方

获取更多资讯

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。