Qwen3系列长序列 & Agentic RL训练优秀实践 Qwen3系列长序列 & Agentic RL训练优秀实践
1.介绍在Qwen3-32B/235B模型长序列RL训练中使能SAM投机推理的优化实践,包含SAM投机解码原理、RL训练加速收益等。
2.介绍基于verl-retool的昇腾Agentic RL训练入门实践样例Qwen3-4B-Instruct,包含样例实现方案和核心组件ToolAgent介绍。
联系方式
提示
1.介绍在Qwen3-32B/235B模型长序列RL训练中使能SAM投机推理的优化实践,包含SAM投机解码原理、RL训练加速收益等。
2.介绍基于verl-retool的昇腾Agentic RL训练入门实践样例Qwen3-4B-Instruct,包含样例实现方案和核心组件ToolAgent介绍。