Qwen3系列长序列 & Agentic RL训练优秀实践

Qwen3系列长序列 & Agentic RL训练优秀实践

Qwen3系列长序列 & Agentic RL训练优秀实践 Qwen3系列长序列 & Agentic RL训练优秀实践

1.介绍在Qwen3-32B/235B模型长序列RL训练中使能SAM投机推理的优化实践,包含SAM投机解码原理、RL训练加速收益等。

2.介绍基于verl-retool的昇腾Agentic RL训练入门实践样例Qwen3-4B-Instruct,包含样例实现方案和核心组件ToolAgent介绍。

直播正在恢复,请稍后重试

联系方式
*姓名
请输入姓名
*联系电话
请输入联系电话
验证码
获取验证码
留言咨询
0/200
提示
提示