- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

深度强化学习原理--近端策略优化(PPO)

剑指南天发表于 2026/05/23 11:07:44 2026/05/23

【摘要】 PPO增加了一个软约束（裁剪机制），可能会做出一些错误的决策，但它在优化速度上取得了良好的平衡。实验结果证明，这种平衡能够以最简单的方式实现最佳性能。

1.概述

为了解决在强化学习中很难找到合适的策略函数参数更新步长，从最优化理论中得到启发，使用置信域的方法，找一个安全的步长，然后进行梯度上升。基于 Actor-Critic 架构的带裁剪近端策略优化（PPO）很好的实现这个方法。

2. 数学推导

2.1 PPO目标函数

为了解决在强化学习中很难找到合适的步长的问题，将目标函数修订，使得训练出来的新策略一定比旧策略好，目标函数（代理目标函数）数学定义：

公式存在的问题是需要用新策略计算期望，但是新策略是未知的。但是可以使用旧策略的优势来估计新策略的优势。

如果和概率分布接近，根据重要采样的期望公式，下面的公式成立：

所以当和概率分布接近，为了使最大化，使用梯度上升法。在训练过程中会逐渐大于等于0。

使用KL散度可以很好的评估两组概率分布是否相似。根据KL散度公式和性质：KL散度的值大于或等于0，且仅当两个概率分布相同时，其值才为0:

当两个概率分布完全相同时，所有 =1 的时候，散度最小为0。

设定一个超参数 ε ，如果 1-ε < < 1+ε ，则认为两组分布相似性可以接受，参与梯度更新。如果新策略与旧策略的概率比超出 (1−𝜀) 和 (1+𝜀) 的范围，则优势将被剪裁。在PPO论文中的实验中，𝜀 设置为0.2。在训练过程的前期，考虑到两组函数的概率分布的散度是个不断降低的过程以及策略函数生成的轨迹质量较差等原因，所以鼓励多学习教训，参与梯度更新（体现在下表的情况6），不要学习经验（体现在下表的情况5）。在训练过程的中期，新策略与旧策略的概率比进入 (1−𝜀) 和 (1+𝜀) 的范围，鼓励既学习经验也学习教训（体现在下表的情况1和2）。在训练末期，新策略与旧策略的概率比小于(1−𝜀) ，这时策略函数生成的轨迹质量较高，鼓励多学习经验（体现在下表的情况3），不学习教训（体现在下表的情况4）。

新策略与旧策略的概率比值根据公式分为6种情况：

2.2 PPO目标函数的梯度等效于策略函数的梯度。所以PPO目标函数也称为代理目标函数。

2.3 在训练最开始时梯度更新方法

在训练最开始时，新策略和旧策略相同，所以比值为1。如下成立：

PPO的第一次反向传播，等价于原始的策略梯度法。

3. 使用带裁剪近端策略优化进行倒立摆游戏，每次回报情况如下图。模型收敛很快，训练稳定性提高很多。

①训练过程中每条轨迹回报

②测试过程中每条轨迹回报

4. 总结：带裁剪的PPO目标函数，限制了当前策略与旧策略之间的差异范围，消除了部分比率超出区间导致训练不稳定的诱因，对梯度的更新产生积极的影响，如果比率为>1+𝜀 或 <1−𝜀，则梯度可能会为0。PPO增加了一个软约束（裁剪机制），可以通过一阶优化器（求一阶导数）进行优化。可能会做出一些错误的决策，但它在优化速度上取得了良好的平衡。实验结果证明，这种平衡能够以最简单的方式实现最佳性能。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

深度强化学习原理--近端策略优化(PPO)

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

深度强化学习原理--近端策略优化(PPO)

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品