当前位置：首页 > news >正文

强化学习笔记（5）——PPO

news 2025/7/8 0:43:38

PPO视频课程来源
首先理解采样期望的转换
请添加图片描述

变量x在p(x)分布下，函数f(x)的期望等于f(x)乘以对应出现概率p(x)的累加
经过转换后变成
x在q(x)分布下，f(x)*p(x)/q(x) 的期望。

起因是：求最大化回报的期望，所以对ceta求梯度

在这里插入图片描述

具体举例：上述公式计算的流程？如何求一条轨迹的梯度？
我理解就算是概率相乘> 一回合的回报乘以该回合梯度除以该轨迹（s,a,r,s,a…）出现概率
如何求一条轨迹的梯度？

然后PPO 推倒，对数概率连乘，等于概率累加

在这里插入图片描述

但这样有问题：用一整个回合的回报来计算梯度，会导致“未来的动作”影响过去的状态，且优势情况下，惩罚不明显
于是改成：

将优势函数转换成值函数表示，然后写出多步优势函数即推导出GAE
其实就是用走了不同步的Q（s,a）-V(s) ,然后加权

加负号将最大化期望转成loss函数更新
PPO 使用了一个重要性采样比
这个比值衡量了新策略和旧策略在选择动作 at时的相对概率

为了防止：过去参数ceta’ 和 ceta 差距不要太大，有两种衡量方式；
1：KL散度：这貌似又叫TRPO
2：clip截断防止差的太大