当前位置：首页 > news >正文

策略梯度定理公式的详细推导

news 2025/7/4 10:07:51

策略梯度定理公式的详细推导

以下是策略梯度定理公式从基础概率公式到最终形式的完整推导，帮助更清晰地理解推导过程中的每一个步骤。

1. 策略梯度的目标

我们希望最大化期望累积奖励 ( $J(\theta)$ )，其定义为：

$J(\theta) = \mathbb{E}_{\pi_\theta} \left[ R_t \right]$

根据期望的定义，可以将 ( $J(\theta)$ ) 写为积分形式：

$J(\theta) = \int_{\tau} P(\tau; \theta) R_t \, d\tau$

其中：

( $\tau = (s_0, a_0, s_1, a_1, \dots)$ ) 表示一条轨迹；
( $P(\tau; \theta)$ ) 是轨迹的概率分布。

接下来，我们对目标 ( $J(\theta)$ ) 求梯度：

$\nabla_\theta J(\theta) = \nabla_\theta \int_{\tau} P(\tau; \theta) R_t \, d\tau$

根据微积分中的交换求导与积分的规则，将梯度符号与积分符号交换位置：

$\nabla_\theta J(\theta) = \int_{\tau} \nabla_\theta \left[ P(\tau; \theta) R_t \right] d\tau$

因为 ( $R_t$ ) 不依赖于参数 ( $\theta$ )，所以可以提取出来：

$\nabla_\theta J(\theta) = \int_{\tau} R_t \nabla_\theta P(\tau; \theta) \, d\tau$

2. 引入对数梯度

为了化简 ( $\nabla_\theta P(\tau; \theta)$ )，我们引入对数梯度技巧：

$\nabla_\theta P(\tau; \theta) = P(\tau; \theta) \cdot \nabla_\theta \log P(\tau; \theta)$

将其代入梯度公式：

$\nabla_\theta J(\theta) = \int_{\tau} R_t \cdot P(\tau; \theta) \cdot \nabla_\theta \log P(\tau; \theta) \, d\tau$

根据概率分布 ( $P(\tau; \theta)$ ) 的性质，可以用期望形式重新表示：

$\nabla_\theta J(\theta) = \mathbb{E}_{\pi_\theta} \left[ R_t \cdot \nabla_\theta \log P(\tau; \theta) \right]$

这一步的重要性在于将积分转化为在策略 ( $\pi_\theta$ ) 下的期望，使得后续计算能够通过采样来实现。

3. 轨迹概率分布的分解

轨迹 ( $\tau$ ) 的概率 ( $P(\tau; \theta)$ ) 可以分解为以下形式：

$P(\tau; \theta) = P(s_0) \prod_{t=0}^{\infty} \pi_\theta(a_t | s_t) P(s_{t+1} | s_t, a_t)$

其中：

( $P(s_0)$ )：初始状态的概率；
( $\pi_\theta(a_t | s_t)$ )：策略分布，表示在状态 ( $s_t$ ) 下采取动作 ( $a_t$ ) 的概率；
( $P(s_{t+1} | s_t, a_t)$ )：环境的状态转移概率。

对 ( $\log P(\tau; \theta)$ ) 求导时，仅有 ( $\pi_\theta(a_t | s_t)$ ) 与参数 ( $\theta$ ) 相关，因此可化简为：

$\nabla_\theta \log P(\tau; \theta) = \sum_{t=0}^{\infty} \nabla_\theta \log \pi_\theta(a_t | s_t)$

将此结果代入梯度公式：

$\nabla_\theta J(\theta) = \mathbb{E}_{\pi_\theta} \left[ R_t \cdot \sum_{t=0}^{\infty} \nabla_\theta \log \pi_\theta(a_t | s_t) \right]$

4. 化简最终公式

将期望中的求和移到外部，可以得到：

$\nabla_\theta J(\theta) = \sum_{t=0}^{\infty} \mathbb{E}_{\pi_\theta} \left[ R_t \cdot \nabla_\theta \log \pi_\theta(a_t | s_t) \right]$

在每个时间步 ( $t$ )，我们只需要计算与当前动作 ( $a_t$ ) 和状态 ( $s_t$ ) 相关的对数梯度，从而得到：

$\nabla_\theta J(\theta) = \mathbb{E}_{\pi_\theta} \left[ R_t \cdot \nabla_\theta \log \pi_\theta(a_t | s_t) \right]$

这就是策略梯度定理的最终公式。

5. 使用对数梯度性质验证

策略梯度公式的核心在于以下对数梯度性质：

$\nabla_\theta \pi_\theta(a_t | s_t) = \pi_\theta(a_t | s_t) \cdot \nabla_\theta \log \pi_\theta(a_t | s_t)$

证明如下：

根据对数定义， ( $\log x$ ) 的导数为 ( $\frac{1}{x}$ )；
对 ( $\pi_\theta(a_t | s_t)$ ) 求梯度：

$\nabla_\theta \log \pi_\theta(a_t | s_t) = \frac{1}{\pi_\theta(a_t | s_t)} \cdot \nabla_\theta \pi_\theta(a_t | s_t)$

两边乘以 ( $\pi_\theta(a_t | s_t)$ )：

$\nabla_\theta \pi_\theta(a_t | s_t) = \pi_\theta(a_t | s_t) \cdot \nabla_\theta \log \pi_\theta(a_t | s_t)$

将此性质代入公式，概率 ( $\pi_\theta(a_t | s_t)$ ) 被约去，得到：

$\nabla_\theta J(\theta) = \mathbb{E}_{\pi_\theta} \left[ R_t \cdot \nabla_\theta \log \pi_\theta(a_t | s_t) \right]$

总结

通过以上详细推导，可以看出策略梯度定理的核心在于以下两点：

引入对数梯度性质：将复杂的概率梯度转化为对数形式；
利用轨迹概率分布的分解：化简梯度公式，使得计算集中在策略部分 ( $\pi_\theta(a_t | s_t)$ )。

最终的策略梯度公式为：

$\nabla_\theta J(\theta) = \mathbb{E}_{\pi_\theta} \left[ R_t \cdot \nabla_\theta \log \pi_\theta(a_t | s_t) \right]$

这一公式既简洁又高效，是策略梯度方法的理论基础。

后记

2024年12月12日17点00分于上海，在GPT4o大模型辅助下完成。

查看全文

http://www.lryc.cn/news/502596.html

力扣-图论-10【算法学习day.60】

《Python WEB安全库全解析》

Linux yum-config-manager命令异常

ios 开发配置蓝牙

geoserver(1) 发布sql 图层支持自定义参数

Linux:network:添加ip的时候自动添加一个本地路由

go 集成nacos注册中心、配置中心

ssd202d-badblock-坏块检测

MySQL-练习-数据介绍

React框架：解锁现代化Web开发的新维度

电阻功率，限流，等效电阻

Qt | 开发工具(top1)

Node.js express

ios h5中在fixed元素中的input被focus时，键盘遮挡input (van-popup、van-feild)

springboot整合lua脚本在Redis实现商品库存扣减

MySQL ON DUPLICATE KEY UPDATE影响行数

uniapp小程序 slot中无法传递外部参数的解决方案

umi实现动态获取菜单权限

Pytest-Bdd-Playwright 系列教程（14）：Docstring 参数

交互开发---测量工具（适用VTK或OpenGL开发的应用程序）

Qt 一个简单的QChart 绘图

【Java笔记】LinkedList 底层结构

el-table组件树形数据修改展开箭头

太速科技-FMC154-基于FMC 八路SFP+万兆光纤子卡

记:排查设备web时慢时快问题,速度提升100%

音视频入门基础：MPEG2-TS专题（13）——FFmpeg源码中，解析Section Header的实现

根据PDF模板单个PDF导出到浏览器和多个PDF打包ZIP导出到浏览器

如何创建一个基本的Spring Boot应用程序

1.2 计算机网络的分类和应用（重要知识点）

@JsonSerialize失效解决