当前位置：首页 > news >正文

强化学习算法总结 2

news 2025/9/11 8:32:01

强化学习算法总结 2

4.动态规划

待解决问题分解成若干个子问题，先求解子问题，然后得到目标问题的解

需要知道整个状态转移函数和价值函数，状态空间离散且有限

策略迭代：
- 策略评估:贝尔曼期望方程来得到一个策略的 $V (s)$
- 策略提升:
价值迭代

4.1 策略迭代算法

策略评估

$\sum_a \pi(a|s)Q(s,a) = \sum_a \pi(a|s)(r(a,s)+ \gamma\sum_s P(s'|s,a)V^\pi(S'))$

知道状态转移函数和未来状态价值就可以估计当前的状态：我们只需要求解 $V (s)$

这里就是利用贝尔曼方程，来不断地更新 $V (s)$ ,
$V(S)^{k+1} = \sum_a \pi(a|s)Q(s,a) = \sum_a \pi(a|s)(r(a,s)+ \gamma\sum_s P(s'|s,a)V^k(S'))$

策略提升

只要当前状态下的策略的得到的状态动作函数比 $V (S)$ 高一些
$\pi'(s) = argmax_aQ^\pi(s,a)$
策略迭代

$\pi^0 策略评估 V\pi_0（S）策略提升 \pi^1$

代码
- 策略评估

$\ \max \ >\theta \ do: \\ \ max = 0 \\ \ for \ s \ in \ range(S):\\ \ v = V(s)（所有Q(s,a）求和)\\ \ V(S) = (bellman fuction)\\ \ max = max(max,V(s) - v)$

* 策略提升

$for\ s\ in\ S：\\ \pi (s) = argmax(Q(s,a))$

4.2 价值迭代算法

$V^{k+1}(s) = max_a\{ r(s,a)+\gamma\sum_sPV^k\}$

可以理解为只执行一轮的策略迭代算法

5 时序差分算法

在数据分布未知的情况下来对模型进行更新，通过智能体与环境的交互进行学习。无模型的强化学习。

在线强化学习：使用当前策略下采样得到的数据进行学习
离线强化学习：使用经验回访池

5.1 时序差分

$V(S_t) = V(s_t) +\alpha[G_t - V(s_t)]$

$G_t$ 表示整个序列采集结束之后，得到的回报。而很多时候我们是没有办法
$V(s_t) += \alpha[r_t + \gamma V(s_{t+1}) -V(s_t) ]$
用时序差分法估计到了状态价值函数 $V (s)$

5.2 SARSA

$\alpha[r(s,a) + \gamma Q(s,a) - Q(s,a)]$

$$
\begin{equation}
\pi(a|s)=\left{
\begin{aligned}
argmax(Q(s,a))& \ & if \ prob < \ 1- \epsilon \
random & \ & \

\end{aligned}
\right.
\end{equation}
$$

5.3 多步Sarsa

MC方法是无偏估计但是方差比较大

TD 是有偏估计，因为每一个对下一个状态的价值都是估计的
$Q(s_t,a_t)+= \alpha[ r_t + \gamma Q(s_{t+1}) + \gamma^2 Q(s_{t+2})+ \gamma^3 Q(s_{t+3})... -Q(s,a) ]$
代码实现上，是前几次不执行只是进行数据的收集，第n次开始进行多步Sarsa