强化学习-CH2 状态价值和贝尔曼等式
强化学习-CH2 状态值和贝尔曼等式
状态值(State Value)它被定义为agent在遵循给定策略时所能获得的平均奖励。 状态值越大,对应的策略越好。 状态值可以用作评估策略是否良好的度量。Bellman方程描述了所有状态值之间的关系。 通过求解Bellman方程,可以得到状态值。 这个过程被称为策略评估,这是强化学习中的一个基本概念。
2.1 计算回报(returns)的两种方式
针对上图的网格世界,计算回报有两种方式:
(1)按照定义:回报等于沿一条轨迹收集的所有奖励的折现总和。
vi表示从si出发所得到的回报(奖励总和)。
(2)自举:
上述等式可以写成矩阵形式:
有:
状态值就可以计算:
2.2 状态值(State Values)
从t时刻起,得到一条轨迹
St,At,Rt表示状态,动作,奖励,他们都是随机变量
这条轨迹的回报是:
Gt也是随机变量,可以计算它的期望
vπ(s)表示状态s的值,它只依赖于s(从s出发)和策略π
状态值与回报之间的关系进一步阐明如下。 当策略和系统模型都是确定的时,从一个状态开始总是会导致相同的轨迹。 在这种情况下,从一个状态开始获得的回报等于该状态的值。 相比之下,当策略或系统模型是随机的,从相同的状态出发可能会产生不同的轨迹。 在这种情况下,不同轨迹的收益是不同的,状态值是这些收益的均值。
状态值:在给定策略π下,从一个状态出发,获取到的回报的均值。
2.3 贝尔曼(Bellman)公式
等式右边的第一项表示立即回报
第二项表示未来回报的期望
因此原等式可以写成以下形式:
上式就是贝尔曼公式,它体现了所有状态值之间的关系,从贝尔曼公式计算状态的过程就称为策略评估过程。
p(r|s,a)和p(s’|s,a)代表系统模型
2.4 贝尔曼公式的向量形式
rπ(s)表示立即回报 pπ(s’|s)表示在策略π下从s转移到s’的概率
向量形式:
2.5 从贝尔曼公式中求解状态值
2.5.1 Closed-form solution
直接求解
2.5.2 迭代求解
迭代法生成一系列value,其中v0是初始猜测
2.6 从状态值到动作值
动作值(action value)在某个状态下采取一个动作的值
一个状态-动作对(s,a)的动作值定义为
状态值是对与该状态相关联的动作值的期望。
2.7 动作值的贝尔曼公式
态值是对与该状态相关联的动作值的期望。
[外链图片转存中…(img-Uor3nfEM-1755503156857)]
2.7 动作值的贝尔曼公式
[外链图片转存中…(img-fVdXeNUK-1755503156857)]