当前位置：首页 > news >正文

强化学习-CH2 状态价值和贝尔曼等式

news 2025/8/19 13:52:10

强化学习-CH2 状态值和贝尔曼等式

状态值（State Value）它被定义为agent在遵循给定策略时所能获得的平均奖励。状态值越大，对应的策略越好。状态值可以用作评估策略是否良好的度量。Bellman方程描述了所有状态值之间的关系。通过求解Bellman方程，可以得到状态值。这个过程被称为策略评估，这是强化学习中的一个基本概念。

2.1 计算回报（returns）的两种方式

针对上图的网格世界，计算回报有两种方式：

（1）按照定义：回报等于沿一条轨迹收集的所有奖励的折现总和。

vi表示从si出发所得到的回报（奖励总和）。

（2）自举：

上述等式可以写成矩阵形式：

有：

状态值就可以计算：

2.2 状态值（State Values）

从t时刻起，得到一条轨迹

St,At,Rt表示状态，动作，奖励，他们都是随机变量

这条轨迹的回报是：

Gt也是随机变量，可以计算它的期望

vπ（s）表示状态s的值，它只依赖于s（从s出发）和策略π

状态值与回报之间的关系进一步阐明如下。当策略和系统模型都是确定的时，从一个状态开始总是会导致相同的轨迹。在这种情况下，从一个状态开始获得的回报等于该状态的值。相比之下，当策略或系统模型是随机的，从相同的状态出发可能会产生不同的轨迹。在这种情况下，不同轨迹的收益是不同的，状态值是这些收益的均值。

状态值：在给定策略π下，从一个状态出发，获取到的回报的均值。

2.3 贝尔曼（Bellman）公式

等式右边的第一项表示立即回报

第二项表示未来回报的期望

因此原等式可以写成以下形式：

上式就是贝尔曼公式，它体现了所有状态值之间的关系，从贝尔曼公式计算状态的过程就称为策略评估过程。

p(r|s,a)和p(s’|s,a)代表系统模型

2.4 贝尔曼公式的向量形式

rπ（s）表示立即回报 pπ（s’|s）表示在策略π下从s转移到s’的概率

向量形式：

2.5 从贝尔曼公式中求解状态值

2.5.1 Closed-form solution

直接求解

2.5.2 迭代求解

迭代法生成一系列value，其中v0是初始猜测

2.6 从状态值到动作值

动作值（action value）在某个状态下采取一个动作的值

一个状态-动作对（s,a）的动作值定义为

状态值是对与该状态相关联的动作值的期望。

2.7 动作值的贝尔曼公式

态值是对与该状态相关联的动作值的期望。

[外链图片转存中…(img-Uor3nfEM-1755503156857)]

2.7 动作值的贝尔曼公式

[外链图片转存中…(img-fVdXeNUK-1755503156857)]

http://www.lryc.cn/news/625090.html

相关文章：

【新手易混】find 命令中 -perm 选项的知识点

Unity2022打包安卓报错的奇葩问题

云原生俱乐部-docker知识点归纳（1）

2-4〔O҉S҉C҉P҉ ◈ 研记〕❘ 漏洞扫描▸AWVS（WEB扫描）

PyTorch数据处理工具箱详解｜深入理解torchvision与torch.utils.data

嵌入式设备Lwip协议栈实现功能

28、企业安防管理（Security）体系构建：从生产安全到日常安保的全方位防护

如何将 LM Studio 与 ONLYOFFICE 结合使用，实现安全的本地 AI 文档编辑

【完整源码+数据集+部署教程】海洋垃圾与生物识别系统源码和数据集：改进yolo11-RVB

遥感机器学习入门实战教程 | Sklearn 案例②：PCA + k-NN 分类与评估

在开发后端API的时候，哪些中间件比较实用

【音视频】ISP能力

python实现pdfs合并

【HarmonyOS】应用设置全屏和安全区域详解

C++/Java双平台表单校验实战：合法性+长度+防重复+Tab顺序四重守卫

html页面打水印效果

Android使用Kotlin协程+Flow实现打字机效果

【React Hooks】封装的艺术：如何编写高质量的 React 自-定义 Hooks

构建者设计模式 Builder

开源im即时通讯软件开发社交系统全解析：安全可控、功能全面的社交解决方案

使用 Zed + Qwen Code 搭建轻量化 AI 编程 IDE

FlycoTabLayout CommonTabLayout 支持Tab选中字体变大选中tab的加粗效果首次无效的bug

Redis-缓存-穿透-布隆过滤器

[Linux]学习笔记系列 --[mm][list_lru]

bun + vite7 的结合，孕育的 Robot Admin 【靓仔出道】（十三）

DELL服务器 R系列 IPMI的配置

Java基础 8.18

贪吃蛇游戏实现前，相关知识讲解

【LeetCode 热题 100】198. 打家劫舍——（解法二）自底向上