当前位置: 首页 > news >正文

强化学习-CH2 状态价值和贝尔曼等式

强化学习-CH2 状态值和贝尔曼等式

状态值(State Value)它被定义为agent在遵循给定策略时所能获得的平均奖励。 状态值越大,对应的策略越好。 状态值可以用作评估策略是否良好的度量。Bellman方程描述了所有状态值之间的关系。 通过求解Bellman方程,可以得到状态值。 这个过程被称为策略评估,这是强化学习中的一个基本概念。

2.1 计算回报(returns)的两种方式

image-20250818144152086

针对上图的网格世界,计算回报有两种方式:

(1)按照定义:回报等于沿一条轨迹收集的所有奖励的折现总和。

image-20250818144238746

vi表示从si出发所得到的回报(奖励总和)。

(2)自举:

image-20250818144330001

上述等式可以写成矩阵形式:

image-20250818144502826

有:

image-20250818144516505

状态值就可以计算:

image-20250818144530450

2.2 状态值(State Values)

从t时刻起,得到一条轨迹

image-20250818144838761

St,At,Rt表示状态,动作,奖励,他们都是随机变量

image-20250818144920553

image-20250818144927681

这条轨迹的回报是:

image-20250818144948691

Gt也是随机变量,可以计算它的期望

image-20250818145049738

vπ(s)表示状态s的值,它只依赖于s(从s出发)和策略π

状态值与回报之间的关系进一步阐明如下。 当策略和系统模型都是确定的时,从一个状态开始总是会导致相同的轨迹。 在这种情况下,从一个状态开始获得的回报等于该状态的值。 相比之下,当策略或系统模型是随机的,从相同的状态出发可能会产生不同的轨迹。 在这种情况下,不同轨迹的收益是不同的,状态值是这些收益的均值

状态值:在给定策略π下,从一个状态出发,获取到的回报的均值。

2.3 贝尔曼(Bellman)公式

image-20250818145445706

image-20250818145512034

等式右边的第一项表示立即回报

image-20250818145715274

第二项表示未来回报的期望image-20250818145820626

因此原等式可以写成以下形式:

image-20250818150014906

上式就是贝尔曼公式,它体现了所有状态值之间的关系,从贝尔曼公式计算状态的过程就称为策略评估过程。

p(r|s,a)和p(s’|s,a)代表系统模型

2.4 贝尔曼公式的向量形式

image-20250818151225945

image-20250818151231905

rπ(s)表示立即回报 pπ(s’|s)表示在策略π下从s转移到s’的概率

image-20250818151349170

向量形式:

image-20250818151403410

image-20250818151507890

2.5 从贝尔曼公式中求解状态值

2.5.1 Closed-form solution

直接求解

image-20250818152207730

2.5.2 迭代求解

image-20250818152321490

迭代法生成一系列value,其中v0是初始猜测

image-20250818152356833

2.6 从状态值到动作值

动作值(action value)在某个状态下采取一个动作的值

一个状态-动作对(s,a)的动作值定义为

image-20250818153708634

image-20250818153813778

image-20250818153822921

状态值是对与该状态相关联的动作值的期望。

image-20250818153915770

2.7 动作值的贝尔曼公式

image-20250818154306346

态值是对与该状态相关联的动作值的期望。

[外链图片转存中…(img-Uor3nfEM-1755503156857)]

2.7 动作值的贝尔曼公式

[外链图片转存中…(img-fVdXeNUK-1755503156857)]

image-20250818154413825

http://www.lryc.cn/news/625090.html

相关文章:

  • 【新手易混】find 命令中 -perm 选项的知识点
  • Unity2022打包安卓报错的奇葩问题
  • 云原生俱乐部-docker知识点归纳(1)
  • 2-4〔O҉S҉C҉P҉ ◈ 研记〕❘ 漏洞扫描▸AWVS(WEB扫描)
  • PyTorch数据处理工具箱详解|深入理解torchvision与torch.utils.data
  • 嵌入式设备Lwip协议栈实现功能
  • 28、企业安防管理(Security)体系构建:从生产安全到日常安保的全方位防护
  • 如何将 LM Studio 与 ONLYOFFICE 结合使用,实现安全的本地 AI 文档编辑
  • 【完整源码+数据集+部署教程】海洋垃圾与生物识别系统源码和数据集:改进yolo11-RVB
  • 遥感机器学习入门实战教程 | Sklearn 案例②:PCA + k-NN 分类与评估
  • 在开发后端API的时候,哪些中间件比较实用
  • 【音视频】ISP能力
  • python实现pdfs合并
  • [矩阵置零]
  • 【HarmonyOS】应用设置全屏和安全区域详解
  • C++/Java双平台表单校验实战:合法性+长度+防重复+Tab顺序四重守卫
  • html页面打水印效果
  • Android使用Kotlin协程+Flow实现打字机效果
  • 【React Hooks】封装的艺术:如何编写高质量的 React 自-定义 Hooks
  • 构建者设计模式 Builder
  • 开源im即时通讯软件开发社交系统全解析:安全可控、功能全面的社交解决方案
  • 使用 Zed + Qwen Code 搭建轻量化 AI 编程 IDE
  • FlycoTabLayout CommonTabLayout 支持Tab选中字体变大 选中tab的加粗效果首次无效的bug
  • Redis-缓存-穿透-布隆过滤器
  • [Linux]学习笔记系列 --[mm][list_lru]
  • bun + vite7 的结合,孕育的 Robot Admin 【靓仔出道】(十三)
  • DELL服务器 R系列 IPMI的配置
  • Java基础 8.18
  • 贪吃蛇游戏实现前,相关知识讲解
  • 【LeetCode 热题 100】198. 打家劫舍——(解法二)自底向上