当前位置: 首页 > news >正文

动手学强化学习(四)——蒙特卡洛方法

一、蒙特卡洛方法

        蒙特卡洛方法是一种无模型(Model-Free)的强化学习算法,它通过直接与环境交互采样轨迹(episodes)来估计状态或动作的价值函数(Value Function),而不需要依赖环境动态模型(如转移概率矩阵 P(s′∣s,a)和奖励函数 R(s,a)的显式知识)。简单来说,我们前面来说的策略都是通过公式推导出公式q,但是蒙特卡洛可以直接通过数据量来推出q,这样就省略勒模型

        假设,有一枚硬币,抛硬币后,若正面朝上,定义随机变量X=1;若反面朝上X=-1,。目标是计算X的期望E(X)。

        基于Model-base的方法,基于已知的概率模型,概率都为0.5,那么期望计算公式E(X)=0.5*1+0.5*(-1)=0

        如果通过蒙特卡洛方法,就直接从数据入手。通过多次独立地抛硬币进行采样。比如,抛次硬币,假设得到6次正面,4次反面,对应的值分别为1和-1,计算这次采样的平均值为(6-4)/10 = 0.2,用这个平均数来近似期望。当抛硬币的次数逐渐增大时,根据大数定律,样本均值会越来越趋近于随机变量的期望值。

二、 MC Basic

        MC Basic 是蒙特卡洛方法的一种简单实现,结合了策略评估(Policy Evaluation)和策略改进(Policy Improvement)的迭代过程,属于基于策略迭代(Policy Iteration)的无模型算法。在强化学习中,要计算在策略pi下的状态 - 动作值函数 q(s,a),即从状态出发,采取动作a后,遵循策略pi所获得的期望回报。

        从状态s出发,采取动作a,然后按照策略pi在环境中进行交互,直到到达终止状态,这一过程称为一个 episode,得到一个回报 g(s,a)。重复上述过程多次,得到多个回报,对这些回报取平均值

\frac{1}{n}\sum_{j=1}^ng^{(j)}(s,a)

        随着采样次数的增加,该估计会越来越接近真实的。

2.1 网格世界的蒙特卡洛

        在一个M * N 的网格世界中,智能体需要从一个位置移动到另一个位置。每个网格可能有不同的奖励值,例如,有些网格代表正奖励,有些代表负奖励,还有些可能是障碍。智能体要学习一个策略,以最大化从起始状态到终止状态的累积奖励。

        智能体从初始状态 s0 开始,按照当前策略选择动作进行移动。假设在某一时刻智能体处于状态,根据策略选择动作,然后转移到下一个状态,并获得奖励。重复这个过程,直到到达终止状态,形成一个 episode,如(s0,a0,r0,s1,a1,r1,...,st,at,r),其中T是终止时刻,该 episode 的回报

\mathrm{}G=\sum_{t=0}^T\gamma^tr_t

2.2 首次访问法

        对于每个状态 - 动作对(s,a),只考虑在一个 episode 中第一次访问到(s,a)时后续所获得的回报来估计qpi(s,a)。例如,在一个 episode 中多次访问到(s,a),但只使用第一次访问后得到的回报 G 来更新对qpi(s,a)的估计。若有n个 episode 中首次访问到(s,a),得到的回报分别为G1,G2,G3...,则的估计值为\frac{1}{n}\sum_{i=1}^nG_i

2.3 每次访问法

        对于每个状态 - 动作对(s,a),在一个 episode 中每次访问到(s,a)时后续所获得的回报都用于估计qpi(s,a)。即每次访问到(s,a)都记录下后续的回报,然后对所有这些回报求平均值来更新qpi(s,a)的估计。

        同样使用贪心策略来迭代到最终

http://www.lryc.cn/news/530058.html

相关文章:

  • 网络原理(3)—— 传输层详解
  • 2025美赛美国大学生数学建模竞赛A题完整思路分析论文(43页)(含模型、可运行代码和运行结果)
  • Elasticsearch的开发工具(Dev Tools)
  • Python-基于PyQt5,pdf2docx,pathlib的PDF转Word工具
  • 小程序-视图与逻辑
  • UE5制作视差图
  • 海浪波高预测(背景调研)
  • 代码随想录算法训练营第四十二天-动态规划-股票-188.买卖股票的最佳时机IV
  • Gradle配置指南:深入解析settings.gradle.kts(Kotlin DSL版)
  • 软件工程经济学-日常作业+大作业
  • 论文阅读(三):微阵列数据的图形模型和多变量分析
  • 【大模型LLM面试合集】大语言模型架构_MHA_MQA_GQA
  • 向上调整算法(详解)c++
  • 【Transformer】手撕Attention
  • 844.比较含退格的字符串
  • 图书管理系统 Axios 源码__编辑图书
  • LabVIEW纤维集合体微电流测试仪
  • Commander 一款命令行自定义命令依赖
  • Day24 洛谷普及2004(内涵前缀和与差分算法)
  • 遗传算法与深度学习实战(33)——WGAN详解与实现
  • gitlab云服务器配置
  • SAP SD学习笔记27 - 请求计划(开票计划)之1 - 定期请求(定期开票)
  • HTML DOM 修改 HTML 内容
  • 基于VMware的ubuntu与vscode建立ssh连接
  • Flutter Candies 一桶天下
  • maven如何不把依赖的jar打包到同一个jar?
  • HTML5 技术深度解读:本地存储与地理定位的最佳实践
  • AIGC技术中常提到的 “嵌入转换到同一个向量空间中”该如何理解
  • 【机器学习理论】朴素贝叶斯网络
  • Docker 部署 GLPI(IT 资产管理软件系统)