当前位置：首页 > news >正文

学习深度强化学习---第3部分----RL蒙特卡罗相关算法

news 2025/7/27 12:09:51

文章目录

- 3.1节蒙特卡罗法简介
- 3.2节蒙特卡罗策略评估
- 3.3节蒙特卡罗强化学习
- 3.4节异策略蒙特卡罗法

本部分视频所在地址：深度强化学习的理论与实践

3.1节蒙特卡罗法简介

在其他学科中的蒙特卡罗法是一种抽样的方法。
如果状态转移概率是已知的，则是基于模型的方法。如果状态转移概率是未知的，则是免模型的方法。动态规划方法无法求解倒立摆问题，即无法处理没有状态转移概率的问题。蒙特卡罗法可以求解。
在这里插入图片描述

无偏估计量的理解参考：什么叫估计量的无偏性？一致性？有效性？、也可以参考下图（链接不好找，直接截图了）：

3.2节蒙特卡罗策略评估

法1：ML拟合模拟数据法：本节不讲应用机器学习算法学习一个转移概率（这种方法是模拟出大量的数据，即下图中列出来的数据，然后使用一些ML如监督学习的方法来学习出P_head(s'|s,a)）
法2：免模型强化学习法（即蒙特卡罗方法）
在这里插入图片描述
一个经历完整的MDP序列称为一次采样

3.3节蒙特卡罗强化学习

3.4节异策略蒙特卡罗法

http://www.lryc.cn/news/259572.html

相关文章：

linux虚拟机使用81-persistent-net.rule后接口名依然改变的问题处理

ARMV8 - A64 - 跳转和返回指令

QX320F28335，自研内核指令集，主频150MHz，自研工具链，纯国产DSP，硬件兼容TMS320F28335

《使用ThinkPHP6开发项目》 - 登录接口一

zabbix精简模板

GO设计模式——14、代理模式（结构型）

外贸SOHO建站怎么做？海洋建站方法策略？

商城免费搭建之java鸿鹄云商 java电子商务商城 Spring Cloud+Spring Boot+mybatis+MQ+VR全景+b2b2c

【淘宝网消费类电子产品销售数据可视化】

AI编译器及TVM概述

排序-归并排序与计数排序

国产数据库适配-人大金仓（kingbase V8R3）

HAAS 哈斯机床读写刀补数据

Visual studio+Qt开发环境搭建以及注意事项和打开qt的.pro项目

BUUCTF crypto做题记录（4）新手向

【ArcGIS微课1000例】0080：ArcGIS将shp转json(geojson)案例教程

阿里云Centos8安装Dockers详细过程

leetcode 二数之和三数之和四数之和

制衣厂生产ERP系统怎么样?制衣厂生产ERP软件哪个好

安装 DevEco Studio 后不能用本地 Node.js 打开

AppLink+WMS，实现仓储管理一体化

如果是你，你选SOHO还是跟单？

大语言模型--能力

安装LLaMA-Factory微调chatglm3，修改自我认知

以太网协议与DNS

Spring Boot的日志

Cisco Packet Tracer配置命令——交换机篇

python单例模式

环境保护：人类生存的最后机会

头歌-Python 基础