当前位置: 首页 > news >正文

学习深度强化学习---第3部分----RL蒙特卡罗相关算法

文章目录

    • 3.1节 蒙特卡罗法简介
    • 3.2节 蒙特卡罗策略评估
    • 3.3节 蒙特卡罗强化学习
    • 3.4节 异策略蒙特卡罗法

本部分视频所在地址:深度强化学习的理论与实践

3.1节 蒙特卡罗法简介

在其他学科中的蒙特卡罗法是一种抽样的方法。
如果状态转移概率是已知的,则是基于模型的方法。如果状态转移概率是未知的,则是免模型的方法。动态规划方法无法求解倒立摆问题,即无法处理没有状态转移概率的问题。蒙特卡罗法可以求解。
在这里插入图片描述
在这里插入图片描述
无偏估计量的理解参考:什么叫估计量的无偏性?一致性?有效性?、也可以参考下图(链接不好找,直接截图了):在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.2节 蒙特卡罗策略评估

法1:ML拟合模拟数据法:本节不讲应用机器学习算法学习一个转移概率(这种方法是模拟出大量的数据,即下图中列出来的数据,然后使用一些ML如监督学习的方法来学习出P_head(s'|s,a)
法2:免模型强化学习法(即蒙特卡罗方法)
在这里插入图片描述
一个经历完整的MDP序列称为一次采样

3.3节 蒙特卡罗强化学习

3.4节 异策略蒙特卡罗法

http://www.lryc.cn/news/259572.html

相关文章:

  • linux虚拟机使用81-persistent-net.rule后接口名依然改变的问题处理
  • ARMV8 - A64 - 跳转和返回指令
  • QX320F28335,自研内核指令集,主频150MHz,自研工具链,纯国产DSP,硬件兼容TMS320F28335
  • 《使用ThinkPHP6开发项目》 - 登录接口一
  • zabbix精简模板
  • GO设计模式——14、代理模式(结构型)
  • 外贸SOHO建站怎么做?海洋建站方法策略?
  • 商城免费搭建之java鸿鹄云商 java电子商务商城 Spring Cloud+Spring Boot+mybatis+MQ+VR全景+b2b2c
  • 【淘宝网消费类电子产品销售数据可视化】
  • AI编译器及TVM概述
  • 排序-归并排序与计数排序
  • 国产数据库适配-人大金仓(kingbase V8R3)
  • HAAS 哈斯机床 读写刀补数据
  • Visual studio+Qt开发环境搭建以及注意事项和打开qt的.pro项目
  • BUUCTF crypto做题记录(4)新手向
  • 【ArcGIS微课1000例】0080:ArcGIS将shp转json(geojson)案例教程
  • 阿里云Centos8安装Dockers详细过程
  • leetcode 二数之和 三数之和 四数之和
  • 制衣厂生产ERP系统怎么样?制衣厂生产ERP软件哪个好
  • 安装 DevEco Studio 后不能用本地 Node.js 打开
  • AppLink+WMS,实现仓储管理一体化
  • 如果是你,你选SOHO还是跟单?
  • 大语言模型--能力
  • 安装LLaMA-Factory微调chatglm3,修改自我认知
  • 以太网协议与DNS
  • Spring Boot的日志
  • Cisco Packet Tracer配置命令——交换机篇
  • python单例模式
  • 环境保护:人类生存的最后机会
  • 头歌-Python 基础