当前位置: 首页 > news >正文

21.在线与离线MC强化学习简介

文章目录

  • 1. 什么是在线MC强化学习
  • 2. 什么是离线MC强化学习
  • 3. 在线MC强化学习有何缺点

1. 什么是在线MC强化学习

在线强化学习(on-policy MC RL),是指:智能体在策略评估时为获取完整轨迹所采用的采样策略 π s a m p l e ( a ∣ s ) \pi_{sample}(a|s) πsample(as),与策略控制时要改进的策略 π ( a ∣ s ) \pi(a|s) π(as)都是同一个策略,即: π = π s a m p l e \pi=\pi_{sample} π=πsample

简而言之:所谓在线,就是在对一个初始策略评估的同时,利用 ϵ − \epsilon- ϵ贪心算法对它进行及时改进。

2. 什么是离线MC强化学习

所在离线强化学习(off-policy MC RL),是指:智能体在策略评估时为获取完整轨迹所采用的采样策略 π s a m p l e ( a ∣ s ) \pi_{sample}(a|s) πsample(as),与策略控制时要改进的策略 π ( a ∣ s ) \pi(a|s) π(as)不是同一个策略,即: π ≠ π s a m p l e \pi\ne\pi_{sample} π=πsample

3. 在线MC强化学习有何缺点

  • 所学到的策略可能不适合作为最终的策略使用。
    • 为什么?
      • 因为它引入的 ϵ − \epsilon- ϵ贪心算法虽然确保了完整轨迹覆盖状态的多样性,但却以牺牲较快找到最优策略为代价,它总是小心翼翼,认为最优行为有可能存在于依赖经验确定的最优行为之外;
      • 它没有考虑这一常识:随着轨迹覆盖了更多的状态和行为,随着这些状态行为对出现次数的增多,依赖完全贪心算法所确定的最优行为应该越来越具有获得更高累积回报期望的把握
      • 如果智能体已经有关于如何更快更好地获得完整轨迹采样的先验策略,而这样的策略能够帮助自己更快地优化最终所要采取的策略,就没有必要在策略评估和策略控制中采用同一策略了。

由于以上缺点,人们已经发展出了离线强化学习算法,它可以进一步细分为

  • 重要性采样MC强化学习算法
  • 加权重要性采样MC强化学习算法
http://www.lryc.cn/news/280202.html

相关文章:

  • 控制网页的灰度显示
  • 科研绘图(四)火山图
  • 超强站群系统v9.0:最新蜘蛛池优化技术,一键安装,内容无缓存刷新,高效安全
  • torch.fx的极简通用量化教程模板
  • rpc的正确打开方式|读懂Go原生net/rpc包
  • 【信号与系统】【北京航空航天大学】实验二、连续时间系统的时域分析【MATLAB】
  • 【Linux 内核源码分析笔记】系统调用
  • mysql清空并重置自动递增初始值
  • 计算机算法之二分算法
  • 获取当前设备的IP
  • koa2文件的上传下载功能
  • test-02-test case generate 测试用例生成 EvoSuite 介绍
  • 1.单表查询
  • FFmpeg 的使用与Docker安装流媒体服务器
  • Qt QListWidget列表框控件
  • 小知识分享2
  • 【Golang开源项目】Golang高性能内存缓存库BigCache设计与分析
  • Elasticsearch 7.8.0从入门到精通
  • 寻找最富裕的小家庭 - 华为OD统一考试
  • ssm基于Java的药店药品信息管理系统的设计与实现论文
  • Word插件-大珩助手-手写电子签名
  • Edge扩展插件安装位置
  • Git将本地项目上传到Gitee仓库
  • linux环境安装docker
  • 机器人技能学习-robosuite-0-入门介绍
  • 【工具】tmux简单用法
  • 使用 C++/WinRT 的错误处理
  • 计算机基础专升本笔记九-Windows7基础(一)Windows 7 介绍
  • LeetCode1109. Corporate Flight Bookings
  • 视觉SLAM十四讲|【五】相机与IMU时间戳同步