当前位置: 首页 > news >正文

《强化学习导论》之6.5 Q-Learning

Q-Learning:Off-Policy TD Control

强化学习的早期突破之一是开发了一种称为Q学习的非策略TD控制算法(Watkins,1989)。其最简单的形式,定义为

(6.8)

在这种情况下,学习的动作-值函数Q直接近似于最优动作-值函数,与所遵循的策略无关。这极大地简化了算法的分析,并实现了早期收敛证明。该策略仍然具有影响,因为它确定访问和更新哪些状态-操作对。但是,正确收敛所需要的只是所有对继续更新。正如我们在第5章中所观察到的,这是一个最低要求,因为任何保证在一般情况下找到最佳行为的方法都必须这样要求。在此假设和步长参数序列的通常随机逼近条件的变体下,Qt已被证明以概率 1 收敛到。Q 学习算法以如下程序形式所示。

Q-learning (off-policy TD control) for estimating

Algorithm parameters: step size , small

Initialize Q(s,a), for all , arbitrarily except that Q(terminal,.)=0

Loop for each episode:

Initialize S

Loop for each step of episode:

Choose A from S using policy derived from Q (e.g.,ε-greedy)

Take action A, observe R,S'

S <- S';

until s is terminal

Q-learning的备份图是什么?规则 (6.8) 更新状态-操作对,因此顶部节点(更新的根节点)必须是小型的填充操作节点。更新也来自操作节点,最大化下一个状态下可能的所有操作。因此,备份关系图的底部节点应该是所有这些操作节点。最后,请记住,我们指示在这些“下一步操作”节点中,它们有一个弧形(图 3.4-右)。您现在能猜出图表是什么吗?如果是这样,请在转到第 134 页图 6.4 中的答案之前进行猜测。

参考

  • RLbook2020.pdf (incompleteideas.net)

  • Introduction to Reinforcement Learning (Spring 2021) | IntroRL (amfarahmand.github.io)

  • 强化学习导论 — 强化学习导论 0.0.1 文档 (qiwihui.com)

http://www.lryc.cn/news/27580.html

相关文章:

  • 5年软测,女朋友跑了俩,2年外包感觉自己废了一半,怎么办?
  • 【JavaWeb】HTML常用标签
  • python编程:查找某个文件夹下所有的文件,包括子文件加下的所有文件,读取指定类型的文件
  • 测试外包干了5年,感觉自己已经废了····
  • C++17 文件与目录操作 <filesystem>
  • Python 如何安装 MySQLdb ?
  • 总被程序员坑?你需要了解API接口
  • 信息系统基本知识(四)新技术
  • jeesite多环境配置
  • 项目中用到的知识点回顾---JWT(JSON Web Token)
  • string类常用函数
  • hexo静态网站部署到腾讯云cos
  • Python高性能编程
  • MVVM模式下如何正确【视图绑定+数据】
  • 外包测试3年,离职后成功入职华为,拿到offer的那天我泪目了....
  • Qt Study
  • JS混淆技术探究及解密方法分析
  • 智慧制硅厂 Web SCADA 生产线
  • 案例09-数据类型不一致导致equals判断为false
  • springsecurity中的类
  • k8s配置管理
  • 技术官方文档中的代码是用什么展示的?代码高亮插件总结
  • 2023年中职组网络安全竞赛——综合渗透测试解析
  • 【全网最细PAT题解】【PAT乙】1044 火星数字(测试点2,测试点4详细解释)
  • rsync+xinetd+inotify+sersync
  • CSS - 扫盲
  • ChatGPT能完全取代软件开发吗,看看它怎么回答?
  • Vue3学习笔记
  • 【React】pro-mobile
  • Substrate 基础教程(Tutorials) -- 授权特定节点