当前位置: 首页 > news >正文

深入理解强化学习——多臂赌博机:乐观初始值

分类目录:《深入理解强化学习》总目录


目前为止我们讨论的所有方法都在一定程度上依赖于初始动作值 Q 1 ( a ) Q_1(a) Q1(a)的选择。从统计学角度来说,这些方法(由于初始估计值)是有偏的。对于采样平均法来说,当所有动作都至少被选择一次时,偏差就会消失。但是对于步长为常数的情况,偏差会随时间减小,但不会消失。在实际中,这种偏差通常不是一个问题,有时甚至还会很有好处。缺点是,如果不将它们全部设置为0,则初始估计值实际上变成了一个必须由用户选择的参数集。好处是,通过它们可以简单地设置关于预期收益水平的先验知识。

初始动作的价值同时也提供了一种简单的试探方式。比如一个10臂的测试平台,我们替换掉原先的初始值0,将它们全部设为 + 5 +5 +5。注意,如前所述,在这个问题中, q ∗ ( a ) q_*(a) q(a)是按照均值为0方差为1的正态分布选择的。因此 + 5 +5 +5的初始值是一个过度乐观的估计。但是这种乐观的初始估计却会鼓励动作一价值方法去试探。因为无论哪一种动作被选择,收益都比最开始的估计值要小;因此学习器会对得到的收益感到“失望",从而转向另一个动作。其结果是,所有动作在估计值收敛之前都被尝试了好几次。即使每一次都按照贪心法选择动作,系统也会进行大量的试探。

下图展示了在一个10臂测试平台上设定初始值 Q 1 ( a ) = + 5 Q_1(a)=+5 Q1(a)=+5,并采用贪心算法的结果。为了比较,同时展示了 ϵ − \epsilon- ϵ贪心算法使用初始值 Q 1 ( a ) = 0 Q_1(a)=0 Q1(a)=0的结果。刚开始乐观初始化方法表现得比较糟糕,因为它需要试探更多次,但是最终随着时间的推移,试探的次数减少,它的表现也变得更好。我们把这种鼓励试探的技术叫作乐观初始价值。我们认为这是一个简单的技巧,在平稳问题中非常有效,但它远非鼓励试探的普遍有用的方法。例如,它不太适合非平稳问题,因为它试探的驱动力天生是暂时的。如果任务发生了变化,对试探的需求变了,则这种方法就无法提供帮助。事实上,任何仅仅关注初始条件的方法都不太可能对一般的非平稳情况有所帮助。开始时刻只出现一次,因此我们不应该过多地关注它。对于采样平均法也是如此,它也将时间的开始视为一种特殊的事件,用相同的权重平均所有后续的收益。但是所有这些方法都很简单,其中一个或几个简单的组合在实践中往往是足够的。

乐观初始值

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022

http://www.lryc.cn/news/221278.html

相关文章:

  • [黑马程序员Pandas教程]——DataFrame数据的增删改操作
  • 【服务器】Java连接redis及使用Java操作redis、使用场景
  • Spark 基础知识点
  • 动作捕捉系统通过SDK与LabVIEW通信
  • 【PTE-day02 sqlmap操作】
  • 2021年03月 Python(四级)真题解析#中国电子学会#全国青少年软件编程等级考试
  • 2023.10.18 信息学日志
  • Modbus封装库(Com,tcp,udp一应俱全)
  • 专访HuggingFace CTO:开源崛起、创业故事和AI民主化丨智源独家
  • C++常用格式化输出转换
  • 如何使用 Loadgen 来简化 HTTP API 请求的集成测试
  • 软件测试面试大家是不是一问到项目就不会了?
  • 伐木猪小游戏
  • 0007Java安卓程序设计-ssm基于Android的校园新闻管理系统
  • git增加右键菜单
  • openGauss学习笔记-117 openGauss 数据库管理-设置数据库审计-查看审计结果
  • 学习代码20231106
  • turtle绘制分形树-第10届蓝桥杯省赛Python真题精选
  • 【大厂招聘试题】__硬件工程师_2021年“美团”校招
  • 算法通关村第七关|黄金挑战|迭代实现二叉树的前、中、后序遍历
  • 了解高防服务器的工作原理
  • AVL树性质和实现
  • 出口贸易媒体发稿推广6个技巧提升品牌知名度-华媒舍
  • 学习笔记:CANOE模拟LIN主节点和实际从节点进行通信测试
  • 模型可解释性
  • Django初窥门径-自定义用户模型
  • 微信小程序文件上传wx.uploadFile
  • 支持内录系统声音的Mac录屏软件Omi Recorder
  • 一、Hadoop初始化配置(final+ubuntu保姆级教程)
  • Linux常用的包管理工具