当前位置: 首页 > news >正文

深入理解强化学习——强化学习的历史:近代强化学习的发展

分类目录:《深入理解强化学习》总目录


在《深入理解强化学习——强化学习的历史》前面的文章中我们讨论了最优控制和试错学习学习的思想,接下来,我们将讨论一些在20世纪60年代和70年代,在试错学习计算和理论研究被相对忽视的时候,出现的一些例外情况。其中的一个例外是新西兰研究人员J.hn Andreae的工作。Andreae开发了一个叫作STeLLA的系统,它通过与环境的互动中的试错来学习。这个系统包括了关于环境的内部模型和后来开发的一个用来处理隐藏状态问题的“内心独白"模块。Andreae后来的工作虽然更强调从老师那儿学习,但仍然包括了很多反复试错,并且系统的目标之一就是产生创造性的新事件。这个工作的一个特性被称为“回流过程",在Andreae中有详细描述,其提供了一个类似于我们前面提及的反向回溯更新的功劳分配机制。不幸的是,他的开创性研究并不为人所知,也没有对后来的强化学习研究产生重大影响。

比较有影响力的是Donal Michie的工作。在1961年和1963年,他描述了一个叫MENACE(Matchbox EducabIe Naughts and Crosses Engine)的简单试错学习系统,用来学习如何玩井字棋游戏。这个系统由对应于每个井字棋位置的火柴盒构成,每个火柴盒内含有许多彩色珠子,每一种不同颜色代表一种可能的移动方式。通过从当前游戏位置的火柴盒里随机拿一个珠子,就可以确定MENACE的移动。当游戏结束时,我们会往曾经使用过的盒子里增加珠子或减少珠子,以此来强化或惩罚MENACE的决策。Michie和Chambers描述了另一种叫GLEE(Game LearningExpectimaxing Engine)的井字棋强化学习机和一个叫BOXES的强化学习控制器。他们采用BOXES使得一根杆子可以在一个可移动的小车上保持平衡,这一系统就是在失败信号的基础上工作的一一一当杆子倒下或车到达终点时,会有失败信号发出从而帮助系统学习。这项任务是根据Widrow和Smith早期的工作改编而来的,他们采用有监督学习的方法,假设老师的指导己经能保持杆子平衡。Michie和Chambers版的杆子平衡实验是在不具备完全知识的条件下强化学习最出色的早期例子之一。包括我们自己的一些研究在内,它影响了许多后来强化学习的工作。Michie一直在不断强调试错学习作为人工智能领域基本部分的重要性。

Widrow、Gupta和Maitra修改了Widrow和Hoff的最小均方误差(Least-Mean-Square,LMS)算法,以建立一种强化学习规则,其可以从成功和失败信号中而不是从训练例子中学习。他们称这种学习形式为“选择性引导适应”,并将其描述为“向评论家学习",而不是“向老师学习"。他们分析了这条规则,并展示了如何学会玩二十一点纸牌游戏。这是Widrow对强化学习研究的一次单独的尝试,他本人对有监督学习的贡献在学界更有影响力。我们使用的“评判器"(critic)这个术语就是从Widrow、Gupta和Maitra的论文中衍生出来的。Buchanan、Mitchell、Smith和Johnson在机器学习文章中独立使用了“评判器"这个术语,但对他们来说,评判器不止可以做性能评估,它是一个有更多用处的专家系统。

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022

http://www.lryc.cn/news/208051.html

相关文章:

  • 移动端ViT新利器!苹果提出稀疏专家混合模型Mobile V-MoEs
  • 【linux系统】服务器安装Pycharm
  • 便利连锁:如何增加收益?教你一招轻松搞定!
  • STM32-程序占用内存大小计算
  • 鱼眼图像去畸变python / c++
  • 文心一言简单体验
  • css正确的语法
  • 【PG】PostgresSQL角色管理
  • 百度智能云获评Forrester中国市场人工智能/机器学习平台领导者
  • 基于java+swing+mysql实现的仓库商品管理系统
  • 深入理解Spring Boot AOP:CGLIB代理与JDK动态代理的完全指南
  • 【无标题】读书笔记之《智能化社会:未来人们如何生活、相爱和思考》
  • 华为云双十一服务器数据中心带宽全动态BGP和静态BGP区别
  • STM32 HAL库串口使用printf
  • 【VPX610】 青翼科技基于6U VPX总线架构的高性能实时信号处理平台
  • Parity 战略转型引热议,将如何推动波卡生态去中心化?
  • 【TES641】基于VU13P FPGA的4路FMC接口基带信号处理平台
  • Spring Kafka生产者实现
  • 手把手教你入门Three.js(初识篇)
  • Hadoop学习总结(搭建Hadoop集群(伪分布式模式))
  • 人性与理性共赢,真心罐头跃过增长的山海关
  • 【Redis】Docker部署Redis数据库
  • 【目标跟踪】多目标跟踪测距
  • 吐血整理,服务端性能测试-Docker部署MySQL/Nginx(详细步骤)
  • 基于单片机设计的智能窗帘控制系统
  • WSL的秘钥被修改了要怎么弄
  • cesium开发引入方式
  • 无缝的链间互操作性:通用消息传递的强大之处
  • minio + linux + docker + spring boot实现文件上传与下载
  • vue ant DatePicker 日期选择器 限制日期可控范围