当前位置: 首页 > news >正文

第三篇:强化学习发展历史

你好,我是zhenguo(郭震)

这是强化学习第三篇,我们回顾一下它的发展历史:强化学习发展历史

强化学习作为一门研究领域,经历了多年的发展和演进。以下是强化学习的主要发展历史里程碑:

1950年代-1960年代

康奈尔大学的康奈尔Aeronautical Laboratory (CAL) 开展了早期的多智能体强化学习研究,研究目标是训练机器人进行学习和决策。

1970年代-1980年代

学习理论的发展奠定了强化学习的基础。Richard Sutton(他是大名鼎鼎的强化学习奠基人) 和Christopher Watkins等人提出了自适应动态规划(Adaptive Dynamic Programming)和Q-learning等基本方法。

b1119cab3f90213229133b541e80b7d7.png

Richard Sutton

1990年代-2000年代

强化学习的研究进入了新的阶段。

Christopher Watkins提出了基于差分学习的Q-learning算法,这被认为是现代强化学习的重要里程碑。

Ronald J. Williams引入了基于梯度的强化学习算法,即策略梯度方法,这为后来的进一步发展奠定了基础。

这里是Ronald曾经发过的论文:(需要手动复制到浏览器查看)

https://www.ccs.neu.edu/home/rjw/pubs.html

2010年代

通过深度神经网络的引入,强化学习得到了重大的推动和突破。

Deep Q-Network (DQN) 是由DeepMind提出的一种结合深度神经网络和Q-learning的算法,首次实现了在Atari游戏中超越人类水平的表现。

0aedb05caebc2e8d356c93201c0c6c76.png

Atari游戏

这一时期还涌现出许多重要的深度强化学习算法,如:

  • Deep Deterministic Policy Gradient (DDPG)

  • Proximal Policy Optimization (PPO)、

  • A3C (Asynchronous Advantage Actor-Critic)

2020年代至今

深度强化学习继续得到广泛关注和研究。研究者们致力于解决深度强化学习中的一些挑战,如样本效率、探索与利用的平衡、通用性和可解释性等问题。

在这一时期,强化学习也在现实世界中的应用领域取得了显著的进展,包括机器人控制、自动驾驶、资源管理、游戏智能等。

fd52036c0c1ff7082e36b97a05a83288.png

自动驾驶

总体而言,强化学习经历了从传统方法到深度学习方法的转变,并在理论和应用上取得了重大的突破。随着技术的不断发展和研究的深入,强化学习在解决复杂的决策问题和实现智能化系统方面将继续发挥重要的作用。

以上就是深度强化学习的发展历史总结。

你的点赞和转发,给我更新增加更大动力,感谢你的支持。

http://www.lryc.cn/news/69716.html

相关文章:

  • 如何学会战略性思维?
  • 设备采购信息管理系统
  • Puppeteer入门实践
  • 生成VLC 及其模块的全面帮助
  • 什么是客户自助服务门户及其搭建方法
  • 【5.19】三、白盒测试方法—逻辑覆盖法
  • Linux安装MySQL后无法通过IP地址访问处理方法
  • 使用Python实现Rest API指南
  • 【2023 · CANN训练营第一季】进阶班 应用开发深入讲解→模型推理
  • 单词分析问题
  • 3个月出国|材料科学老师自费赴韩国访学
  • MaaS来临,SaaS进入「奇点」时刻|产业深度
  • 课程分享:华清远见联合NXP推出i.MX8M Plus开发与实践课程,超干超实用!
  • idea将java程序打包为jar
  • 快速掌握Redis基础知识及使用技巧
  • C++控制台打飞机小游戏
  • Pinna的使用以及pinna的持续化存储(两种方法)
  • 开发中造成空指针的常见用法,如何避免
  • MySQL事务和索引
  • Kali工具集简介
  • 离散数学 | 图论 | 欧拉图 | 哈密顿图 | 割点 | 桥(欧拉图和哈密顿图有没有割点和桥?)
  • Android生命周期:理解与应用
  • 00后真的是内卷王中王,真的想离职了....
  • linux Fd以及重定向讲解
  • Moonbeam近日提案公投一览
  • 凝聚青年力量,打造数字化人才队伍
  • 蓝牙资讯|智能家居标准Matter 1.1 发布,智能家居产品兼容更丰富
  • Cube Map 系列之:手把手教你 实现天空盒(Sky Box)
  • 腾讯VS百度:在AI上下大赌注
  • 字节原来这么容易进,是面试官放水,还是公司实在是太缺人?