当前位置: 首页 > news >正文

强化学习理论基础:从Q-learning到PPO的算法演进(2)

文章目录

  • Policy gradient思想(REINFORCE算法)
  • 优势函数
  • PPO(Proximal Policy Optimization)


Policy gradient思想(REINFORCE算法)

在这里插入图片描述

下面我们来探讨一下Policy gradient策略,也就是REINFORCE算法。

在玩剪刀石头布这个简单的游戏中,我们可以有不同的策略。一种是完全随机地出,毫无规律;另一种是根据对手上一轮出的来决定自己这一轮出什么。但是,我们如何去判断哪种策略更好呢?

这就需要引入两个重要概念:“轨迹”和“轨迹的回报期望”。

轨迹可以表示为S0,a1,r1,S1,a2,r2,S2……它记录了游戏过程中的状态、行动和获得的回报。

而轨迹的回报期望则用公式来表示为:

J (

http://www.lryc.cn/news/576166.html

相关文章:

  • openGL学习(基本窗口)
  • [ linux-系统 ] 磁盘与文件系统
  • 【论文阅读 | CVPR 2025 |MambaVision:一种混合 Mamba-Transformer 视觉骨干网络】
  • 2025.6.27总结
  • 机器人 URDF学习笔记
  • Windows 10 ARM64平台CAN程序开发
  • 飞凌A40i使用笔记
  • React中的ErrorBoundary
  • 【Yonghong 企业日常问题08 】永洪BI的Apache Tomcat版本升级指南
  • 【CV数据集介绍-40】Cityscapes 数据集:助力自动驾驶的语义分割神器
  • 攻防世界-MISC-Cephalopod
  • gemini-cli 踩坑实录
  • ARM64 linux系统的一般执行过程
  • C++ 函数特性详解:默认参数、重载、引用与指针区别
  • Flutter 网络请求指南, 从 iOS 到 Flutter 的 Dio + Retrofit 组合
  • 《聊一聊ZXDoc》之汽车服务导向SOME/IP
  • 【k近邻】 K-Nearest Neighbors算法原理及流程
  • 在shell中直接调用使用R
  • 远眺科技工业园区数字孪生方案,如何实现智能管理升级?
  • 告别堡垒机和VPN!Teleport:下一代基础设施统一访问入口
  • CTP IC失效现象和失效原理分析
  • 利用python实现NBA数据可视化
  • np.concatenate
  • 【C/C++】C++26新特性前瞻:全面解析未来编程
  • ​​Oracle表空间全景指南:从扩容监控到碎片回收的终极实践​
  • 车载诊断架构--- 车载诊断中的引导式诊断
  • 人工智能-基础篇-3-什么是深度学习?(DL,卷积神经网络CNN,循环神经网络RNN,Transformer等)
  • 第六章 STM32内存管理
  • 学习接口自动化框架pytest有哪些好处?
  • 小程序 API 开发手册:从入门到高级应用一网打尽