当前位置: 首页 > news >正文

PPO算法-理论篇

1. Policy Gradient

【李宏毅深度强化学习笔记】1、策略梯度方法(Policy Gradient)
李宏毅深度强化学习-B站

2. PPO

PPO 算法

PPO算法更新过程如下:

  • 初始化policy参数 θ 0 \theta^0 θ0
  • 在每一步迭代中:
    • 使用 θ k \theta^k θk与环境交互来收集数据 { s t , a t } \{s_t, a_t\} {st,at},然后计算优势函数 A θ k ( s t , a t ) A^{\theta^{k}}(s_t, a_t) Aθk(st,at) θ k \theta^k θk是前一轮迭代得到的参数
    • 优化目标函数 J P P O ( θ ) J_{PPO}(\theta) JPPO(θ),注意这里与policy gradient 不同,更新完参数可以继续训练,一直优化该目标函数,但是policy gradient更新完参数后必须重新采样

policy gradient 应该是每个mini batch更新参数后就要重新采样,而PPO可以跑完一个epoch再重新采样
在这里插入图片描述

http://www.lryc.cn/news/60578.html

相关文章:

  • 【现货】AP6317 同步3A锂电充电芯片 带短温度保护
  • MyBatis详解(2)
  • 2023-04-14 使用纯JS实现一个2048小游戏
  • C++入门(3)
  • 【亲测有效】更新了WIN11之后 右键无 新建WORD,PPT,EXCEL 选项 问题 解决方案
  • 2023年4月北京/西安/郑州/深圳CDGA/CDGP数据治理认证考试报名
  • Win10桌面我的电脑怎么调出来?最简单方法教学
  • 开启单细胞及空间组学行业发展黄金时代!首届国际单细胞及空间组学大会在穗闭幕
  • YOLOv8 更换主干网络之 GhostNetV2
  • 高级服务框架(黑马)
  • Go语言面试题--基础语法(29)
  • 毕业生招聘信息的发布与管理系统(论文+设计)
  • mysql安全加固配置文档(完结)
  • CAPL函数在实现AES加密算法时遇到的各种问题(c++中符号的含义,AES算法中padding的问题等)
  • 二叉排序树(二叉查找树)基本操作_20230417
  • 实现服务器版本的表白墙
  • TensorFlow 2 和 Keras 高级深度学习:6~10
  • unity,制作一个环状滑动条
  • 2023-04-17 算法面试中常见的树和递归问题
  • 3分钟通过日志定位bug,这个技能测试人必须会
  • 【论文总结】V-Shuttle:可扩展和语义感知的 Hypervisor 虚拟设备模糊测试
  • 一篇文章让你搞懂TypeScript中的typeof()、keyof()是什么意思
  • 【机会约束、鲁棒优化】机会约束和鲁棒优化研究优化【ccDCOPF】研究(Matlab代码实现)
  • 4月想跳槽的同学,没有更好的选择,可以去美团
  • 从输入url到页面展现(一)从浏览器解析url开始
  • 购物 · 礼物
  • 可视化图表API格式要求有哪些?Sugar BI详细代码示例(2)
  • 153. 寻找旋转排序数组中的最小值
  • Linux 文件描述符
  • 第17章_反射机制