当前位置: 首页 > news >正文

李宏毅深度强化学习入门笔记:PPO

李宏毅-深度强化学习-入门笔记:PPO

网课链接:https://www.bilibili.com/video/BV1XP4y1d7Bk/?p=4

一、Policy Gradient

(一)基本元素

在这里插入图片描述

(二)Policy of Actor

1. Policy π \pi π 是带有参数 θ \theta θ 的 network

输入:表示机器观测的一个向量或矩阵
输出:在输出层与动作相关的神经元
在这里插入图片描述

2. 例子:运行流程

在这里插入图片描述
在这里插入图片描述

(三)Actor, Environment, Reward

1. 轨迹 τ \tau τ 的概率

在这里插入图片描述

2. 计算总的 reward 的期望

在这里插入图片描述

3. Policy Gradient

在这里插入图片描述
在这里插入图片描述

4. Tip

Tip 1:add a baseline
在这里插入图片描述
Tip 2:Assign suitable credit
在这里插入图片描述

二、On-policy 到 Off-policy

(一)On-policy VS Off-policy

on-policy:跟环境互动的 agent 跟要学习的 agent 是同一个
off-policy:跟环境互动的 agent 跟要学习的 agent 不是同一个

(二)On-policy → Off-policy

如果想要在 p 做互动,但又不能跟 p 做互动,可以把 p 换成 q 进行实验。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

三、增加 constraint:PPO / TRPO

1. 如果 p θ p_\theta pθ p θ ′ p'_\theta pθ 相差太多,importance sampling 的结果会不好时,可用 PPO 解决。

2. PPO vs TRPO

PPO 的前身是 TRPO,二者不同之处在于 K L ( θ , θ ′ ) KL(\theta, \theta') KL(θ,θ)
在这里插入图片描述
在这里插入图片描述
K L ( θ , θ ′ ) KL(\theta, \theta') KL(θ,θ) 衡量 θ \theta θ θ ′ \theta' θ 有多像,一般时越像越好的。
PPO 和 TRPO 结果看着似乎差不多,但在实践中,PPO 比 TRPO 容易得多。

3. PPO 算法

在这里插入图片描述
原论文代码:
在这里插入图片描述

4. PPO2 算法

在这里插入图片描述
当 A<B 时,cilp(A,B,C) = B
当 A>C 时,cilp(A,B,C) = C

PPO2 算法目的: p θ p^{\theta} pθ p θ ′ p^{\theta'} pθ 在优化后不要差距太大

5. PPO 效果

在这里插入图片描述

http://www.lryc.cn/news/505520.html

相关文章:

  • vue2项目中如何把rem设置为固定的100px
  • C++多线程常用方法
  • ubuntu+ros新手笔记(三):21讲没讲到的MoveIt2
  • Android Studio创建新项目并引入第三方so外部aar库驱动NFC读写器读写IC卡
  • window QT/C++ 与 lua交互(mingw + lua + LuaBridge + luasocket)
  • 中阳科技:量化模型驱动的智能交易革命
  • 电子应用设计方案-56:智能书柜系统方案设计
  • 宠物兔需要洗澡吗?
  • ubuntu升级python版本
  • 《Time Ghost》的制作:使用 DOTS ECS 制作更为复杂的大型环境
  • 详细描述一下 Elasticsearch 更新和删除文档的过程。
  • OpenCV与Qt5开发卡尺找圆工具
  • 【网络安全】Web Timing 和竞争条件攻击:揭开隐藏的攻击面
  • 分立器件---运算放大器关键参数
  • Stable Diffusion Controlnet常用控制类型解析与实战课程 4
  • Linux 本地编译安装 gcc9
  • SpringBoot 自定义事件
  • unity shader中的逐像素光源和逐顶点光源
  • MongoDB-副本集
  • 【图像处理lec7】图像恢复、去噪
  • C# 连接ClickHouse 数据库
  • 在安卓Android应用中实现二维码图像的保存与条形码文本合并
  • Vue3 重置ref或者reactive属性值
  • 深入理解STL list erase
  • 使用 Python 从 ROS Bag 中提取图像:详解与实现
  • MYSQL执行一条update语句,期间发生了什么
  • 前端性能优化思路
  • 有向图判环(leetcode207,leetcode210)
  • 概率论得学习和整理25:EXCEL 关于直方图/ 频度图 /hist图的细节,2种做hist图的方法
  • PHP8.4下webman直接使用topthink/think-orm