当前位置: 首页 > news >正文

VPG算法

VPG算法

前言

首先来看经典的策略梯度REINFORCE算法:

在这里插入图片描述

在REINFORCE中,每次采集一个episode的轨迹,计算每一步动作的回报 G t G_t Gt,与动作概率对数相乘,作为误差反向传播,有以下几个特点:

  • 每个时间步更新一次参数
  • 只有策略网络,没有价值网络
  • 计算 G G G时,仅仅采样了一条轨迹
  • 一般来说,计算 G G G时,从最后的时间步开始往前计算,这是为了节省计算量
  • G G G实际上类似于 Q Q Q函数,因为 Q Q Q函数就是动作价值回报的期望

VPG算法

全称:Vanilla Policy Gradient,但是属于Actor-Critic算法,因为它既有策略网络,又有价值网络

  • 每个episode更新一次参数
  • 上述伪代码中,计算 G G G时,采样了多个轨迹
  • 一般来说,计算 G G G时,从最后的时间步开始往前计算,这是为了节省计算量
  • Reward-to-go:即折扣因子 γ = 1 \gamma=1 γ=1 G t = R ^ t = r t + r t + 1 + … + r T G_t=\hat{R}_t=r_t+r_{t+1}+\ldots+r_T Gt=R^t=rt+rt+1++rT T T T为episode的长度
  • 通常为 A ^ t \hat{A}_t A^t引入baseline,以减小方差,提升训练稳定性

A ^ t = R ^ t − V ϕ k \hat{A}_t=\hat{R}_t-V_{\phi_k} A^t=R^tVϕk

比较

/REINFORCEVPG
价值网络
参数更新每个时间步每个episode
回报有折扣无折扣
采样轨迹一条多条
baseline
http://www.lryc.cn/news/152642.html

相关文章:

  • docker 笔记5:redis 集群分布式存储案例
  • 【Vue2】 axios库
  • 云计算 - 百度AIStudio使用小结
  • 刷新你对Redis持久化的认知
  • Greenplum-最佳实践小结
  • 从Gamma空间改为Linear空间会导致性能下降吗
  • 双轨制的发展,弊端和前景
  • 生成对抗网络(GAN):在图像生成和修复中的应用
  • 扬杰科技携手企企通,召开SRM采购供应链协同系统项目启动会
  • AtCoder Beginner Contest 318
  • 《Python魔法大冒险》003 两个神奇的魔法工具
  • 每日一题-动态规划(从不同类型的物品中各挑选一个,使得最后花费总和等于1000)
  • 2023-9-3 试除法判定质数
  • 【Apollo学习笔记】——规划模块TASK之RULE_BASED_STOP_DECIDER
  • 【SpringBoot】最基础的项目架构(SpringBoot+Mybatis-plus+lombok+knife4j+hutool)
  • RNN 单元:分析 GRU 方程与 LSTM,以及何时选择 RNN 而不是变压器
  • Linux音频了解
  • 精心整理了优秀的GitHub开源项目,包含前端、后端、AI人工智能、游戏、黑客工具、网络工具、AI医疗等等,空闲的时候方便看看提高自己的视野
  • Leetcode54螺旋矩阵
  • element-plus 表格-方法、事件、属性的使用
  • NVME Linux的查询命令-继续更新
  • pyqt5-自定义文本域1
  • Go实现LogCollect:海量日志收集系统【上篇——LogAgent实现】
  • MySQL (1)
  • MR混合现实汽车维修情景实训教学演示
  • ChatGPT在航空航天工程和太空探索中的潜在应用如何?
  • 算法基础第三章
  • ElementUI浅尝辄止20:Pagination 分页
  • Docker从认识到实践再到底层原理(二-1)|容器技术发展史+虚拟化容器概念和简介
  • 什么是大模型?1750亿、700GB的GPT大模型大在哪?