当前位置：首页 > news >正文

VPG算法

news 2025/6/28 17:26:23

VPG算法

前言

首先来看经典的策略梯度REINFORCE算法：

在这里插入图片描述

在REINFORCE中，每次采集一个episode的轨迹，计算每一步动作的回报 $G_t$ ，与动作概率对数相乘，作为误差反向传播，有以下几个特点：

每个时间步更新一次参数
只有策略网络，没有价值网络
计算 $G$ 时，仅仅采样了一条轨迹
一般来说，计算 $G$ 时，从最后的时间步开始往前计算，这是为了节省计算量
$G$ 实际上类似于 $Q$ 函数，因为 $Q$ 函数就是动作价值回报的期望

VPG算法

全称：Vanilla Policy Gradient，但是属于Actor-Critic算法，因为它既有策略网络，又有价值网络

每个episode更新一次参数
上述伪代码中，计算 $G$ 时，采样了多个轨迹
一般来说，计算 $G$ 时，从最后的时间步开始往前计算，这是为了节省计算量
Reward-to-go：即折扣因子 $\gamma=1$ ， $G_t=\hat{R}_t=r_t+r_{t+1}+\ldots+r_T$ ， $T$ 为episode的长度
通常为 $\hat{A}_t$ 引入baseline，以减小方差，提升训练稳定性

$\hat{A}_t=\hat{R}_t-V_{\phi_k}$

比较

/	REINFORCE	VPG
价值网络	无	有
参数更新	每个时间步	每个episode
回报	有折扣	无折扣
采样轨迹	一条	多条
baseline	无	有

http://www.lryc.cn/news/152642.html

相关文章：

docker 笔记5：redis 集群分布式存储案例

【Vue2】 axios库

云计算 - 百度AIStudio使用小结

刷新你对Redis持久化的认知

Greenplum-最佳实践小结

从Gamma空间改为Linear空间会导致性能下降吗

双轨制的发展，弊端和前景

生成对抗网络（GAN）：在图像生成和修复中的应用

扬杰科技携手企企通，召开SRM采购供应链协同系统项目启动会

AtCoder Beginner Contest 318

《Python魔法大冒险》003 两个神奇的魔法工具

每日一题-动态规划(从不同类型的物品中各挑选一个，使得最后花费总和等于1000)

2023-9-3 试除法判定质数

【Apollo学习笔记】——规划模块TASK之RULE_BASED_STOP_DECIDER

【SpringBoot】最基础的项目架构（SpringBoot+Mybatis-plus+lombok+knife4j+hutool）

RNN 单元：分析 GRU 方程与 LSTM，以及何时选择 RNN 而不是变压器

Linux音频了解

精心整理了优秀的GitHub开源项目，包含前端、后端、AI人工智能、游戏、黑客工具、网络工具、AI医疗等等，空闲的时候方便看看提高自己的视野

Leetcode54螺旋矩阵

element-plus 表格-方法、事件、属性的使用

NVME Linux的查询命令-继续更新

pyqt5-自定义文本域1

Go实现LogCollect：海量日志收集系统【上篇——LogAgent实现】

MR混合现实汽车维修情景实训教学演示

ChatGPT在航空航天工程和太空探索中的潜在应用如何？

算法基础第三章

ElementUI浅尝辄止20：Pagination 分页

Docker从认识到实践再到底层原理（二-1）｜容器技术发展史+虚拟化容器概念和简介

什么是大模型？1750亿、700GB的GPT大模型大在哪？