当前位置：首页 > news >正文

深度强化学习算法的参数更新时机

news 2025/8/4 12:35:43

深度强化学习算法的参数更新时机

深度强化学习中往往涉及到多个神经网络来拟合策略函数、值函数等，什么时候更新参数因算法而异，与具体算法架构/算法思想紧密相关。

算法	参数更新时机	架构
DQN	先收集一定经验，然后每步更新	Off Policy Value-Based
DDPG	先收集一定经验，然后每步更新	Off Policy Actor-Critic
TD3	先收集一定经验，然后每步更新	Off Policy Actor-Critic
SAC	先收集一定经验，然后每步更新	Off Policy Actor-Critic
REINFORCE	每步更新	On Policy Policy Gradient
VPG	每个episode更新一次	On Policy Actor-Critic
A2C/A3C	每步更新	On Policy Actor-Critic
PPO	每个episode采集结束后，集中抽样更新多次	On Policy Actor-Critic
TRPO	每个episode采集结束后，集中抽样更新多次	On Policy Actor-Critic

http://www.lryc.cn/news/161388.html

相关文章：

【进阶篇】MySQL的MVCC实现机制详解

Git 命令行查看仓库信息

【爬虫】8.1. 深度使用tesseract-OCR技术识别图形验证码

【PythonRS】基于GDAL修改栅格数据的DN值

mysql课堂笔记 mac

2023年数学建模国赛A 定日镜场的优化设计思路分析

【QT】QMessageBox消息框的使用（16）

XL-LightHouse 与 Flink 和 ClickHouse 流式大数据统计系统

【postgresql 基础入门】创建数据库的方法，存储位置，决定自己的数据的访问用户和范围

科技云报道：AI时代，对构建云安全提出了哪些新要求？

如何让 Llama2、通义千问开源大语言模型快速跑在函数计算上？

Linux内核源码分析 (B.2)虚拟地址空间布局架构

Spring系列文章：Spring使用JdbcTemplate

[matlab]cvx安装后测试代码

【css】margin：auot什么情况下失效

linux的dirty page回写磁盘过程中是否允许并发写入更新page？

Docker-基础命令使用

【Python 程序设计】Python 中的类型提示【06/8】

78 # koa 中间件的实现

国产操作系统麒麟v10中遇到的一些问题

Gridea+GitPage+Gittalk 搭建个人博客

代码质量保障第2讲：单元测试 - 浅谈单元测试

“五度晟企通”企业发展服务平台正式发布，帮扶企业行稳致远！

Java类和对象（七千字详解！！！带你彻底理解类和对象）

机器学习笔记：node2vec（论文笔记：node2vec: Scalable Feature Learning for Networks）

go基础10 -字符串的高效构造与转换

VR钢铁实训 | 铁前事业部虚拟仿真培训软件

IJ中PHP环境的搭建和使用教程

java开发之个人微信的二次开发