当前位置: 首页 > news >正文

深度强化学习算法的参数更新时机

深度强化学习算法的参数更新时机

深度强化学习中往往涉及到多个神经网络来拟合策略函数、值函数等,什么时候更新参数因算法而异,与具体算法架构/算法思想紧密相关。

算法参数更新时机架构
DQN先收集一定经验,然后每步更新Off Policy Value-Based
DDPG先收集一定经验,然后每步更新Off Policy Actor-Critic
TD3先收集一定经验,然后每步更新Off Policy Actor-Critic
SAC先收集一定经验,然后每步更新Off Policy Actor-Critic
REINFORCE每步更新On Policy Policy Gradient
VPG每个episode更新一次On Policy Actor-Critic
A2C/A3C每步更新On Policy Actor-Critic
PPO每个episode采集结束后,集中抽样更新多次On Policy Actor-Critic
TRPO每个episode采集结束后,集中抽样更新多次On Policy Actor-Critic
http://www.lryc.cn/news/161388.html

相关文章:

  • 【进阶篇】MySQL的MVCC实现机制详解
  • Git 命令行查看仓库信息
  • 【爬虫】8.1. 深度使用tesseract-OCR技术识别图形验证码
  • 【PythonRS】基于GDAL修改栅格数据的DN值
  • mysql课堂笔记 mac
  • 2023年数学建模国赛A 定日镜场的优化设计思路分析
  • 【QT】QMessageBox消息框的使用(16)
  • XL-LightHouse 与 Flink 和 ClickHouse 流式大数据统计系统
  • 【postgresql 基础入门】创建数据库的方法,存储位置,决定自己的数据的访问用户和范围
  • 科技云报道:AI时代,对构建云安全提出了哪些新要求?
  • 如何让 Llama2、通义千问开源大语言模型快速跑在函数计算上?
  • Linux内核源码分析 (B.2)虚拟地址空间布局架构
  • Spring系列文章:Spring使用JdbcTemplate
  • [matlab]cvx安装后测试代码
  • 【css】margin:auot什么情况下失效
  • linux的dirty page回写磁盘过程中是否允许并发写入更新page?
  • Docker-基础命令使用
  • 【Python 程序设计】Python 中的类型提示【06/8】
  • 78 # koa 中间件的实现
  • 国产操作系统麒麟v10中遇到的一些问题
  • Gridea+GitPage+Gittalk 搭建个人博客
  • 代码质量保障第2讲:单元测试 - 浅谈单元测试
  • “五度晟企通”企业发展服务平台正式发布,帮扶企业行稳致远!
  • Java类和对象(七千字详解!!!带你彻底理解类和对象)
  • 机器学习笔记:node2vec(论文笔记:node2vec: Scalable Feature Learning for Networks)
  • go基础10 -字符串的高效构造与转换
  • VR钢铁实训 | 铁前事业部虚拟仿真培训软件
  • DevOps
  • IJ中PHP环境的搭建和使用教程
  • java开发之个人微信的二次开发