当前位置: 首页 > news >正文

强化学习笔记7——DDPG到TD3

前提:基于TD 的方法多少都会有高估问题,即Q值偏大。原因两个:一、TD目标是真实动作的高估。 二:自举法高估。
在这里插入图片描述

DDPG 属于AC方法:异策略,适合连续动作空间,因为他的策略网络直接输出的动作,是向量就表示执行的动作。
而之前的PPO是输出动作的均值和方差,DQN 等输出每个动作的概率

在这里插入图片描述在这里插入图片描述################## ### ###################相当于 TDerror 的两部分用两个网络预测 ###################### ########

TD3参考

TD3 相比DDPG 改进其实就是 针对不稳定、高估问题,加了两个策略网络和价值网络。即targetNet 和 mainNet ,和之前DQN的做法很像。
在这里插入图片描述
在这里插入图片描述

针对 Critic网络预测Q 偏大问题,设置两个Critic 同时估计Q ,然后选择小的那一个Q再做error

http://www.lryc.cn/news/538328.html

相关文章:

  • win10 系统 自定义Ollama安装路径 及模型下载位置
  • -bash:/usr/bin/rm: Argument list too long 解决办法
  • 内容中台重构企业内容管理流程驱动智能协作升级
  • python实现YouTube关键词爬虫(2025/02/11)
  • 【效率技巧】怎么做思维导图||数学思维||费曼学习法
  • LabVIEW与USB设备开发
  • 动态规划LeetCode-416.分割等和子集
  • 云原生(五十五) | ECS中自建数据库迁移到RDS
  • 【吾爱出品】 视频批量分段工具
  • HTML【详解】input 标签
  • 二叉搜索树的实现(C++)
  • vue2老版本 npm install 安装失败_安装卡主
  • 【MySQL】索引篇
  • Arduino 第十六章:pir红外人体传感器练习
  • 鸿蒙面试题
  • Rust 语言入门(一):打印与格式化输出
  • vue3.x 的 toRef详细解读
  • wordpress资讯类网站整站打包
  • GitHub基本操作及Git简单命令
  • 记一次MySQL故障解决
  • DeepSeek-R1私有化部署教程 | Linux服务器搭建AI大语言模型
  • 「软件设计模式」桥接模式(Bridge Pattern)
  • 【Flink快速入门-5.流处理之多流转换算子】
  • react传递函数与回调函数原理
  • 华为云kubernetes基于keda自动伸缩deployment副本(监听redis队列长度)
  • Spring源码分析のBean扫描流程
  • Ubuntu安装docker:docker-desktop : 依赖: docker-ce-cli 但无法安装它、无法定位软件包 docker-ce-cli
  • 基于大数据的奥运会获奖数据分析系统设计与实现
  • 数据结构 堆和priority_queue
  • Dockerfile 编写推荐