当前位置：首页 > news >正文

强化学习笔记7——DDPG到TD3

news 2025/8/22 11:15:11

前提：基于TD 的方法多少都会有高估问题，即Q值偏大。原因两个：一、TD目标是真实动作的高估。二：自举法高估。
在这里插入图片描述

DDPG 属于AC方法：异策略，适合连续动作空间，因为他的策略网络直接输出的动作，是向量就表示执行的动作。
而之前的PPO是输出动作的均值和方差，DQN 等输出每个动作的概率

在这里插入图片描述 ################## ### ###################相当于 TDerror 的两部分用两个网络预测 ###################### ########

TD3参考

TD3 相比DDPG 改进其实就是针对不稳定、高估问题，加了两个策略网络和价值网络。即targetNet 和 mainNet ,和之前DQN的做法很像。

针对 Critic网络预测Q 偏大问题，设置两个Critic 同时估计Q ，然后选择小的那一个Q再做error

http://www.lryc.cn/news/538328.html

相关文章：

win10 系统自定义Ollama安装路径及模型下载位置

-bash:/usr/bin/rm: Argument list too long 解决办法

内容中台重构企业内容管理流程驱动智能协作升级

python实现YouTube关键词爬虫（2025/02/11）

【效率技巧】怎么做思维导图||数学思维||费曼学习法

LabVIEW与USB设备开发

动态规划LeetCode-416.分割等和子集

云原生（五十五） | ECS中自建数据库迁移到RDS

【吾爱出品】视频批量分段工具

HTML【详解】input 标签

二叉搜索树的实现（C++）

vue2老版本 npm install 安装失败_安装卡主

【MySQL】索引篇

Arduino 第十六章：pir红外人体传感器练习

鸿蒙面试题

Rust 语言入门(一）：打印与格式化输出

vue3.x 的 toRef详细解读

wordpress资讯类网站整站打包

GitHub基本操作及Git简单命令

记一次MySQL故障解决

DeepSeek-R1私有化部署教程 | Linux服务器搭建AI大语言模型

「软件设计模式」桥接模式（Bridge Pattern）

【Flink快速入门-5.流处理之多流转换算子】

react传递函数与回调函数原理

华为云kubernetes基于keda自动伸缩deployment副本（监听redis队列长度）

Spring源码分析のBean扫描流程

Ubuntu安装docker：docker-desktop : 依赖: docker-ce-cli 但无法安装它、无法定位软件包 docker-ce-cli

基于大数据的奥运会获奖数据分析系统设计与实现

数据结构堆和priority_queue

Dockerfile 编写推荐