当前位置: 首页 > news >正文

深度强化学习DLR

1 强化学习基础知识

强化学习过程:⾸先环境(Env)会给智能体(Agent)⼀个状态(State),智能体接收到环境给的观测值之后会做出⼀个动作(Action),环境接收到智能体给的动作之后会做出⼀系列的反应,例如对这个动作给予⼀个奖励(Reward),以及给出⼀个新的状态S。这是⼀个反复与环境进⾏交互,不断试错⼜不断进步的过程。

智能体Agent:执行任务的角色。
环境Env:任务的环境。
状态State:角色和环境所处的状态。
动作Action:角色在当前状态下做出的动作。
奖励Reward:环境根据角色的动作给出的反馈。
回报Return:未来奖励Reward的加权累计。
随机策略函数π(a∣s)\pi(a|s)π(as):在状态S下在动作空间随机抽样给出动作a。
动作价值函数Qπ(s∣a)Q_\pi(s|a)Qπ(sa):给当前状态S下的动作打分,使用Q∗(s∣a)Q_*(s|a)Q(sa)得出分数最高的动作a。
强化学习
强化学习分类:
1.价值学习Q*(s|a):给状态S下各种动作打分,选择价值最大的最优动作a。——Deep Q Network(DQN) 与 Q Learning 与 SARSA
2.策略学习π(a|s):在状态S随机概率抽样给出a。——策略网络Policy Network
3.价值学习+策略学习:Actor-Critic method 与 Advantage Actor-Critic——AC算法 与 A2C算法

在这里插入图片描述

2 价值学习

http://www.lryc.cn/news/26656.html

相关文章:

  • Android Handler机制(四) Message源码分析
  • 【Git】git命令(全)
  • 软考论文-成本管理(1)
  • Java 多线程 --- 锁的概念和类型划分
  • python程序员狂飙上头——京海市大嫂单推人做个日历不过分吧?
  • 浅谈子网掩码、IP地址、网络地址之间关系
  • 前端优化的解决方案
  • PYthon组合数据类型的简单使用
  • 【Java】P2 基础语法与运算符
  • 【并发基础】Java中线程的创建和运行以及相关源码分析
  • Spark Shuffle
  • Linux/MacOS 生成双击可执行文件
  • Ubuntu三种拨号方法
  • Vue-router的引入和安装
  • 无线WiFi安全渗透与攻防(四)之kismet的使用
  • 2023新版PMP考试有哪些变化?
  • P8074 [COCI2009-2010#7] SVEMIR 最小生成树
  • 10种常见网站安全攻击手段及防御方法
  • 为什么我选择收费的AdsPower指纹浏览器?
  • Java输入输出和数组
  • 这些免费API帮你快速开发,工作效率杠杠滴
  • 干货|最全PCB布线教程总结,14条PCB布线原则技巧,保姆级搞定PCB布线
  • 编程快捷键和markdown语法小计
  • 内网vCenter部署教程二,最全的了!
  • 2023-3-2 刷题情况
  • Docker SYS_ADMIN 权限容器逃逸
  • 【Kotlin】 yyyy-MM-dd HH:mm:ss 时间格式 时间戳 全面解读超详细
  • git repack多包使用及相关性能测试
  • QT获取dll库文件详细信息
  • 常见的电脑运行卡顿原因及解决方法