当前位置: 首页 > news >正文

强化学习概述

一、Modelfree 和 Modelbased
Modelfree:不需要理解环境
Modelbased:需要理解环境,并且为环境建立模型

Model-free 中, 机器人只能按部就班, 一步一步等待真实世界的反馈, 再根据反馈采取下一步行动. 而 model-based, 他能通过想象来预判断接下来将要发生的所有情况. 然后选择这些想象情况中最好的那种. 并依据这种情况来采取下一步的策略, 这也就是 围棋场上 AlphaGo 能够超越人类的原因.

二、基于策略 和 基于价值
基于策略:目标为找到最佳的策略
基于价值:目标为最大化价值

我们现在说的动作都是一个一个不连续的动作, 而对于选取连续的动作, 基于价值的方法是无能为力的. 我们却能用一个概率分布在连续动作中选取特定动作, 这也是基于概率的方法的优点之一. 

三、回合更新 和 单步更新
回合更新:一局游戏更新一次
单步更新:每一步更新一次
四、在线学习 和 离线学习
在线学习:学习过程中必须和真是环境进行交互
离线学习:学习过程中只和历史数据进行交互

所谓在线学习, 就是指我必须本人在场, 并且一定是本人边玩边学习, 而离线学习是你可以选择自己玩, 也可以选择看着别人玩, 通过看别人玩来学习别人的行为准则, 离线学习 同样是从过往的经验中学习, 但是这些过往的经历没必要是自己的经历, 任何人的经历都能被学习.
http://www.lryc.cn/news/13171.html

相关文章:

  • NO.1嵌入式入门笔记:常用命令记录
  • Shell编程
  • 网络模型OSI
  • RT-Thread初识学习-01
  • 二阶段提交事务的实现和缺点
  • 定点数的表示和运算
  • java虚拟机内存分布
  • 最完整的小红书带货笔记——垂直模式
  • SpringBoot实战——个人博客项目
  • 浅谈Spring中事务管理器
  • Python练习系统
  • Transformer学习笔记1
  • 软件测试简历个人技能和项目经验怎么写?(附项目资料)
  • C语言运算符优先级和结合性一览表
  • Java8介绍
  • Java 基准测试
  • 普通护照出国免签及落地签国家和地区
  • 20230219 质心和重心的区别和性质
  • maven多环境配置
  • 设计模式之中介模式与解释器模式详解和应用
  • 2023年全国最新交安安全员精选真题及答案1
  • chrome插件开发备忘录
  • 实例1:控制树莓派板载LED灯闪烁
  • 华为OD机试题 - 最大排列(JavaScript)
  • 手动创建 vue2 ssr 开发环境
  • RHCE-操作系统刻录工具
  • PHP面向对象01:面向对象基础
  • 《爆肝整理》保姆级系列教程python接口自动化(十八)--重定向(Location)(详解)
  • MySQL的索引、视图
  • 【JavaWeb】网络层协议——IP协议