当前位置：首页 > news >正文

强化学习概述

news 2025/9/9 11:47:22

一、Modelfree 和 Modelbased
Modelfree：不需要理解环境
Modelbased：需要理解环境，并且为环境建立模型

Model-free 中, 机器人只能按部就班, 一步一步等待真实世界的反馈, 再根据反馈采取下一步行动. 而 model-based, 他能通过想象来预判断接下来将要发生的所有情况. 然后选择这些想象情况中最好的那种. 并依据这种情况来采取下一步的策略, 这也就是 围棋场上 AlphaGo 能够超越人类的原因.

二、基于策略和基于价值
基于策略：目标为找到最佳的策略
基于价值：目标为最大化价值

我们现在说的动作都是一个一个不连续的动作, 而对于选取连续的动作, 基于价值的方法是无能为力的. 我们却能用一个概率分布在连续动作中选取特定动作, 这也是基于概率的方法的优点之一.

三、回合更新和单步更新
回合更新：一局游戏更新一次
单步更新：每一步更新一次
四、在线学习和离线学习
在线学习：学习过程中必须和真是环境进行交互
离线学习：学习过程中只和历史数据进行交互

所谓在线学习, 就是指我必须本人在场, 并且一定是本人边玩边学习, 而离线学习是你可以选择自己玩, 也可以选择看着别人玩, 通过看别人玩来学习别人的行为准则, 离线学习 同样是从过往的经验中学习, 但是这些过往的经历没必要是自己的经历, 任何人的经历都能被学习.

查看全文

http://www.lryc.cn/news/13171.html

软件测试简历个人技能和项目经验怎么写？（附项目资料）

2023年全国最新交安安全员精选真题及答案1

chrome插件开发备忘录

实例1：控制树莓派板载LED灯闪烁

华为OD机试题 - 最大排列（JavaScript）

手动创建 vue2 ssr 开发环境

RHCE-操作系统刻录工具

PHP面向对象01：面向对象基础

《爆肝整理》保姆级系列教程python接口自动化（十八）--重定向（Location）（详解）

MySQL的索引、视图

【JavaWeb】网络层协议——IP协议

相关文章：