当前位置: 首页 > news >正文

【强化学习】MDP马尔科夫链

基本元素

  • 状态集:表示智能体所处所有状态的全部可能性的集合。类似的集合,行为集,回报集
  • 决策:规定我在某个状态下,我做出某个action
  • 马尔可夫链:学术上来说是无记忆性质。说白了就是我只在乎我目前的状态。比如说我有一个trajectory,他走到了某个状态s1.那我只关心他目前已经到了s1,并且我考虑的也只有s1这个状态,至于他怎么到的s1我不关心。也就是跟到s1的过去无关,所以叫无记忆性质。

例子

迷宫游戏
用迷宫游戏很好理解。游戏规则就是我需要走到S9蓝色位置,黄色位置都是墙不能走。然后我每一个位置我都可以上下左右不动,五种操作。然后目标就是我尽量越短越好。
首先需要对环境进行抽象,环境很简单,我目前棋子处于哪个位置。所以state就是棋盘上的位置。然后按照规则,行为就是上下左右不动。
决策就是指规定了每一个位置应该做出那个action。
决策
然后决策微观一点来看,就是规定我在某个状态需要进行如何action,所以我关心的是我在这个state需要往哪走,而不会关心我怎么来的到了这个state。所以这个就具备了这个马尔可夫的性质。
至于怎么找到最优的决策这不是我要关心的。但每一个决策都具备这个马尔科夫的这个性质。
MDP可以理解为如此。只要我的决策确定下来了,那么就规定了我一个状态我需要做那个行动转移到另外一个状态。并且我的这个action只参照于我所处的状态。

http://www.lryc.cn/news/153163.html

相关文章:

  • SpringBoot自写项目记录
  • Windows10上使用llama-recipes(LoRA)来对llama-2-7b做fine-tune
  • 06-限流策略有哪些,滑动窗口算法和令牌桶区别,使用场景?【Java面试题总结】
  • 2021年06月 C/C++(六级)真题解析#中国电子学会#全国青少年软件编程等级考试
  • Tuxera NTFS for Mac2023苹果电脑Mac硬盘读写工具
  • 系统调用的过程
  • Python将多个文件的名称或后缀名由大写字母修改为小写的方法
  • Debezium的三种部署方式
  • 通讯协议057——全网独有的OPC HDA知识一之接口(十二)IOPCHDA_DataCallback
  • 后端SpringBoot+前端Vue前后端分离的项目(一)
  • docker 安装 MySQL5.7
  • 分布式session的4种解决方案
  • SQL Server2008下载地址
  • MySQL函数和约束
  • 关于一个git的更新使用流程
  • vue 对后端返回字段值为null的变成空字符串
  • C++,菱形继承和虚继承
  • js实现一行半文本的截取
  • 计算一个区间时间差值,时间保留剩下的差值
  • uniapp 微信小程序添加隐私保护指引
  • 行业追踪,2023-08-30
  • Redis——》Redis的部署方式对分布式锁的影响
  • VTK——使用包围盒切割医学图像
  • 在工具提示中使用自绘修改字体
  • 【Git管理工具】使用Docker部署GitLab服务器
  • 安装kali虚拟机镜像的坑
  • 【Android】TextView适配文本大小并保证中英文内容均在指定的UI 组件内部
  • 【力扣每日一题】2023.8.31 一个图中连通三元组的最小度数
  • C语言--volatile
  • 技术深入解析与教程:网络安全技术探秘