当前位置: 首页 > article >正文

强化学习入门:马尔科夫奖励过程二

文章目录

  • 前言
  • 1、动作
  • 2、策略
  • 总结


前言

 最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教。本次阅读书籍为:马克西姆的《深度强化学习实践》
 限于篇幅原因,请读者首先看下历史文章:马尔科夫奖励过程

1、动作

  在上篇博客中,介绍了强化学习中的价值和回报概念。其中,回报就是当前t时刻,在将来所获得所有奖励和;而状态的价值则是回报的期望。
 但我们希望智能体能够自主的选择动作,从而决定怎样得到最大的奖励和回报。因此,需要在马尔科夫奖励过程中,新引入一个N*N的动作矩阵,其中第i行第j列表示智能体选择从状态i到状态j所采取的动作。
 
 如上图所示:此时MDP可以用一个三维矩阵表示:其中每个元素表示在给定动作k情况下,i->j的转移概率。

2、策略

 现在你的马尔科夫奖励已经包含了:转移概率、奖励、动作。但要想得到一个聪明的智能体,需要找到一个模型,让其能够聪明的选择什么样的动作,进而得到最大回报。比如:训狗,最终希望狗子能够听话不护食。
 其实抽象出来就是一个优化问题,交给智能体一种什么样策略,才能够训练好这个智能体。因为策略好多,如何才能教给智能体选择合适策略才是至关重要的。
 策略定义就是每个可能状态下的动作概率分布
π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \pi(a|s) = P(A_t=a|S_t=s) π(as)=P(At=aSt=s)
 解释下上述公式含义:左边表示状态s条件下,采取动作a的概率分布。注意这里是概率分布,因此公式右边用的大写的P。之所以是概率分布,而不是具体动作,是希望给智能体行为引入随机性。

总结

 总结下强化学习用到的术语:首先有状态空间S、状态概率转移矩阵、奖励、回报是奖励的期望,动作矩阵,策略则是动作的概率分布。最终希望得到一个聪明的智能体,让其能够学会选择好的策略,进而得到最大的回报。

http://www.lryc.cn/news/2378819.html

相关文章:

  • JVM 双亲委派机制
  • uniapp -- uCharts 仪表盘刻度显示 0.9999999 这样的值问题处理。
  • BGP团体属性
  • Redis——三大策略
  • Windows 操作系统使用 Tcping 命令检查目标主机端口是否开放
  • 序列化和反序列化:从理论到实践的全方位指南
  • PDF Base64格式字符串转换为PDF文件临时文件
  • 开源RTOS(实时操作系统):nuttx 编译
  • python打包exe报错:处理文件时错误:Excel xlsx file; not supported
  • VUE3 -综合实践(Mock+Axios+ElementPlus)
  • NDS3211HV单路H.264/HEVC/HD视频编码器
  • LeetCode热题100--206.反转链表--简单
  • 来一个复古的技术FTP
  • OpenCV CUDA模块中矩阵操作------分布统计类
  • OpenWebUI新突破,MCPO框架解锁MCP工具新玩法
  • go.mod关于go版本异常的处理
  • TRTC实时对话式AI解决方案,助力人机语音交互极致体验
  • Linux安全篇 --firewalld
  • 系分论文《论系统需求分析方法及应用》
  • LIIGO ❤️ RUST: 12 YEARS
  • SQL、Oracle 和 SQL Server 的比较与分析
  • Trivy:让你时刻掌控的开源安全扫描器
  • LlamaIndex 第八篇 MilvusVectorStore
  • 2022河南CCPC(前四题)
  • 谷歌浏览器(Google Chrome)136.0.7103.93便携增强版|Win中文|安装教程
  • 高可用消息队列实战:AWS SQS 在分布式系统中的核心解决方案
  • 「Mac畅玩AIGC与多模态41」开发篇36 - 用 ArkTS 构建聚合搜索前端页面
  • springCloud/Alibaba常用中间件之Seata分布式事务
  • Datawhale FastAPI Web框架5月第1次笔记
  • 操作系统:os概述