当前位置: 首页 > news >正文

强化学习代码实战(3) --- 寻找真我

前言

      本文内容来自于南京大学郭宪老师在博文视点学院录制的视频,课程仅9元地址,配套书籍为深入浅出强化学习 编程实战 郭宪地址。

正文

      我们发现多臂赌博机执行一个动作之后,无论是选择摇臂1,摇臂2,还是摇臂3之后都会返回原来的状态,也就是说它的状态并没有改变,而右边的寻金币游戏,从1到2,智能体执行动作之后位置(状态)发生了变化,而强化学习就是寻找当前状态下最优的动作,或者说不同状态下最优动作合集(策略)。

从下图右可以看出,P和R都和s,a有关系,无模型就是因为缺P和R。

     

       实际应用中,对于游戏一般用截取的图像信息作为s,但通常不能只用一帧图像作为s,比如说在大小球的游戏中,一帧图像,无法判断小球移动方向和球速,最起码要两帧,在实际应用中,为了提高精确度,一般用四帧图像作为s。AlphaGo中用过去八手双方棋局作为状态。

 动作的定义

策略的定义:策略就是给定状态s时,动作集上的分布,比方说,找金币,智能体在状态5时,采用确定性策略,此时向西走概率为1,向其他方向为0,为改状态下的动作概率分布。

值函数定义:就是在策略Π下,智能体从状态s出发,用采用策略Π的累计回报的期望,简单理解,从状态s出发,不同的选择函数(策略,该策略是动作选择策略),会选择不同的动作,转移到不同的状态,最后会找到很多条路径(s,a),选则累计回报最大的路径。

值函数和行为值函数的区别:值函数只和s有关,行为值函数和s,a相关。但两者都是对策略Π的度量。

我们看一下寻找梦中的他游戏的环境设置,

状态空间:对下图进行10×10的网格划分也就是说会有100个不同的状态空间,所以最多会遍历100步,

动作空间:有上下左右四个选择

状态转移概率:此处主要说一下,鸳鸯在碰到障碍物时,不会移动到障碍物位置,而是继续保持原本状态,同样在即将出界时,也是保持原本状态。比方说,向东连续走两个格,第三个格有障碍物,不会移动到障碍物位置,而是保持原本位置不变。

立即回报:碰到障碍物时回报为-1,找到他时回报为1,正常移动回报为0

策略表示:使用了词典函数(待理解)

值函数:设置了10×10的矩阵,对应一百个表格(属于表格型强化学习)

环境渲染用到了pygame包,使用时共三个步骤

1.获取当前图片所在目录

2.获取图片文件名

3.下载图片,并转换成surface对象

最后要继续使用pygame绘制窗口

1.display.set_mode:绘制窗口幕布

2.blit:图片显示在窗口中

3.display.update:幕布更新函数

代码可从视频链接自取

参考文献

1.深入浅出强化学习 编程实战 郭宪

2. 博文视点学院

http://www.lryc.cn/news/205823.html

相关文章:

  • SA+ST表维护height+单调队列维护:CF1073G
  • Java中JVM、JRE和JDK三者有什么区别和联系?
  • 秋季期中考复现xj
  • 【代码随想录】算法训练营 第十四天 第六章 二叉树 Part 1
  • 【访问控制】—>《熟练使用ACL进行上网行为管理》
  • MySQL外键,表与表的关系,多表查询,Navicat软件
  • Linux系统镜像备忘
  • Docker容器端口在主机的映射
  • Spring Boot中RedisTemplate的使用
  • GSCoolink GSV6183 带嵌入式MCU的MIPI D-PHY 转 DP/eDP
  • Linux文件系统 struct dentry 结构体解析
  • C++——vector
  • html5语义化标签
  • SQL Server批量删除数据库中的表
  • 使用SecScanC2构建P2P去中心化网络实现反溯源
  • 【API篇】七、Flink窗口
  • 软件测试面试1000问(含文档)
  • 进阶课4——随机森林
  • 【Docker】Dockerfile使用技巧
  • 一招解决“请在微信客户端中打开链接”
  • Python循环语句(一)
  • 期中考核复现
  • 基于XML的Web服务Java接口(JAX-WS)、Jakarta XML Web Services Eclipse 实现
  • 公网无信号区域远程抄表问题解决方案及产品选型
  • lunar-1.5.jar
  • c++编译使用log4cplus
  • zookeeper源码(02)源码编译启动及idea导入
  • Github 2FA绑定中国+86手机号码实现两步验证
  • windows安装mysql-8.0.35
  • 最详细STM32,cubeMX串口发送,接收数据