当前位置: 首页 > news >正文

张伟楠动手学强化学习笔记|第一讲(上)

张伟楠动手学强化学习笔记|第一讲(上)

在这里插入图片描述
在这里插入图片描述

人工智能的两种任务类型

  • 预测型任务
    • 有监督学习
    • 无监督学习
  • 决策型任务
    • 强化学习
      在这里插入图片描述

序贯决策(Sequential Decision Making)

智能体序贯地做出一个个决策,并接续看到新的观测,知道最终任务结束
max ⁡ π E π , E n v [ ∑ t = 0 T γ t r ( s t , a t ) ] \max_{\pi} \mathbb{E}_{\pi,Env}[\sum_{t=0}^{T}\gamma^{t}r(s_t,a_t)] πmaxEπ,Env[t=0Tγtr(st,at)]

强化学习的定义

通过交互学习来实现目标的计算方法

在这里插入图片描述

三个方面

  • 感知:可以某种程度上感知环境的状态
  • 动作:可以采取动作来影响状态或者达到目标
  • 目标:随着时间推移最大化累计奖励

交互过程

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

http://www.lryc.cn/news/496559.html

相关文章:

  • python脚本:Word文档批量转PDF格式
  • 性能测试常见面试问题和答案
  • uniapp进阶技巧:如何优雅地封装request实例
  • 实验五、流式视频服务程序mjpg-streamer移植实验
  • (长期更新)《零基础入门 ArcGIS(ArcMap) 》实验三----学校选址与路径规划(超超超详细!!!)
  • L16.【LeetCode笔记】前序遍历
  • 泰州榉之乡全托机构探讨:自闭症并非家庭的 “末日”
  • BiGRU:双向门控循环单元在序列处理中的深度探索
  • 【vue-router】Vue-router如何实现路由懒加载
  • Linux网络编程基础
  • MySQL中的幻读问题
  • AI后端工程师面试题的内容
  • MFC工控项目实例三十五读取数据库数据
  • OpenWrt -制作ubifs文件系统的固件
  • C++ - 继承
  • 华为服务器使用U盘重装系统
  • 网络分层模型( OSI、TCP/IP、五层协议)
  • 前端开发 之 15个页面加载特效上【附完整源码】
  • Spring Boot使用JDK 21虚拟线程
  • 《从0到1常用Map集合核心摘要 + 不深不浅底层核心》
  • 12 设计模式之工厂方法模式
  • spaCy 入门与实战:强大的自然语言处理库
  • python包的管理和安装——笔记
  • Vue前端页面内嵌套本项目iframe窗口的通信传输方式
  • 【WEB开发.js】addEventListener事件监听器的绑定和执行次数的问题(小心踩坑)
  • 用于LiDAR测量的1.58um单芯片MOPA(一)
  • 【GPT】代谢概念解读
  • Devops-git篇-01-git环境配置
  • STM32 HAL库开发学习1.STM32CubeMX 新建工程
  • JS学习(2)(浏览器执行JS过程、JS的ECMAScript、DOM、BOM)