当前位置: 首页 > news >正文

强化学习核心概念与公式总结

强化学习核心概念与公式总结

1. 核心概念

1.1 智能体(Agent)和环境(Environment)

  • 智能体:学习和做决策的实体
  • 环境:智能体交互的外部系统

1.2 状态(State)

  • 描述环境在特定时刻的情况

1.3 动作(Action)

  • 智能体可以执行的操作

1.4 奖励(Reward)

  • 环境对智能体动作的即时反馈

1.5 策略(Policy)

  • 定义智能体在给定状态下应采取的动作

1.6 价值函数(Value Function)

  • 评估状态或动作的长期价值

1.7 Q函数(Q-function)

  • 特殊的价值函数,评估状态-动作对的价值

1.8 探索与利用(Exploration vs Exploitation)

  • 在尝试新动作和利用已知好动作之间取得平衡

1.9 回合(Episode)

  • 从初始状态到终止状态的完整交互序列

1.10 折扣因子(Discount Factor)

  • 决定未来奖励的重要性

2. 关键公式

2.1 策略(Policy)

确定性策略

a = π ( s ) a = \pi(s) a=π(s)

随机策略

π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \pi(a|s) = P(A_t = a | S_t = s) π(as)=P(At=aSt=s)

2.2 价值函数(Value Function)

状态价值函数

V π ( s ) = E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s ] V_\pi(s) = \mathbb{E}_\pi[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s] Vπ(s)=Eπ[k=0γkRt+k+1St=s]

动作价值函数(Q函数)

Q π ( s , a ) = E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s , A t = a ] Q_\pi(s,a) = \mathbb{E}_\pi[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s, A_t = a] Qπ

http://www.lryc.cn/news/451143.html

相关文章:

  • 基础算法--双指针【概念+图解+题解+解释】
  • 国产化系统/鸿蒙开发足浴店收银源码-收缩左侧———未来之窗行业应用跨平台架构
  • 如何从硬盘恢复丢失/删除的视频
  • 《Effective C++》第三版——设计与声明(1)
  • 数值计算的程序设计问题举例
  • Java之方法的使用
  • sudo 命令:掌握系统权限控制,实现安全高效管理
  • AndroidStudio导入so文件
  • Kuebernetes 群集基于 Docker 部署
  • 追随 HarmonyOS NEXT,Solon v3.0 将在10月8日发布
  • 服装时尚与动漫游戏的跨界联动:创新运营与策划策略研究
  • Redis中String类型的常用命令(append,getrenge,setrange等命令)
  • 深度拆解:如何在Facebook上做跨境电商?
  • 为啥数据需转换成tensor才能参与后续建模训练
  • leetcode:380. O(1) 时间插入、删除和获取随机元素
  • Linux集群部署RabbitMQ
  • 01DSP学习-了解DSP外设-以逆变器控制为例
  • 【ArcGIS Pro实操第三期】多模式道路网构建(Multi-model road network construction)原理及实操案例
  • 深度学习基础及技巧
  • Unity 外描边简单实现(Shader Graph)
  • text2sql方法:NatSQL和DIN-SQL
  • 【新闻转载】Storm-0501:勒索软件攻击扩展到混合云环境
  • RabbitMQ 队列之战:Classic 和 Quorum 的性能洞察
  • Spring Boot 集成 MySQL 的详细指南
  • python格式化输入输出
  • 音视频入门基础:FLV专题(10)——Script Tag实例分析
  • 国外问卷调查匠哥已经不带人了,但是还可以交流
  • Linux 进程的基本概念及描述
  • 【C++】透过STL源代码深度剖析vector的底层
  • ubuntu 开启root