当前位置：首页 > news >正文

强化学习核心概念与公式总结

news 2025/7/26 19:57:27

强化学习核心概念与公式总结

1. 核心概念

1.1 智能体(Agent)和环境(Environment)

智能体：学习和做决策的实体
环境：智能体交互的外部系统

1.2 状态(State)

描述环境在特定时刻的情况

1.3 动作(Action)

智能体可以执行的操作

1.4 奖励(Reward)

环境对智能体动作的即时反馈

1.5 策略(Policy)

定义智能体在给定状态下应采取的动作

1.6 价值函数(Value Function)

评估状态或动作的长期价值

1.7 Q函数(Q-function)

特殊的价值函数，评估状态-动作对的价值

1.8 探索与利用(Exploration vs Exploitation)

在尝试新动作和利用已知好动作之间取得平衡

1.9 回合(Episode)

从初始状态到终止状态的完整交互序列

1.10 折扣因子(Discount Factor)

决定未来奖励的重要性

2. 关键公式

2.1 策略(Policy)

确定性策略

$\pi(s)$

随机策略

$\pi(a|s) = P(A_t = a | S_t = s)$

2.2 价值函数(Value Function)

状态价值函数

$V_\pi(s) = \mathbb{E}_\pi[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s]$

动作价值函数(Q函数)

$Q_\pi(s,a) = \mathbb{E}_\pi[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s, A_t = a]$

查看全文

http://www.lryc.cn/news/451143.html

基础算法--双指针【概念＋图解＋题解＋解释】

国产化系统/鸿蒙开发足浴店收银源码-收缩左侧———未来之窗行业应用跨平台架构

如何从硬盘恢复丢失/删除的视频

《Effective C++》第三版——设计与声明（1）

数值计算的程序设计问题举例

Java之方法的使用

sudo 命令：掌握系统权限控制，实现安全高效管理

AndroidStudio导入so文件

Kuebernetes 群集基于 Docker 部署

追随 HarmonyOS NEXT，Solon v3.0 将在10月8日发布

服装时尚与动漫游戏的跨界联动：创新运营与策划策略研究

Redis中String类型的常用命令(append,getrenge,setrange等命令)

深度拆解：如何在Facebook上做跨境电商？

为啥数据需转换成tensor才能参与后续建模训练

leetcode:380. O(1) 时间插入、删除和获取随机元素

Linux集群部署RabbitMQ

01DSP学习-了解DSP外设-以逆变器控制为例

【ArcGIS Pro实操第三期】多模式道路网构建（Multi-model road network construction）原理及实操案例

深度学习基础及技巧

Unity 外描边简单实现（Shader Graph）

text2sql方法：NatSQL和DIN-SQL

【新闻转载】Storm-0501：勒索软件攻击扩展到混合云环境

RabbitMQ 队列之战：Classic 和 Quorum 的性能洞察

Spring Boot 集成 MySQL 的详细指南

python格式化输入输出

音视频入门基础：FLV专题（10）——Script Tag实例分析

国外问卷调查匠哥已经不带人了，但是还可以交流

Linux 进程的基本概念及描述

【C++】透过STL源代码深度剖析vector的底层

ubuntu 开启root

强化学习核心概念与公式总结

1. 核心概念

1.1 智能体(Agent)和环境(Environment)

1.2 状态(State)

1.3 动作(Action)

1.4 奖励(Reward)

1.5 策略(Policy)

1.6 价值函数(Value Function)

1.7 Q函数(Q-function)

1.8 探索与利用(Exploration vs Exploitation)

1.9 回合(Episode)

1.10 折扣因子(Discount Factor)

2. 关键公式

2.1 策略(Policy)

确定性策略

随机策略

2.2 价值函数(Value Function)

状态价值函数

动作价值函数(Q函数)

相关文章：