当前位置：首页 > news >正文

强化学习（1）

news 2025/8/4 2:49:47

Reinforcement Learning

Goal-directed learing from ineraction with the environment.

1. Basic Element 基本元素

1.1 Agent 玩家

1.2 Environment

1.3 Goal

2. Main Element 主要元素

2.1 State

2.2 Action

状态与行为往复

2.3 Reward

目标：最大化总的奖励

3. Core Element 核心元素

3.1 Policy

当前状态采取怎样行动？策略函数！！！

3.2 Value

state value状态价值函数 -> 实数（将来所有奖励期望值）
state-action value状态行动价值函数 -> 实数
在这里插入图片描述

3. Trial and Error 试错 / Delayed Reward 延迟奖励

行动可能有价值无奖励

4. Exploitation 利用 / Exploration探索

利用价值最高行动

5. K-armed Bandit 多臂老虎机（不存在延迟奖励）

6. Error 误差，基于误差的学习方法

Sample Average(样本平均):
在这里插入图片描述

OOXX游戏

查看全文

http://www.lryc.cn/news/513221.html

【漏洞复现】金和OA C6 FileDownLoad.aspx 任意文件读取漏洞复现

开源模型应用落地-qwen2-7b-instruct-LoRA微调-Axolotl-单机多卡-RTX 4090双卡（七）

Dockerfile 构建继承父镜像的 ENTRYPOINT 和 CMD

46. Three.js案例-创建颜色不断变化的立方体模型

Linux系统离线部署MySQL详细教程（带每步骤图文教程）

【数据仓库】hive on Tez配置

Kubernetes Gateway API-3-TLS配置

C++ 设计模式：原型模式（Prototype Pattern）

计算机网络（12）物理层下面的传输媒体

SpringCloud 系列教程：微服务的未来（三）IService接口的业务实现

测试带宽上行方法

天天跳绳（？？？）

module ‘django.db.models‘ has no attribute ‘FieldDoesNotExist‘

智能工厂的设计软件应用场景的一个例子：为AI聊天工具添加一个知识系统之10 方案再探之1：特定于领域的模板之1 随想交流

Excel将混乱的多行做成1列

Django项目部署到服务器

SpringBoot集成Flowable

大模型从零开始——预训练之分词 Tokenization

Python下载包缓慢时怎么修改镜像源

每日一练 | 时延和抖动

嵌入式开发之使用 FileZilla 在 Windows 和 Ubuntu 之间传文件

腾势D9风光不再？中期改款能否及时“救火”

OpenCV-Python实战（11）——边缘检测

【智行安全】基于Synaptics SL1680的AI疲劳驾驶检测方案

机器学习随机森林回归时间序列预模型中时间滑动窗口作用以及参数设置

【Rust自学】7.5. use关键字 Pt.2 ：重导入与换国内镜像源教程