当前位置：首页 > news >正文

无人驾驶实战-第十二课（强化学习自动驾驶系统）（完）

news 2025/7/12 15:26:32

在七月算法上报了《无人驾驶实战》课程，老师讲的真好。好记性不如烂笔头，记录一下学习内容。课程入口，感兴趣的也可以跟着学一下。

—————————————————————————————————————————

强化学习：通过和环境交互学习到如何在相应环境中采取最优策略的行为。特点是不需要标注，具有鲁棒性，对行为(Action)的学习更友好。

Environment：整体任务的工作环境

Reward：激励、奖励，对行为好坏的一个评价，Value Function，不同环境可以有不同的奖励，奖励的设计对RL来说至关重要。

Agent：智能体，一般是RL的作用对象

Action：智能体可以采取的所有可能的行动

Sensors：环境返回的当前情况

MDP模型：马尔科夫决策过程

逆强化学习：能够找到一种能够高效可靠的Reward的方法，专家在完成某项任务时，其决策往往是最优或接近最优的。当所有的策略所产生的累积回报期望都不比专家策略所产生的累积回报期望大时，对应的回报函数就是根据示例学到的回报函数。

常用的逆强化学习方法：学徒学习方法、最大边际规划算法MMP、基于最大熵的逆向强化学习

模仿学习：从专家提供的范例中学习，一般提供人类专家的决策数据，每个决策包含状态和动作序列，把状态作为特征，动作作为标记进行分类或回归的学习从而得到最优策略模型。目标是使模型生成的状态-动作轨迹分布和输入的轨迹分布相匹配，算是一种监督学习方法（行为克隆）。特点是泛化性很差，依赖于大量数据数据增广

深度学习：感知能力，缺乏一定的决策能力

强化学习：决策能力，非常适合做无人车决策规划

强化学习中的一些分类：On-Policy vs Off-Policy、Model Based vs Model Free、Q-Learning vs SARSA、

DQN（Deep Q Network）端到端的学习方式、深度卷积神经网络和Q学习、经验回放技术；

DDPG（Deep Deterministic Policy Gradient ） actor-critic 算法、深度神经网络作为逼近器；

强化学习主要方法的对比

无人车如何使用强化学习（模仿学习）

传感器感知（输入）：Radar、Lidar、GPS、Camera … ，从原始数据抽取高阶特征，机器学习将特征转化成知识，知识处理后进行推理；做出合理的动作决策。

Q-Learning

Q-Table为每一个 state 上进行的每一个 action 计算出最大的未来 reward 的期望，每个状态允许四种可能的操作：左移、右移、上移、下移， Table 里的参数式给定最佳策略的状态下采取相应动作获得的最大未来奖励期望

如何计算 Q-table 中每个元素的值？

Q-Learning、学习动作值函数（Q值）、Bellman 方程

更新Q值的策略

选取一个动作：在基于当前的 Q 值估计得出的状态 state 下选择一个动作 action。采用动作 action 并且观察输出的状态 s' 和奖励 reward。

DQN

4个Action：上下左右，每走一步有reward，Maximum 未来的 Reward总和

Q-Learning：使用最佳策略使得最大化未来的Reward值（Q值），Off-policy，持续迭代更新每步(s, a) 。

Exploration vs Exploitation（探索和使用）：局部最优（贪心），初始的时候对信息一无所知

持续更新(S, A) 是Q-Learning的最大问题，因为低效，泛化能力差，对复杂问题维数爆炸，所以后面使用Deep Learning代替Q-Table

DeepMind在这方面发表了文章在Nature上

如何训练DQN？

1.给定状态转移方式；2.在状态s用前向推理计算所有Action的预测Q值；3.前向推理下一步s’及其最大Q’值；4.并用Loss function进行梯度更新

经验回放：提高数据利用率，遗忘数据流顺序（加入随机性）

课程总结

自动驾驶工程师技能图谱

http://www.lryc.cn/news/120980.html

相关文章：

【flask sqlalchmey】一次性将返回的列表对象或者一行数据对象转成dict---flask-sqlalchemy输出json格式数据

goland插件推荐Rider UI Theme Pack

人工智能面试常识-10

Android JNI开发从0到1，java调C，C调Java，保姆级教程详解

STM32基于CubeIDE和HAL库基础入门学习笔记：功能驱动与应用

创建型模式 (Creational Patterns) 玄子Share 设计模式 GOF 全23种 + 七大设计原则

【脚踢数据结构】队列（顺序和链式）

linux添加磁盘

图片懒加载

scope,deep穿透的实际应用

Multipass虚拟机设置局域网固定IP同时实现快速openshell的链接

Webpack5 core-js和babel-loader区别和用法

软考高级架构师——5、系统规划分析与设计方法

区块链学习6-长安链部署:如何创建特定共识节点数和同步节点数的链

北航基于openEuler构建工业机器人操作系统，打造“开箱即用”的机器人基础软件平台

孤儿进程与僵尸进程

redis的基础命令01

批量将excel文件合并

关于Vue与服务器端的通信：如何实现登录鉴权

GrapeCity Documents for Excel, .NET Crack

wordpress网站Ajax留言评论+自定义评论字段

AJAX-笔记（持续更新中）

模板复用和文章详情页（Go搭建qiucode.cn 之七）

Android 使用SQLite的案例详解

linux 命令--查看网络端口命令

python一个请求chatgpt3.5模型例子

数据结构：栈的实现(C实现)

v-md-editor自定义锚点（生成目录）数组转树结构

java 11 新特效解读（2）

linux patch 和 git patch