当前位置: 首页 > news >正文

论文笔记 <交通灯> IntelliLight:一种用于智能交通灯控制的强化学习方法

今天读的是IntelliLight:一种用于智能交通灯控制的强化学习方法,其核心创新点在于解决了传统方法在​​真实动态交通环境​​下的不足,并通过​​模型结构优化​​和​​训练机制改进​​提升性能。

讲解一下我认为的创新点:

传统方法的缺陷​​:固定时序控制(Fixed-time)和基于规则的方法(如SOTL)无法适应动态交通流;已有强化学习方法大多在仿真环境中测试,未考虑真实交通的复杂性和样本不平衡问题。

  • 关键挑战​​:
    • ​环境表征​​:如何有效融合交通状态(车流位置、等待时间等)和信号灯相位(Phase)。
    • ​决策偏差​​:相同车流条件下,不同相位需不同决策,但传统DQN将相位作为普通特征,导致决策混淆。
    • ​样本不平衡​​:真实交通中不同相位-动作组合出现频率差异大,影响训练稳定性。

为了解决相位决策混淆问题,他这里有的一个创新方法:​

​(1) Phase Gate(相位门控):
主要就是面对不同的相位(如东西向绿灯 P=0 或南北向绿灯 P=1)激活不同的全连接层分支。

他的输入特征为:融合图像特征(CNN提取车流位置) + 传统特征(排队长度 L、等待时间 W、车辆数 V、相位 P)。

效果就是相同车流下,不同相位能够触发独立决策逻辑,避免错误动作(如该保持相位时误切换)。

还有就是面对真实交通中样本不平衡问题(如某些相位-动作组合样本稀少)毕竟强化学习只是在仿真里面训练,面对真实环境还有差距。

他提出的创新方法为:

(2)Memory Palace(记忆宫殿)​:

他为为每个相位-动作组合(如 (P=0, a=保持)(P=1, a=切换))建立独立记忆池。这样就能够保证训练时从各记忆池​​均匀采样​​,确保低频组合不被忽略。

这样能提升模型对罕见交通场景的适应能力,减少决策偏差。

面对仿真和真实环境的差距,他使用真实数据来训练。

(3) 真实数据驱动的训练与评估

使用济南市 ​​1,704个摄像头​​ 的31天真实数据(4.05亿条车辆记录),覆盖动态交通流(高峰/非高峰、工作日/周末)。

并且他的奖励函数可以参考下:

奖励 = w1*总排队长度 + w2*总等待时间 + w3*信号切换惩罚 + w4*总延误 + w5*通过车辆数 + w6*总通行时间

还有就是他的状态表示:

使用图像特征和传统特征:

图像特征:车流位置矩阵 M → CNN提取空间信息。

传统特征:各车道排队长度 L_i、车辆数 V_i、平均等待时间 W_i、当前相位 P_c、下一相位 P_n

​动作空间为​二值决策(a=0 保持当前相位,a=1 切换相位)

​训练框架​​:分为​​离线阶段​​:用固定时序策略收集初始样本。和​​在线阶段​​:ε-贪婪策略交互更新(ε=0.05),定期从记忆宫殿采样更新DQN。

总结:
我认为以后比赛最值得尝试的就是他的相位门控机制,能够解决状态-动作混淆问题。

还有记忆宫殿,分桶存储样本解决不平衡问题,能够提升鲁棒性。

http://www.lryc.cn/news/571427.html

相关文章:

  • 2025年- H82-Lc190--322.零钱兑换(动态规划)--Java版
  • 海康威视GigE工业相机的python调用demo
  • 2.8 获取IMU数据与航向锁定
  • Kafka 4.0.0集群部署
  • 二十四、【用户管理与权限 - 篇六】前端动态展现:基于权限的菜单与按钮控制
  • Leetcode-​2537. 统计好子数组的数目​
  • SALMONN-omni论文阅读
  • Datawhale YOLO Master 第1次笔记
  • 利用Enigma Virtual Box将QT生成的软件打包成一个exe可执行文件
  • 第100+42步 ChatGPT学习:R语言实现阈值调整
  • uniapp + vite + ts出现红色波浪线,各种ts报错
  • LeetCode--33.搜索旋转排序数组
  • 探秘KingbaseES在线体验平台:技术盛宴还是虚有其表?
  • List、Queue、Deque、Stack常用方法总结
  • 论文笔记:Trajectory generation: a survey on methods and techniques
  • DELL R730XD服务器调整风扇转速
  • python+uniapp微信小程序的共享雨伞租赁系统
  • [特殊字符]华为总部参观预约|企业通道揭秘
  • MySQL 中 DISTINCT 去重的核心注意事项详解
  • MSPM0G3507学习笔记(二) 超便捷配置led与按键
  • ffmpeg webm 透明通道视频转成rgba图片
  • 基于最新豆包大模型1.6实现 ArXiv Paper Reading MCP与Agent构建
  • C++ map代码练习 1、2、priority_queue基础概念、对象创建、数据插入、获取堆顶、出队操作、大小操作,自定义结构、代码练习 1 2
  • 电机及驱动器的安全、性能和能效认证
  • 02 ( chrome 浏览器插件, 立马翻译), 搭建本地 api
  • c++学习-多态
  • MacOS上MySQL的安装以及使用
  • 【编译工具】CodeRider 2.0:驭码 CodeRider 2.0 产品功能分析
  • 【电力电子】基于STM32F103C8T6单片机双极性SPWM逆变(软件篇)(二)
  • RK 安卓10/11平台 HDMI-IN 调试