当前位置: 首页 > article >正文

Diffusion Planner:扩散模型重塑自动驾驶路径规划(ICLR‘25)

1. 概述

2025年2月14日,清华大学AIR智能产业研究院联合毫末智行、中科院自动化所和香港中文大学团队,在ICLR 2025会议上发布了Diffusion Planner——一种创新性的基于Diffusion Transformer的自动驾驶规划模型架构。该系统联合建模周车运动预测与自车行为规划,显著提升了复杂场景下的决策效率与稳定性,克服了传统学习方法对后处理的依赖,推动了自动驾驶系统从“黑盒生成”走向“可控可调”的新时代。

  • 项目地址:https://zhengyinan-air.github.io/Diffusion-Planner/

2. 核心技术

在这里插入图片描述

该算法创新性地设计了基于 Diffusion Transformer 的自动驾驶规划模型架构,高效处理复杂场景输入,并联合建模周车运动预测与自车规划中的多模态驾驶行为,充分发挥扩散模型在闭环规划中的潜力,解决了现有基于学习的规划方法对后处理的严重依赖问题。此外,借助扩散模型的引导机制,模型在部署阶段能够灵活适应不同的驾驶需求,提高泛化能力与实用性。

2.1 轨迹生成为核心建模任务

  • 将自车规划与周车运动预测统一为 未来轨迹生成任务;
  • 以协同建模的方式模拟多车交互行为,捕捉动态交通环境中的 自然协同行为模式;
  • 避免传统多阶段预测+规划框架中的信息割裂和误差累积问题。

2.2. 基于 Diffusion Transformer 的生成式轨迹建模

  • 架构核心为 Diffusion Transformer(DiT),融合扩散建模与注意力机制;
  • 采用扩散模型的前向加噪与反向去噪过程生成未来轨迹;
  • 具备强建模能力,适应复杂多模态交通行为。

2.3 多源感知输入结构化表达

  • 使用轻量级编码器提取以下环境感知数据:
    • 周车历史轨迹与当前状态;
    • 道路拓扑结构与静态障碍物;
    • 目标导航信息;
  • 通过 交叉注意力机制 与加噪后的初始轨迹进行深度融合,提升轨迹生成准确性。

2.4. 起始状态引导

  • 避免模型复现已有历史轨迹,破坏规划多样性;
  • 仅使用 自车当前位姿(位置+朝向) 与周车当前状态,拼接进初始轨迹;
  • 提供有效初态引导,减轻去噪任务难度,提升 闭环执行稳定性。

2.5. 扩散引导机制,偏好可控轨迹生成

  • 在测试/部署阶段引入可控目标(如安全性、舒适性、速度偏好等);
  • 多偏好通过 加权组合方式灵活调控;
  • 可启用/禁用偏好机制以适配不同场景需求,提升策略灵活性与适应性。

3. 商业前景

  • Robotaxi 和 Robo-Logistics(无人货运):复杂城市场景下对灵活轨迹生成的刚需;
  • 乘用车辅助驾驶系统(L2+ / L3):需要高安全、稳定、可调控的规划策略;
  • 智能交通系统(ITS)仿真平台:用于城市交通建模与仿真;
  • 自适应路径规划机器人:在城市配送、园区清洁、巡检等场景中部署。
http://www.lryc.cn/news/2395639.html

相关文章:

  • 华为OD机试真题——阿里巴巴找黄金宝箱 IV(2025A卷:200分)Java/python/JavaScript/C++/C语言/GO六种最佳实现
  • 数据结构:时间复杂度(Time Complexity)和空间复杂度(Space Complexity)
  • CentOS7.9环境离线部署docker和docker-compose的两种方式
  • 北京大学肖臻老师《区块链技术与应用》公开课:06-BTC-网络
  • SSL/TLS 协议详解:安全通信的基石
  • 设计模式——外观设计模式(结构型)
  • Linux `vi/vim` 编辑器深度解析与高阶应用指南
  • ES中must与filter的区别
  • qt之开发大恒usb3.0相机三
  • Transformer架构详解:从Attention到ChatGPT
  • 数据中台(大数据平台)之数据安全管理
  • github双重验证密码忘记或者获取不了了怎么办
  • 告别复杂操作!电脑极简风格计时使用
  • stm32cube ide如何将工具链替换成arm-none-eabi-gcc
  • [STM32问题解决(2)]STM32通过串口与PC通信,打开串口助手后无法在打开状态下下载程序和复位STM32
  • RabbitMQ 与其他 MQ 的对比分析:Kafka/RocketMQ 选型指南(二)
  • OpenHarmony定制系统组合按键(一)
  • ORDER BY子句在一个 SQL 查询中只能出现一次
  • Spring Boot 3 整合 MQ 构建聊天消息存储系统
  • DeepSeek实战:打造智能数据分析与可视化系统
  • 非线性声学计算与强化学习融合框架:突破复杂环境人机交互的新技术
  • C++ - STL #什么是STL #STL的版本 #闭源开源 #STL的六大组件
  • Flutter - 原生交互 - 相机Camera - 01
  • 湖北理元理律师事务所:个人债务管理的温度与精度
  • Compose原理 - 整体架构与主流程
  • 从0开始学vue:实现一个简单页面
  • 在机器视觉测量和机器视觉定位中,棋盘格标定如何影响精度
  • CppCon 2014 学习: C++ Test-driven Development
  • RAGflow详解及实战指南
  • JWT 不对外,Session ID 对外:构建安全可控的微服务认证架构