当前位置：首页 > news >正文

端到端自动驾驶：挑战与前沿

news 2025/7/13 8:27:58

端到端自动驾驶：挑战与前沿

End-to-End Autonomous Driving: Challenges and Frontiers

自动驾驶研究社区已见证了越来越多采用端到端算法框架的方法的快速增长，这些方法利用原始传感器输入生成车辆的运动规划，而不是专注于诸如检测和运动预测等单独任务。与模块化流程相比，端到端系统在感知与规划方面受益于联合特征优化。这一领域的发展得益于大规模数据集的可用性、闭环评估机制的发展，以及自动驾驶算法在复杂场景中表现能力的日益增长需求。在本综述中，我们对270余篇论文进行了全面分析，涵盖了端到端自动驾驶的研究动机、发展路线、方法体系、面临的挑战以及未来趋势。我们深入探讨了多个关键挑战，包括多模态、可解释性、因果混淆、鲁棒性和世界模型等。此外，我们还讨论了基础模型和视觉预训练的最新进展，以及如何将这些技术整合到端到端驾驶框架中。

一、引言

传统的自动驾驶系统采用模块化设计策略，即将感知、预测和规划等各个功能单独开发并集成到车载系统中。其中，负责生成转向与加速输出的规划或控制模块，在决定驾驶体验方面起着至关重要的作用。在模块化流程中，最常见的规划方法依赖于复杂的基于规则的设计，但这类方法往往难以应对现实道路中出现的大量复杂情况。因此，越来越多的研究趋势开始利用大规模数据，尝试以基于学习的规划方法作为可行替代方案。

在这里插入图片描述

我们将端到端的自动驾驶系统定义为一种完全可微分的程序，输入为原始传感器数据，输出为路径规划结果和/或底层控制动作。如图 (a)-(b) 所示，展示了经典方法与端到端方法的区别。传统方法中，每个模块的输出（如目标边界框和车辆轨迹）被直接输入到下一个模块中（虚线箭头所示）；而端到端方法则在各模块之间传播特征表示（灰色实线箭头）。优化目标可设定为例如规划性能，整体损失通过反向传播（红色箭头）进行最小化。任务在这一过程中以联合方式进行全局优化。

在本综述中，我们对这一新兴领域进行了广泛的回顾。上图提供了我们工作的整体概览。我们首先讨论了端到端自动驾驶系统的研究动机与发展路线。端到端方法大致可分为模仿学习和强化学习两类，我们简要回顾了这两种方法。接着，我们介绍了用于闭环和开环评估的数据集与基准测试。我们还总结了一系列关键挑战，包括可解释性、泛化能力、世界模型、因果混淆等问题。最后，我们探讨了未来的发展趋势，包括如何融合最新的数据引擎、大型基础模型等技术成果。

需要注意的是，本综述主要从理论角度展开。实际工程中的诸如版本控制、单元测试、数据服务器、数据清洗、软硬件协同设计等内容，在端到端技术的部署中同样扮演着关键角色。关于这些方面的最新实践，目前公开信息较为有限。我们呼吁学术界和产业界在未来的交流中能更加开放，共同推动该领域的发展。

（一）端到端系统的动机

在经典的自动驾驶流程中，每个模型作为独立的组件服务于特定任务（例如，红绿灯检测）。这种设计在可解释性和调试便利性方面具有优势。然而，也存在以下缺点：
（1）由于各模块的优化目标不同，例如检测模块追求平均精度均值（mAP），而规划模块则关注驾驶的安全性和舒适性，整个系统可能无法朝着统一的目标——即最终的规划/控制任务——进行优化。
（2）随着流程的推进，各模块产生的误差可能会逐步累积，从而导致信息损失。
（3）此外，相较于一个端到端的神经网络，这种多任务、多模型的部署方式涉及多个编码器和信息传递系统，可能会增加计算负担，并导致计算资源的次优使用。

与传统方法相比，端到端的自动驾驶系统具有以下几个优势：
（1）最显著的优势在于，它将感知、预测和规划整合为一个可以联合训练的模型，实现了整体简化；
（2）整个系统，包括其中间表示，都是围绕最终任务进行优化的；
（3）共享的主干网络可提升计算效率；
（4）基于数据的优化方式，只需扩大训练资源，就有可能提升系统性能。

需要注意的是，端到端范式并不意味着整个系统必须是一个只输出规划/控制结果的“黑盒”。它也可以像图中(b) 所示那样，包含中间表示和输出，类似于传统方法。事实上，一些最新的系统虽然采用了模块化设计，但它们通过联合优化各个组件，从而取得了更优的性能。

（二）路线图

下图展示了端到端自动驾驶领域关键成果的时间轴式发展路线图，每一部分都代表了一个重要的范式转变或性能提升。端到端自动驾驶的历史可以追溯到 1988 年的 ALVINN 系统，其输入来自摄像头的两个“视网膜”和激光测距仪，一个简单的神经网络输出转向命令。随着 GPU 计算时代的到来，NVIDIA 设计了一个原型的端到端卷积神经网络系统，重新唤起了这一构想。

在这里插入图片描述

随着深度神经网络的发展，在模仿学习和强化学习方面都取得了显著进展。LBC 等方法提出的策略蒸馏范式通过模仿表现良好的专家策略，大幅提升了闭环性能。为了增强模型的泛化能力，缓解专家策略与学习策略之间的偏差，一些工作在训练过程中提出了聚合基于当前策略的数据。

2021 年前后是一个重要的转折点。由于多种传感器配置可以在合理的计算预算下实现，研究的重点转向了融合更多模态信息以及采用先进架构（例如 Transformer）以捕捉全局上下文与具代表性的特征。例如 TransFuser 及其多个变体就是典型代表。结合对仿真环境的深入理解，这些设计在 CARLA 基准测试上带来了显著的性能提升。为了增强自动驾驶系统的可解释性与安全性，一些方法引入了辅助模块以更好地监督学习过程，或采用注意力可视化机制。近期的研究重点还包括生成安全关键场景数据、预训练用于策略学习的基础模型或主干网络，以及倡导模块化的端到端规划理念。同时，新的 CARLA v2 和 nuPlan 基准测试也被提出，以进一步推动该领域的研究进展。

（三）与相关综述的比较

我们希望澄清本综述与先前相关综述之间的区别。部分早期综述在端到端系统方面涵盖了与我们相似的内容，但它们未能覆盖该领域近期的重要转变所带来的新基准和新方法，也较少关注前沿问题和面临的挑战。其他综述则聚焦于该领域的某些具体主题，例如模仿学习或强化学习。相比之下，我们的综述提供了该领域最新发展的信息，涵盖了更广泛的主题，并对关键挑战进行了深入探讨。

（四）贡献

总结来说，本综述有三个主要贡献：

a）我们首次对端到端自动驾驶进行了全面分析，涵盖了高层动机、方法论、基准测试等内容。我们主张不再仅仅优化单一模块，而是从整体上设计算法框架，最终目标是实现安全且舒适的自动驾驶。
b）我们深入研究了当前方法所面临的关键挑战。在调研的 270多篇论文中，我们总结了主要方面，并进行了深入分析，包括泛化能力、语言引导学习、因果混淆等主题。
c）我们探讨了如何融合大型基础模型和数据引擎的广泛影响。我们认为，这一研究方向及其所提供的大规模高质量数据将极大地推动该领域的发展。为了支持未来研究，我们还维护了一个活跃的代码库，持续更新相关文献和开源项目。

二、方法

本节回顾了大多数现有端到端自动驾驶方法背后的基本原理。首先讨论了使用模仿学习的方法，并详细介绍了其中最常见的两种子类别，即行为克隆和逆最优控制。其次总结了遵循强化学习范式的方法。

（一）模仿学习

模仿学习（Imitation learning，IL），又称为示范学习（learning from demonstrations），通过模仿专家的行为来训练智能体学习策略。IL 需要一个包含专家策略 $πβ\pi_\beta$ 收集的轨迹的数据集 $\{\xi_i\}$ ，其中每条轨迹是状态-动作对的序列。IL 的目标是学习一个与 $πβ\pi_\beta$ 相匹配的智能体策略 $π\pi$ 。

策略 $π\pi$ 可以输出规划的轨迹或控制信号。早期的工作通常采用控制信号作为输出，因为采集更为方便。然而，在不同时间步预测控制量可能导致不连续的操控行为，而且网络本质上会专注于特定车辆的动力学，从而不利于泛化到其他车辆。另一类方法则预测航路点（waypoints），考虑了相对更长的时间范围。与此同时，将预测的轨迹转换为车辆跟踪所需的控制信号需要额外的控制器，这并非易事，涉及车辆模型和控制算法。由于目前尚未观察到这两种方法在性能上的明显差距，因此本综述未对其进行显式区分。

IL 中广泛应用的一类方法是行为克隆（Behavior Cloning，BC），它将问题简化为监督学习。另一类是逆最优控制（Inverse Optimal Control，IOC），也称为逆强化学习（Inverse Reinforcement Learning，IRL），其通过专家示范学习奖励函数。我们将在下文分别介绍这两类方法。

1) 行为克隆（Behavior Cloning）：

在行为克隆中，通过在收集到的数据集上以监督学习的方式最小化规划损失来使智能体的策略匹配专家策略：

$\mathbb{E}_{(s,a)} \, \ell(\pi_\theta(s), a)$

其中， $ℓ(πθ(s),a)\ell(\pi_\theta(s), a)$ 是衡量智能体动作与专家动作之间差距的损失函数。

BC 的早期应用如 ALVINN 等采用端到端神经网络从摄像头输入生成控制信号。后续的研究引入了多传感器输入、辅助任务和改进的专家设计，使基于 BC 的端到端驾驶模型可以处理更复杂的城市场景。

BC 的优点在于其简洁高效，不需要 RL 中至关重要的人工奖励函数设计。但也存在两个典型问题：其一是在训练中将每个状态视为独立同分布，从而导致协变量偏移（covariate shift）问题。为此，提出了一些基于策略的数据收集方法如 DAgger 来缓解该问题。其二是因果混淆（causal confusion），即模仿者利用输入与输出之间的错误相关性进行学习。这两个问题将在第四章中进一步讨论。

2) 逆最优控制（Inverse Optimal Control）：

传统的 IOC 方法试图从专家示范中学习未知的奖励函数 $R (s, a)$ ，该奖励函数通常表示为一组特征的线性组合。

生成对抗模仿学习（Generative Adversarial Imitation Learning，GAIL）是一类专门的 IOC 方法，通过对抗目标设计奖励函数以区分专家策略和学习策略，类似于生成对抗网络（GAN）的思想。近期还有一些工作提出结合感知辅助任务优化代价体积（cost volume）或代价函数（cost function）。由于代价是奖励的另一种形式，因此我们将这些方法也归为 IOC 类别。

我们定义成本学习框架如下：端到端方法学习一个合理的成本函数 $c(⋅)c(\cdot)$ ，并通过轨迹采样器选出具有最小代价的轨迹 $τ∗\tau^*$ ，如下图所示。
在这里插入图片描述

关于代价的设计，其表示可以包括鸟瞰图（BEV）中的学习代价体积、由其他交通参与者未来动作计算的联合能量，或者一组概率语义占据或自由空间图层等。另一方面，轨迹通常来源于专家轨迹集或基于运动学模型的参数采样。随后采用最大间隔损失来鼓励专家轨迹具有最小成本，而其他轨迹具有较高成本。

但成本学习方法也面临挑战，例如为了获得更现实的代价，需要使用高精地图、感知辅助任务和多种传感器，增加了多模态多任务框架的数据集构建和训练难度。尽管如此，这类方法显著增强了端到端系统的安全性与可解释性，我们认为其是一种具有现实应用前景的设计方式。

（二）强化学习

强化学习（Reinforcement Learning，RL）是一种通过试错进行学习的方式。深度 Q 网络（DQN）在 Atari 基准测试中实现人类水平控制的成功，使深度强化学习广受关注。DQN 训练一个称为评论者（critic）或 Q 网络的神经网络，该网络以当前状态和动作作为输入，预测该动作的折扣回报（discounted return）。策略则通过选择具有最高预测回报的动作来隐式定义。

RL 需要一个允许执行潜在不安全动作的环境，以便收集新的数据（例如通过随机动作）。此外，RL 的训练所需数据远多于 IL。因此，现代 RL 方法常常在多个环境中并行化数据收集。满足这些要求在真实世界中具有很大挑战，因此几乎所有使用 RL 的驾驶研究仅在仿真中进行，大多数使用 DQN 的不同扩展版本。当前社区尚未在某一特定 RL 算法上达成共识。

RL 成功实现了在一条空街道上使用真实汽车进行车道跟随的学习。尽管这一结果令人鼓舞，但值得注意的是，类似任务在三十年前已经通过 IL 完成。迄今为止，还没有报告显示使用 RL 进行端到端训练的结果能与 IL 相竞争。这一失败可能的原因在于，RL 获得的梯度不足以训练深度感知结构（如 ResNet），而 RL 成功的 Atari 等基准测试所使用的模型相对较浅，仅包含少量层。

RL 在与监督学习（Supervised Learning，SL）结合时，已被成功应用于端到端驾驶。隐式可供性方法使用 SL 对 CNN 编码器进行预训练（如语义分割任务），在第二阶段中冻结该编码器，并使用现代版本的 Q 学习在冻结编码器生成的特征上训练一个浅层策略头。RL 还可以用于微调已通过 IL 预训练的完整网络。

如果网络可以访问模拟器的特权信息，RL 也可以有效应用。特权 RL 智能体可用于数据集构建。例如，Roach 在特权 BEV 语义地图上训练 RL 智能体，并使用策略自动收集数据集，从而训练下游的 IL 智能体。WoR 使用 Q 函数和表格动态规划为静态数据集生成额外或改进的标签。

当前该领域的挑战之一是将仿真中的研究成果迁移到真实世界。在 RL 中，目标通过奖励函数表示，许多算法要求奖励函数是密集的，并在每个环境步骤提供反馈。目前的工作通常使用简单的目标，如前进距离和碰撞规避。这些简化的设计可能会鼓励冒险行为。设计或学习更优的奖励函数仍是一个未解决的问题。另一个研究方向是开发能够处理稀疏奖励的 RL 算法，从而直接优化相关指标。RL 可以有效结合世界模型，尽管这带来了特定挑战（4-3 节）。当前的 RL 驾驶解决方案仍大量依赖场景的低维表示，该问题将在 4-2节中进一步讨论。

三、基准评估

自动驾驶系统需要进行全面评估以确保其安全性。为实现这一目标，研究人员必须使用合适的数据集、仿真器、评估指标和硬件对这些系统进行基准测试。本节将端到端自动驾驶系统的评估方法划分为三类：（1）真实世界评估，（2）仿真中的在线或闭环评估，以及（3）驾驶数据集上的离线或开环评估。我们重点关注可扩展且具有原则性的在线仿真设置，并为完整性总结真实世界与离线评估方法。

类型	是否实时（在线）	是否有反馈闭环	是否控制车辆	应用模块	场景
离线评估	❌ 否	❌ 否	❌ 否	感知、预测	数据包测试
开环仿真	✅/❌ 皆可	❌ 否	❌ 否	感知、预测、部分规划	场景播放+响应测试
在线仿真	✅ 是	❌/✅ 可有闭环	✅ 可控制	任意模块	调试开发
闭环仿真	✅/❌ 皆可	✅ 是	✅ 是	全栈联调	系统验证

（一）真实世界评估

早期对自动驾驶的基准测试主要依赖于真实世界评估。值得注意的是，DARPA 发起了一系列比赛以推动自动驾驶的发展。第一次比赛设有 100 万美元奖金，要求参赛车辆在没有人为干预的情况下完成穿越莫哈韦沙漠的 240 公里路线，但没有团队成功完成。最终系列赛事“DARPA 城市挑战赛”要求车辆在一个模拟城市环境中行驶 96 公里，遵守交通法规并避开障碍物。这些比赛推动了自动驾驶领域的重要进展，例如激光雷达传感器的应用。

秉承这一精神，密歇根大学建立了 MCity，这是一个大型的受控真实世界环境，旨在支持自动驾驶车辆的测试。然而，由于缺乏足够的数据和车辆，这类学术平台尚未被广泛应用于端到端系统的测试。相比之下，拥有部署无人驾驶车队资源的工业界可以依靠真实世界评估来基准测试其算法的改进。

（二）在线/闭环仿真

在现实世界中测试自动驾驶系统的成本高昂且存在风险。为应对这一挑战，仿真成为一个可行的替代方案。仿真器支持快速原型开发和测试，能快速迭代新想法，并以低成本提供多样化场景用于单元测试。此外，仿真器还提供精确测量性能的工具。然而，它们的主要缺点在于，仿真环境中获得的结果不一定能泛化到真实世界（详见第4-1节）。

闭环评估涉及构建一个高度逼真的仿真环境，用于部署自动驾驶系统并测量其性能。系统需在安全行驶的同时，朝着指定目标地点导航。开发此类仿真器通常涉及四个主要子任务：参数初始化、交通仿真、传感器仿真和车辆动力学仿真。以下是对这些子任务的简要描述，并总结了当前可用于闭环评估的开源仿真器。

1）参数初始化

仿真的优势之一是能高度控制环境，如天气、地图、3D 资产及交通场景中物体的布局等低层次属性。然而，参数众多导致设计复杂。目前的仿真器主要采用两种方式：

程序生成：传统方式由 3D 艺术家和工程师手动调整参数，这种方式可扩展性差。近年来，一些仿真属性可通过概率分布采样生成，即程序生成。这类算法结合规则、启发式和随机性，用于创建多样化的道路网络、交通模式、光照条件及物体布局。尽管相比纯手工设计更高效，但仍需大量预定义参数和算法来控制生成的稳定性，这一过程既耗时又需大量专业知识。
数据驱动：数据驱动的初始化方式旨在通过学习得到所需参数。一种简单方式是直接从真实驾驶日志中采样，如提取道路地图和交通模式。这种方法能捕捉真实世界中的自然变异性，使仿真更贴近现实。但可能无法覆盖那些对于测试自动驾驶系统鲁棒性至关重要的罕见场景。可通过优化初始参数来增强这类场景的代表性。另一种先进方法是生成建模，用机器学习算法学习真实数据的结构和分布，从而生成类似但全新的仿真场景。

2）交通仿真

交通仿真涉及在环境中生成并定位虚拟实体，使其具有逼真的运动行为。这些实体包括汽车、摩托车、自行车和行人等。仿真器需考虑速度、加速度、制动、障碍及其他实体行为的影响，并定期更新交通信号灯状态以模拟真实城市交通。

基于规则：使用预定义规则来生成交通实体的运动。其中最典型的是 IDM（智能驾驶员模型），它基于当前速度、前车速度及期望安全距离计算车辆加速度。虽然简单广泛，但在复杂城市环境中模拟真实交互常显不足。
数据驱动：人类的交通行为高度复杂且具互动性，例如变道、汇入、紧急停车等。数据驱动方式通过学习真实驾驶数据来建模这类行为，能够捕捉更细致的行为特征，但需大量标注数据用于训练。

3）传感器仿真

传感器仿真对于端到端自动驾驶系统评估至关重要。其任务是在仿真中生成相应的原始传感器数据，如摄像头图像或 LiDAR 点云，需考虑噪声和遮挡以真实评估系统。

基于图形渲染：借助 3D 场景与实体模型，通过传感器的物理成像过程近似生成数据，例如摄像头图像中的遮挡、阴影和反射。这种方法受限于 3D 模型质量和物理建模的近似，图像真实度有限，且计算代价大，不易并行处理。
数据驱动：基于真实传感器数据构建仿真，常用的方法包括 NeRF（神经辐射场）和 3D Gaussian Splatting，可从学得的几何与外观表示中生成新视角图像。这些方法在视觉上更真实，但存在渲染耗时长或每个场景需单独训练的问题。另一方向是领域自适应，利用深度学习（如 GAN）减少真实数据与图形仿真数据之间的差距。

4）车辆动力学仿真

最后一个方面是确保仿真车辆的运动符合物理规律。目前大多数开源仿真器使用简化模型，如独轮车模型或自行车模型。然而，为实现仿真到现实的无缝迁移，更准确的物理建模是必需的。例如，CARLA 使用多体系统表示车辆，将其建模为四轮弹簧质量系统。

5）基准测试
在这里插入图片描述

我们在上表中简要总结了目前可用的端到端驾驶基准测试。2019 年 CARLA 的初始基准被几乎完美解决。随后推出的 NoCrash 基准测试要求在某个城镇和特定天气条件下训练，并在新城镇和新天气中测试泛化能力。Town05 基准在所有城镇上训练，保留 Town05 测试；LAV 保留 Town02 和 Town05 测试。Roach 测试 3 个在训练中见过的城镇，但不包括安全关键场景。Longest6 使用 6 个测试城镇。Leaderboard v2 服务更加严格，评估路线保密，路线平均超过 8 公里，场景丰富度更高。

nuPlan 仿真器目前可通过 NAVSIM 项目用于评估端到端系统。此外还有两个使用数据驱动初始化方法的基准（见第3-2节）。Val14 基准使用 nuPlan 验证集；2023 年 nuPlan 挑战的官方 leaderboard 使用私人测试集，但目前已不再对外开放提交。

（三）离线/开环评估

开放式评估主要用于衡量系统在预先记录的专家驾驶行为上的表现。该方法需要评估数据集包含以下内容：（1）传感器读数、（2）目标位置、（3）与之对应的未来驾驶轨迹，通常由人类驾驶员生成。系统以传感器输入和目标位置为输入，通过将其预测的未来轨迹与驾驶日志中的轨迹进行比较来评估性能。评估指标包括预测轨迹与真实人类轨迹的接近程度，以及与其他交通参与者发生碰撞的概率等辅助指标。

开放式评估的优点在于不需要仿真器，便可借助真实交通与传感器数据轻松实现。然而，它的主要缺点是无法评估系统在实际部署过程中所面临的测试分布上的表现。在测试过程中，自动驾驶系统可能会偏离专家的驾驶轨迹，因此验证系统从偏离状态中恢复的能力至关重要（见第4-1 节）。

此外，在多模态场景下，仅使用预测轨迹与记录轨迹之间的距离作为评估指标也并不理想。例如，在汇入转弯车道的情况下，无论是立即并入还是稍后并入都可能是合理的选择，但开放式评估会惩罚数据中未出现的那一个选项。因此，除了碰撞概率与预测误差，一些研究还提出了其他评估指标，以覆盖交通违规、前进进度与驾驶舒适性等更全面的维度。

该评估方法需要包含丰富驾驶轨迹的数据集作为支撑。最常用的数据集包括 nuScenes、Argoverse、Waymo 和 nuPlan。这些数据集均涵盖大量真实世界驾驶路径，具备不同程度的挑战性。

然而，由于前述局限性，开放式评估的结果并不能提供系统在闭环控制中驾驶行为改进的确凿证据。因此，未来研究中若条件允许，建议优先采用更真实的闭环基准测试。

四、挑战

根据图 1 中展示的各个主题，接下来我们将逐一介绍当前面临的挑战、相关工作或潜在的解决方案、风险以及机会。我们讨论处理不同输入模态所面临的挑战；随后探讨高效策略学习所需的视觉抽象问题。接下来，我们介绍几种学习范式，包括世界模型学习、多任务框架以及策略蒸馏。

最后，我们将讨论一系列阻碍端到端自动驾驶系统安全性与可靠性的共性问题，包括可解释性、安全保障、因果混淆，以及鲁棒性问题。

（一）感知与输入模态的两难问题

1）感知与多传感器融合

感知：尽管早期研究成功地利用单目摄像头实现了自动跟随车道，但这种单一输入模态无法应对复杂场景。因此，如下图所示，近年来的自动驾驶车辆引入了多种传感器。特别是，来自摄像头的 RGB 图像能够复现人类感知世界的方式，提供丰富的语义信息；激光雷达或双目摄像头提供精确的三维空间感知能力。新兴传感器如毫米波雷达和事件相机在捕捉物体相对运动方面表现突出。此外，车速计和惯性测量单元（IMU）提供的车辆状态信息，以及导航指令，也是引导自动驾驶系统的重要输入。然而，不同传感器存在视角、数据分布和成本上的巨大差异，如何合理设计传感器布局并有效融合各类传感器仍是挑战。

在这里插入图片描述

多传感器融合在感知相关领域（如目标检测和语义分割）中被广泛研究，通常分为早期融合、中期融合和后期融合三类。端到端自动驾驶算法也探索了类似的融合策略。

早期融合在输入进入共享特征提取网络前就对传感器数据进行拼接，其中拼接是最常见的融合方式。为解决视角差异，一些工作将点云投影到图像上，或反向操作（即为激光雷达点预测语义标签）。
后期融合将来自不同模态的多个结果进行组合，由于性能较差，在自动驾驶中较少讨论。
中期融合则是在网络内部对分别编码的输入在特征层进行融合。直接拼接在此处也很常见。近年来，一些工作使用 Transformer 来建模多模态特征之间的交互。Transformer 中的注意力机制在汇聚不同传感器上下文信息方面表现出色，从而提升了端到端驾驶的安全性。

受感知任务中 BEV 表示的启发，将多模态数据统一建模在鸟瞰图空间中被证明是有益的。端到端驾驶还需关注与策略相关的上下文信息并舍弃无关细节，相关内容将在第4-2节中进一步讨论。此外，Transformer 中的自注意力机制虽然连接所有 token，但计算开销巨大，并不总能提取到有用信息。感知领域中一些先进的基于 Transformer 的融合机制对端到端驾驶任务具有潜在应用前景。

2）语言作为输入

人类在驾驶时会结合视觉感知和内在知识，从而形成具有因果性的行为。在与自动驾驶相关的具身智能（Embodied AI）等领域，将自然语言作为细粒度的知识和指令以控制视觉运动代理取得了显著进展。然而，与机器人任务相比，驾驶任务本身更为直接，无需任务拆解，同时室外环境更为复杂，动态体众多但锚定物稀少。

为将语言知识引入驾驶，一些数据集被提出以衡量室外语义定位和视觉语言导航能力。例如，HAD 数据集引入了人类给车辆的建议，并添加了视觉对齐任务；Sriram 等人将自然语言指令转化为高层次行为；还有一些工作则直接实现了语言文本的定位；CLIP-MC 和 LM-Nav 使用 CLIP 提取语言和图像中的知识与特征。

最近，随着大语言模型（LLMs）的快速发展，一些工作将感知到的场景编码为 token，并将其输入到 LLM 中用于控制预测或文本解释。研究者还将驾驶任务建模为问答问题，并构建了相应的评估基准。这些研究强调，LLMs 有望处理复杂指令并具备跨数据域泛化能力，这与机器人领域的优势相似。

不过，在道路驾驶中使用 LLMs 目前仍面临挑战，例如推理时间长、数值准确率低和输出不稳定等问题。潜在的解决方案包括将 LLM 部署在云端，仅在复杂场景中调用，或仅用于高层次行为预测任务。

（二）对视觉抽象的依赖

端到端自动驾驶系统大致包含两个阶段：首先将状态编码为潜在的特征表示，然后再利用中间特征解码出驾驶策略。在城市驾驶中，输入状态（即周围环境和自车状态）相比于常见的策略学习基准（如电子游戏）更加多样且高维，这可能导致表示与策略制定所需关注区域之间的不对齐。因此，设计“良好”的中间感知表示，或者先通过代理任务预训练视觉编码器是非常有益的。这可以让网络有效提取对驾驶有用的信息，从而促进后续的策略学习阶段。此外，这也有助于提高强化学习方法的样本效率。

1）表示设计

朴素的表示是通过各种骨干网络提取的。经典的卷积神经网络（CNN）仍占据主导地位，具有平移等变性和高效率的优势。使用深度信息预训练的 CNN 显著提升了感知和下游任务的性能。相比之下，基于 Transformer 的特征提取器在感知任务中展现了良好的扩展能力，但尚未广泛应用于端到端自动驾驶中。

针对驾驶特定的表示，研究人员引入了鸟瞰图（Bird’s-Eye-View, BEV）概念，将不同的传感器模态和时间信息融合在一个统一的三维空间中。这种表示也便于适配各种下游任务。此外，还发展了基于栅格的三维占据表示，以捕捉不规则物体，并在路径规划中用于避障。然而，相比于 BEV 方法，稠密表示会带来巨大的计算开销。

另一个尚未解决的问题是地图的表示。传统自动驾驶依赖高精地图（HD Maps），但由于其高昂的获取成本，出现了各种在线建图方法，例如 BEV 分割、向量化车道线、中心线及其拓扑结构、以及车道段。然而，目前尚未验证哪种表示形式最适合端到端系统。

尽管不同的表示设计为后续的决策过程提供了多种可能性，但也带来了挑战，因为整个系统的两个部分需要协同设计。此外，考虑到一些简单但有效的方法通过扩大训练资源规模表现出良好性能，目前是否有必要使用诸如地图等显式表示仍存在不确定性。

2）表示学习

表示学习通常引入某种归纳偏置或先验信息。学习到的表示中不可避免地存在信息瓶颈，而与决策无关的冗余上下文可能被移除。

一些早期方法直接使用预训练网络生成的语义分割掩码作为后续策略训练的输入表示。SESR 方法进一步通过变分自编码器（VAE）将分割掩码编码为类别解耦的表示。在一些方法中，预测的可供性指标（如红绿灯状态、与车道中心的偏移、与前车的距离）被用作策略学习的表示。

鉴于语义分割等表示方式可能人为地引入瓶颈并导致有用信息的损失，部分研究选择将预训练任务中得到的中间特征作为强化学习的有效表示。例如，有研究使用 VAE 的潜在特征并结合分割图与深度图边界的注意力图，突出重要区域。TARP 利用一系列先前任务的数据，执行不同的任务相关预测，从而获得有用的表示。还有研究通过逼近 $π\pi$ -仿射度量来学习潜在表示，该度量由奖励差异和动态模型的输出差异组成。ACO 在对比学习结构中引入转向角分类来学习判别性特征。

最近，PPGeo 提出结合运动预测与深度估计，在未经标定的驾驶视频上以自监督方式学习有效表示。ViDAR 则使用原始图像-点云对，通过点云预测任务预训练视觉编码器。这些工作表明，基于大规模无标签数据的自监督表示学习在策略学习中具有潜力，并值得未来进一步探索。

（三）基于模型的强化学习中世界建模的复杂性

除了更好地抽象感知表示的能力之外，对于端到端模型来说，能够对未来做出合理预测以执行安全操作也是至关重要的。在本节中，我们主要讨论当前基于模型的策略学习工作所面临的挑战，其中世界模型为策略模型提供显式的未来预测。

深度强化学习通常面临样本效率低的问题，在自动驾驶中这一点尤为突出。基于模型的强化学习（Model-Based Reinforcement Learning, MBRL）为提升样本效率提供了一种有前景的方向，其核心思想是允许智能体与学习得到的世界模型交互，而不是与真实环境交互。MBRL 方法构建了一个显式的世界（环境）模型，该模型由转移动态和奖励函数组成。在自动驾驶中，这一点尤其有用，因为像 CARLA 这样的仿真器运行速度相对较慢。

然而，建模一个高度动态的环境是非常具有挑战性的。为简化问题，有研究将转移动态因子化为非反应式世界模型和简单的自行车运动学模型。也有工作采用概率时序潜变量模型作为世界模型。为应对学习到的世界模型可能存在的不准确性，有方法在训练策略网络时使用 dropout 正则化以估计不确定性成本；也有方法采用多个世界模型的集合来进行不确定性估计，并据此对虚拟轨迹进行截断与调整。

受 Dreamer 启发，ISO-Dream 将视觉动态分解为可控与不可控的状态，并在解耦后的状态上训练策略模型。
值得注意的是，在原始图像空间中学习世界模型对于自动驾驶来说并不容易。诸如红绿灯这样的重要小细节，在预测图像中很容易被遗漏。为了解决这一问题，GenAD 和 DriveWM 引入了当前流行的扩散模型技术。MILE 在 BEV 分割空间中进行类似 Dreamer 的世界模型学习，并将其作为模仿学习的辅助任务。SEM2 同样扩展了 Dreamer 的结构，输入为 BEV 地图，并使用强化学习进行训练。除了将学习到的世界模型直接用于 MBRL 外，DeRL 还结合了无模型的 actor-critic 框架与世界模型，通过融合两个模型对动作或状态的自我评估进行决策。

在端到端自动驾驶中进行世界模型学习是一个新兴且极具潜力的方向，因为它显著降低了强化学习的样本复杂度，同时理解世界本身对于驾驶是有益的。然而，由于驾驶环境本身极其复杂和动态化，仍需进一步研究以明确应建模哪些内容，以及如何有效地构建世界模型。

（四）对多任务学习的依赖

多任务学习（Multi-task Learning, MTL）是指基于共享表示，通过多个独立输出头共同完成若干相关任务。MTL 的优势包括降低计算成本、共享相关的领域知识，以及利用任务之间的关系提升模型的泛化能力。因此，MTL 非常适用于端到端自动驾驶场景，其中最终的策略预测需要对环境有全面的理解。然而，如何组合最合适的辅助任务，以及如何合理设置各任务的损失权重以获得最佳性能，是一个具有挑战性的问题。

与常见的视觉任务中稠密预测之间高度相关不同，端到端自动驾驶中的输出通常是稀疏信号。这种稀疏的监督信号使得编码器在提取决策所需的有效信息时更加困难。对于图像输入，语义分割和深度估计等辅助任务在端到端自动驾驶模型中被广泛采用。语义分割有助于模型获得对场景的高层次理解；深度估计使模型能够捕捉环境的三维几何结构，从而更好地估算与关键物体的距离。

除了作用于图像的辅助任务，三维目标检测对处理激光雷达输入的编码器也具有重要价值。随着鸟瞰图（BEV）成为自动驾驶中的主流表示方式，许多模型引入了 BEV 分割任务，用于在 BEV 空间中聚合特征。

此外，除了这些视觉任务，一些模型还预测视觉可供性信息，例如交通灯状态、与对向车道的距离等。这类信息同样可以为策略学习提供有价值的监督。

然而，在真实应用中，构建包含多种类型且高度对齐的高质量标注的大规模数据集并非易事。而当前模型对多任务学习的依赖，使得这一问题仍是现实部署中的重大挑战。

（五）专家策略和策略蒸馏的低效问题

模仿学习（Imitation Learning），或其主要子类行为克隆（Behavior Cloning），本质上是监督学习，通过模仿专家行为来训练模型，因此相关方法通常遵循“教师-学生”（Teacher-Student）范式。该范式下存在两个主要挑战：

(1) 教师（如 CARLA 提供的手工设计的专家自动驾驶系统）尽管能够访问周围车辆和地图的真实状态，但并不是完美的驾驶员；

(2) 学生模型仅依赖传感器输入，并以录制的教师输出为监督信号，需同时从头学习感知特征和策略。

一些研究提出将学习过程划分为两个阶段，即先训练一个更强大的教师网络，再将策略蒸馏到学生模型中。具体来说，有方法首先让一个具有特权的智能体在可访问环境状态的前提下学习如何行动，然后让感知-运动学生智能体在输出层模仿该特权智能体的行为。以更紧凑的 BEV 表示作为输入的特权智能体，相比原始专家具有更强的泛化能力和监督能力。

除了只对规划结果进行监督，也有工作在特征层面进行知识蒸馏。例如，FMNet 利用分割模型和光流模型作为辅助教师来引导特征训练；SAM 在教师和学生网络之间加入了 $L_2$ 特征损失；CaT 则在 BEV 空间中对齐特征；WoR 学习一个基于模型的动作-价值函数，并利用其监督视觉-运动策略；Roach 利用强化学习训练出更强的特权专家，从而突破了行为克隆的性能上限，并融合了多个蒸馏目标，包括动作分布、值函数/奖励以及潜在特征。

通过强化学习专家的强大能力，TCP 在仅使用单摄像头输入的条件下，在 CARLA 排行榜上达到了新的 SOTA 水平。DriveAdapter 则训练一个仅依赖感知的学生模型，并通过特征对齐目标学习适配器模块。这种解耦式范式既充分利用了教师的知识，又提升了学生的训练效率。

尽管已经投入大量精力设计鲁棒的专家模型，并在多个层面转移知识，教师-学生范式仍然面临蒸馏效率低的问题。例如，特权智能体可以访问红绿灯等真实状态信息，而这些在图像中是小物体，很难蒸馏出对应的有效特征，导致视觉-运动学生模型与其特权教师仍存在显著性能差距。这种差距还可能引发学生模型的因果混淆问题。因此，未来值得进一步探索如何借鉴机器学习中更通用的知识蒸馏方法，以尽可能缩小教师与学生之间的性能差距。

（六）缺乏可解释性

可解释性在自动驾驶中扮演着至关重要的角色。它不仅帮助工程师更好地调试系统，还从社会角度提供性能保障，并促进公众的接受度。实现端到端驾驶模型的可解释性尤其重要且具有挑战性，因为这类模型通常被视为“黑箱”。

对于已训练好的模型，可以使用一些事后可解释人工智能（X-AI）技术来生成显著性图。显著性图突出模型在规划决策中主要依赖的输入图像区域。然而，这类方法提供的信息有限，其有效性和可信度也较难评估。因此，我们更关注在模型设计阶段就直接增强可解释性的端到端框架。下面介绍几种常见的可解释性方法。

注意力可视化：注意力机制天然具有一定的可解释性。有研究通过学习注意力权重，对中间特征图中的重要信息进行聚合。注意力权重也可用于自适应组合来自不同目标区域或固定网格的 ROI pooled 特征。NEAT 模型通过迭代方式聚合特征以预测注意力权重，并不断优化聚合特征。近年来，Transformer 中的注意力模块被用于更好地融合多模态输入，其生成的注意力图可以显示模型在做出驾驶决策时关注的关键区域。在 PlanT 中，注意力层处理来自不同车辆的特征，提供了模型动作的可解释线索。虽然与显著性图类似，注意力图可以提供直观的关注线索，但其忠实性和实用性仍然有限。

可解释任务：许多基于模仿学习的研究通过将潜在特征表示解码为语义分割、深度估计、目标检测、可供性预测、运动预测、注视点估计等附加信息，从而增强可解释性。这些信息虽可被人类理解，但在大多数情况下只是作为辅助任务，并未显式参与最终决策。也有部分研究将这些输出用于决策安全检查，但其作用仍有限。

规则整合与代价学习：基于代价函数学习的方法与传统模块化系统相似，因此具有一定的可解释性。有研究结合检测与运动预测结果构建代价体积，也有研究将语义占据图与舒适性及交通规则约束结合，用于代价函数建模。此外，诸如概率占据、时序运动场、自由空间等表示也被用于对采样轨迹进行评分。有研究还显式整合了人类经验与预定义规则（如安全性、舒适性、交通规则与路径）用于轨迹评分，从而提升系统的鲁棒性与安全性。

语言可解释性：为了让人类更好地理解系统，使用自然语言是一种直观方式。有研究构建了驾驶视频/图像与解释文本对齐的数据集，并提出同时输出控制信号与语言解释的端到端模型。BEEF 将预测轨迹与中间感知特征融合，用于生成驾驶决策的理由。ADAPT 提出基于 Transformer 的网络，同时估计动作、叙述与推理过程。近期也有研究利用多模态大模型（LLMs/VLMs）为驾驶决策提供解释，展现了跨模态解释的潜力。

不确定性建模：不确定性提供了一种定量方式，用于解释深度学习模型输出的可靠性，帮助设计者与用户识别高风险场景以便改进或人工介入。在深度学习中，不确定性通常分为两类：随机性不确定性（Aleatoric）与认知性不确定性（Epistemic）。前者来自任务本身的固有噪声，后者源于训练数据不足或模型容量受限。

有方法在模型中引入随机正则化，通过多次前向传播采样来度量不确定性，但这种方式不适合实时场景。另一些研究则通过专家模型集成的方式估计认知性不确定性，从而实现更安全的规划。

对于随机性不确定性，有研究直接预测驾驶动作的方差，将其作为模型输出的一部分。规划器可以基于这些不确定性选择方差最小的动作，或根据不确定性对多个动作加权组合，最终输出更稳定的决策。目前，不确定性的利用仍多依赖于硬编码规则，未来仍需进一步探索如何在自动驾驶中更好地建模与利用不确定性。

（七）缺乏安全保障

在真实世界场景中部署自动驾驶系统时，确保安全是最重要的。然而，端到端框架基于学习的方法本质上缺乏传统基于规则方法所具备的精确数学安全性保证。尽管如此，需要指出的是，模块化驾驶系统已经在其运动规划或速度预测模块中引入了一些特定的安全约束或优化策略，以强化系统的安全性。这些机制有潜力被改编为端到端模型的后处理步骤或安全检查，从而为其提供额外的安全保障。此外，如第4-6节中所讨论的中间可解释性预测结果，例如目标检测和运动预测，也可以被用于后处理流程中，以增强系统的整体安全性。

（八）因果混淆

驾驶是一项具有时间连续性的任务，过去的运动状态往往是预测下一步动作的可靠依据。然而，使用多帧训练的方法可能会过度依赖这一“捷径”，从而在实际部署时出现严重的失败。这一问题在某些研究中被称为“模仿者问题（copycat problem）”，是因果混淆（causal confusion）的一种表现，即获取了更多信息反而导致性能下降。

因果混淆在模仿学习中已是一个持续近二十年的挑战。LeCun 等人是最早报道这一现象的研究者之一。他们在预测转向角时仅使用单帧图像输入，以避免这种过度推断。虽然这种方法较为简单，但在当前最先进的模仿学习方法中仍然被广泛采用。不幸的是，单帧输入难以提取周围参与者的运动信息。另一个因果混淆的来源是速度信息。例如，当车辆在红灯前等待时，长时间内其速度为零，操作为刹车，这种强相关性会被模型捕捉，直到红灯变绿后才会被打破。

为了解决多帧输入引起的因果混淆问题，已有多种方法被提出。在一项研究中，作者通过引入对抗训练模型来预测自车历史动作，从而从瓶颈特征中去除虚假的时间相关性。虽然这种最小-最大优化方法在 MuJoCo 环境中表现良好，但在基于视觉的复杂驾驶场景中难以扩展。OREO 方法将图像映射为表示语义对象的离散编码，并对具有相同编码的单元施加随机丢弃，缓解了 Atari 游戏中的混淆问题。在端到端驾驶中，ChauffeurNet 采用了自车过去的运动轨迹作为中间 BEV 抽象，并在训练时以 50% 的概率进行丢弃。Wen 等人提出在训练损失中提高关键帧（即决策发生变化的帧）的权重，因为这些帧不能通过对过去的外推预测。PrimeNet 通过集成策略提升关键帧表现，即将单帧模型的预测作为多帧模型的附加输入。Chuang 等人也采用类似方法，但用动作残差而非动作本身来监督多帧网络。此外，采用仅使用 LiDAR 历史（辅以单帧图像）并将点云重新对齐到统一坐标系的方式，也可绕过因果混淆问题。这种方法消除了自车运动影响，但保留了其他车辆的历史状态信息，已被多项研究采用，尽管初衷并非为了解决该问题。

然而，这些方法大多是在为研究因果混淆问题而特意简化的环境中验证的。是否能在第3-2节提到的最先进评测设置中实现性能提升，仍是一个有待解决的开放问题。

（九）缺乏鲁棒性

在这里插入图片描述

1）长尾分布问题：长尾分布问题的一个重要方面是数据集不平衡，即少数类别占据了大多数样本，如图 (a) 所示。这给模型在多样化环境中的泛化能力带来了巨大挑战。针对该问题，已有多种数据处理方法被提出，例如过采样、欠采样和数据增强等。此外，基于权重的策略也被广泛应用。

在端到端自动驾驶中，长尾分布问题尤为严重。大多数驾驶数据都是重复且无趣的，例如持续多帧的车道跟随。而具有挑战性且对安全至关重要的场景却极为罕见，且种类繁多，出于安全原因在现实中难以复现。为此，一些研究通过手工设计的模拟场景生成多样化数据。LBC 利用特权代理基于不同导航指令生成想象中的监督信号。LAV 引入了非自车体的轨迹来提升训练数据的多样性。有研究提出使用模拟框架结合重要性采样策略以加速对稀有事件概率的评估。

另一个研究方向是通过对抗攻击以数据驱动方式生成关键安全场景。例如，有方法采用贝叶斯优化生成对抗性场景；也有方法将驾驶情景表示为构建块的联合分布，并使用策略梯度方法生成高风险场景；AdvSim 则在保持物理合理性的前提下，通过扰动交通参与体的轨迹制造失败；KING 使用可微运动学模型的梯度优化算法来产生关键扰动。

总体来看，有效生成符合现实且覆盖长尾分布的关键安全场景仍是一大挑战。虽然许多工作聚焦于仿真中的对抗性场景，但充分挖掘现实世界中的关键数据并将其迁移到仿真环境中同样重要。此外，构建系统化、严谨、全面且真实的测试框架，对于评估端到端自动驾驶系统在长尾分布关键情境下的表现至关重要。

2）协变量偏移问题：如第2-1节所述，行为克隆方法面临的一个关键挑战是协变量偏移问题。专家策略产生的状态分布与训练后策略产生的状态分布存在差异，这会导致在测试环境中，特别是遇到与训练中不同的其他交通参与体反应时，错误会不断累积。这可能导致模型进入专家数据分布之外的状态，从而引发严重错误。图 (b) 展示了这一问题。

DAgger（Dataset Aggregation）是该问题的常用解决方案。它是一种迭代训练方法，在每次迭代中，当前策略用于收集新数据，并由专家对访问到的状态进行标注，从而增强数据集中关于如何从次优状态中恢复的样本。然后使用扩充后的数据集进行训练，并重复该过程。但 DAgger 的一个缺点是需要能够在线访问的专家。

在端到端自动驾驶中，DAgger 被用于与基于 MPC 的专家结合使用。为了降低频繁查询专家的成本，SafeDAgger 通过学习一个安全策略来估计当前策略与专家策略之间的偏差，仅在偏差较大时才查询专家。MetaDAgger 则结合元学习，从多个环境中聚合数据。LBC 使用 DAgger 并对损失较高的数据进行更高频次的重采样。DARB 提出多个机制（基于任务、策略或策略与专家联合）以更好地利用失败或与安全相关的样本。

3）领域适应问题：领域适应是一种迁移学习形式，其中特定任务在源域和目标域保持一致，但两者的分布不同。这里我们讨论源域有标签而目标域无标签或标签稀少的场景。

如图（c）所示，自动驾驶任务中的领域适应包含以下几类情况：

仿真到真实：训练所用仿真器与部署的真实世界之间存在巨大差异；
地理区域迁移：不同地理位置导致的环境外观差异；
天气迁移：由于雨、雾、雪等天气变化引起的传感器输入变化；
昼夜变化：图像亮度的变化；
传感器迁移：例如分辨率或安装位置不同导致的传感器差异。

上述情况往往相互交织。通常，领域不变特征学习通过图像转换器与判别器将两种域的图像映射到共同的潜在空间或分割图等表征。LUSR 和 UAIL 分别采用循环一致性变分自编码器（VAE）和生成对抗网络（GAN）将图像投影到包含域特定和域通用部分的潜在表征空间中。SESR 从语义分割图中提取类别解耦编码以缩小仿真与真实之间的差距。领域随机化是一种简单有效的仿真到真实方法，通过在训练阶段随机化渲染与物理设置，使模型在训练时就能覆盖现实世界的变化。这种方法已被应用于端到端自动驾驶中的强化学习策略训练。

目前，仿真到现实的图像映射与领域不变特征学习是研究重点。其他领域迁移问题多通过构建多样化的大规模数据集来应对。但当前方法主要集中在图像模态的视觉差异，随着 LiDAR 成为越来越主流的输入模态，亟需为其设计专门的适应方法。此外，还应注意仿真器中交通参与体行为与现实世界的差异。将真实世界数据融入仿真，例如通过 NeRF 技术，也是一个有前景的方向。

五、未来趋势

考虑到前文讨论的挑战与机遇，我们列出了一些未来研究的重要方向，这些方向可能在该领域产生更广泛的影响。

（一）零样本与小样本学习

自动驾驶模型最终不可避免地会遇到超出其训练数据分布的真实世界场景。这就引出了一个问题：我们能否在目标域中成功地适应模型，即使该域中几乎没有或完全没有标注数据。为端到端驾驶任务正式定义这一问题，并引入零样本/小样本学习领域的技术，是实现这一目标的关键步骤。

（二）模块化的端到端规划

模块化的端到端规划框架在优化多个子模块的同时，以最终的规划任务为优先目标，具备如第4-6节所述的可解释性优势。这一理念在近期文献中被广泛倡导，并被部分行业解决方案（如 Tesla、Wayve 等）所采纳。在设计这些可微分的感知模块时，出现了一些关键问题，例如：在目标检测中是否有必要使用 3D 边界框，静态场景感知中应选择 BEV 分割还是车道拓扑，以及在模块数据有限的情况下采用何种训练策略等。

（三）数据引擎

对于自动驾驶而言，大规模和高质量的数据始终至关重要。构建一个具备自动标注流程的数据引擎，将极大地促进数据与模型的迭代发展。面向自动驾驶，尤其是模块化端到端规划系统，数据引擎需要实现高质量感知标注的自动化流程，借助大型感知模型辅助完成。此外，它还应支持困难/边缘案例的挖掘、场景生成与编辑，以支撑第3-2节所述的数据驱动评估，并推动数据多样性与模型泛化能力的提升（见第4-1节）。一个完善的数据引擎将使自动驾驶模型持续获得性能改进。