当前位置：首页 > article >正文

DriveGenVLM：基于视觉-语言模型的自动驾驶真实世界视频生成

article 2025/9/14 7:11:50

《DriveGenVLM: Real-world Video Generation for Vision Language Model based Autonomous Driving》2024年8月发表，来自哥伦比亚大学的论文。

自动驾驶技术的进步需要越来越复杂的方法来理解和预测现实世界的场景。视觉语言模型（VLM）正在成为革命性的工具，具有影响自动驾驶的巨大潜力。本文提出了DriveGenVLM框架来生成驾驶视频，并使用VLM来理解它们。为了实现这一目标，我们采用了一种基于去噪扩散概率模型（DDPM）的视频生成框架，旨在预测真实世界的视频序列。然后，我们通过使用一种称为“自我中心视频高效情境学习”（EILEV）的预训练模型，探索我们生成的视频在VLM中使用的充分性。扩散模型使用Waymo开放数据集进行训练，并使用Frechet Video’Distance（FVD）评分进行评估，以确保生成视频的质量和真实性。EILEV为这些生成的视频提供了相应的叙述，这在自动驾驶领域可能是有益的。这些叙述可以增强对交通场景的理解，有助于导航，提高规划能力。DriveGenVLM框架中视频生成与VLM的集成代表了利用先进的人工智能模型解决自动驾驶复杂挑战的重要一步。

1. 研究背景与目标

自动驾驶技术需要动态环境理解和预测能力，传统视频生成模型（如GANs、VAEs）在长视频生成中存在连贯性不足的问题。本文提出 DriveGenVLM 框架，结合 去噪扩散概率模型（DDPM） 生成驾驶视频，并利用 视觉语言模型（VLMs） 验证视频的可解释性，以提升自动驾驶的场景理解、导航与规划能力。

2. 核心方法

视频生成模型（DDPM）
- 架构：基于U-Net的扩散模型，通过前向（加噪）和反向（去噪）过程生成视频。
- 条件扩展：通过条件输入（如初始帧）生成未来帧，支持长视频生成。
- 采样策略：
  - Autoreg：逐帧生成，依赖前序帧。
  - Hierarchy-2：分层采样，先粗粒度后细粒度。
  - Adaptive Hierarchy-2：动态调整条件帧，优化多样性（基于LPIPS距离）。
视觉语言模型（EILEV）
- 基于BLIP-2的预训练模型，通过上下文学习生成视频的文字描述。
- 验证生成视频的可解释性，例如识别场景（高速公路、夜间驾驶）和关键事件（行人、车辆）。

3. 实验与结果

数据集：Waymo开放数据集（包含多摄像头视角的驾驶视频，分辨率128×128）。
评估指标：
- FVD（Frechet Video Distance）：衡量生成视频与真实视频的分布相似性，数值越低质量越高。
关键结果：
- Adaptive Hierarchy-2采样策略在三个摄像头视角（Front、Front-left、Front-right）中均取得最低FVD分数（如Front Camera: 1174.56）。
- EILEV模型成功为生成视频生成准确文字描述（如“车辆在夜间行驶”），验证其可解释性。