当前位置：首页 > news >正文

occworld(1):论文解读

news 2025/8/10 8:47:00

https://arxiv.org/pdf/2311.16038v1
在这里插入图片描述

理解3D场景的演化对于自动驾驶中的决策至关重要。大多数现有方法通过预测物体包围框的运动来实现这一点，但这些方法无法捕捉更细粒度的场景信息。在本文中，我们探索了一种新的框架，即在3D Occupancy空间中学习一个世界模型OccWorld，以同时预测自车运动和周围场景的演化。我们提出基于3D occupancy而不是3D包围框和分割图来学习世界模型，原因有三点：>- 表达能力：3D occupancy可以描述更细粒度的场景3D结构；>- 效率：3D occupancy的获取成本更低（例如从稀疏LiDAR点云生成）；>- 通用性：3D occupancy可以同时适配视觉和LiDAR。>为了便于建模世界演化，我们在3D occupancy上学习了一个基于重建的scene tokenizer，以获得离散的scene token来描述周围场景。随后，我们采用了一个类似GPT的时空生成式transformer，生成后续的scene token和ego token，以解码未来的occupancy和自车轨迹。在广泛使用的nuScenes基准数据集上的大量实验证明了OccWorld能够有效建模驾驶场景的演化。OccWorld还在不使用实例和地图监督的情况下，生成了具有竞争力的规划结果。代码：https://github.

查看全文

http://www.lryc.cn/news/615193.html