当前位置: 首页 > news >正文

occworld(1):论文解读

https://arxiv.org/pdf/2311.16038v1
在这里插入图片描述

理解3D场景的演化对于自动驾驶中的决策至关重要。大多数现有方法通过预测物体包围框的运动来实现这一点,但这些方法无法捕捉更细粒度的场景信息。在本文中,我们探索了一种新的框架,即在3D Occupancy空间中学习一个世界模型OccWorld,以同时预测自车运动和周围场景的演化。我们提出基于3D occupancy而不是3D包围框和分割图来学习世界模型,原因有三点:>- 表达能力:3D occupancy可以描述更细粒度的场景3D结构;>- 效率:3D occupancy的获取成本更低(例如从稀疏LiDAR点云生成);>- 通用性:3D occupancy可以同时适配视觉和LiDAR。>为了便于建模世界演化,我们在3D occupancy上学习了一个基于重建的scene tokenizer,以获得离散的scene token来描述周围场景。随后,我们采用了一个类似GPT的时空生成式transformer,生成后续的scene token和ego token,以解码未来的occupancy和自车轨迹。在广泛使用的nuScenes基准数据集上的大量实验证明了OccWorld能够有效建模驾驶场景的演化。OccWorld还在不使用实例和地图监督的情况下,生成了具有竞争力的规划结果。代码:https://github.

http://www.lryc.cn/news/615193.html

相关文章:

  • Ghost备份分区设置分包大小方法
  • 任务发布悬赏查询管理地推抖音快手微信任务赚佣金网站源码功能详解二开
  • 谷歌警告云存储桶劫持攻击
  • 让大模型 “睡觉”:把版本迭代当作人类睡眠来设计(附可直接改造的训练作息表与代码)
  • n沟道增强型mos管
  • B.10.01.6-DDD领域驱动设计:从理论到落地的完整指南
  • Typora上传图片保存到assets目录下
  • 第十四届蓝桥杯青少年组省赛 编程题真题题解
  • stm32项目(24)——基于STM32的汽车CAN通信系统
  • WinForm 复合控件(用户控件):创建与使用指南
  • 深入 FastMCP 源码:认识 tool()、resource() 和 prompt() 装饰器
  • sqli-labs通关笔记-第39关 GET数值型堆叠注入(手工注入+脚本注入两种方法)
  • 数据分析框架从 “工具堆砌” 转向 “智能协同”
  • 大语言模型提示工程与应用:提示工程-提升模型准确性与减少偏见的方法
  • node.js 零基础入门
  • 学习嵌入式第二十四天
  • Kotlin 协程线程切换机制详解
  • M8-11 RFID模块通过RS485转Profinet网关与PLC通信的配置指南
  • 安装NodeJS和TypeScript简要指南
  • 虚拟机远程连接报错解决办法
  • 「iOS」————分类与扩展
  • 书生浦语第五期-L1G4-InternLM 论文分类微调实践(XTuner 版)
  • 代码随想录day60图论10
  • 快速使用selenium+java案例
  • Nginx 性能优化与动态内容处理
  • TOMCAT笔记
  • 七、《Serverless架构:按毫秒计费的成本革命》--从新浪AI推理平台50%效能提升看无服务器本质
  • 前端如何安全存储 API 密钥 —— 两种实用方案
  • CosyVoice 语音合成模型性能优化实战:从 CPU 瓶颈到 GPU 加速的完整解决方案
  • electron多进程设计