当前位置: 首页 > news >正文

开卷可扩展自动驾驶(OpenDriveLab)

一种通用的视觉点云预测预训练方法

开卷可扩展自动驾驶(OpenDriveLab)

自动驾驶新方向?ViDAR:开卷可扩展自动驾驶(OpenDriveLab)-CSDN博客

创新点

在这项工作中,本文探索了专为端到端视觉自动驾驶应用量身定制的预训练方法,不仅包括感知,还包括预测和规划。本文构建了一个新的 pretext tasks ——视觉点云预测(见图2),以充分利用原始图像-激光雷达序列背后的语义、三维几何和时间动态信息,并考虑到可扩展性(being scalable)。它从历史视觉图像中预测未来的点云。

视觉点云预测的主要理念在于对语义、三维结构和时间建模的同时监督。通过迫使模型从历史数据预测未来,它监督了场景流和物体运动的提取,这对于时间建模和未来估计至关重要。同时,它涉及从图像重建点云,这监督了多视角几何和语义建模。因此,来自视觉点云预测的特征嵌入了几何和时间提示(geometric and temporal hints)的信息,这对于同时进行感知、跟踪和规划都是有益的。

为此,本文提出了 ViDAR,一种用于预训练的通用视觉点云预测方法(a general visual point cloud forecasting approach)(见图2)。ViDAR 包括三个部分:历史编码器(History Encoder)、潜在渲染操作符(Latent Rendering operator)和未来解码器(Future Decoder)。历史编码器是预训练的目标结构。它可以是任何视觉BEV编码器,用于将视觉序列嵌入到BEV空间。这些BEV特征被送入潜在渲染操作符。潜在渲染在使 ViDAR 提升下游性能方面发挥着至关重要的作用。它解决了 射线形状BEV特征问题(ray-shaped BEV features issue),建模三维几何潜在空间,并连接编码器与解码器。未来解码器是一个自回归 transformer ,它利用历史BEV特征迭代地预测任意时间戳的未来点云。

http://www.lryc.cn/news/450998.html

相关文章:

  • 基于大数据的二手电子产品需求分析及可视化系统
  • SpringBoot——基础配置
  • Android OpenGLES2.0开发(三):绘制一个三角形
  • 数据清洗的重要性与方法
  • AI与大数据的结合:如何从海量数据中提取价值
  • 【漏洞复现】孚盟云oa AjaxSendDingdingMessage接口 存在sql注入漏洞
  • 【VUE】案例:商场会员管理系统
  • IDEA 最新版创建 Sping Boot 项目没有 JDK8 选项的解决方案
  • Unity Asset Store的默认下载位置及更改下载路径的方法
  • ArcEngine实现要素坐标转换:平移、缩放、旋转(批量处理)
  • Redis: 主从复制原理
  • PostgreSQL 向量扩展插件pgvector安装和使用
  • 【论文阅读】基于真实数据感知的模型功能窃取攻击
  • 线程池:线程池的实现 | 日志
  • 海信和TCL雷鸟智能电视的体验
  • 自动化学习3:日志记录及测试报告的生成--自动化框架搭建
  • 【STM32单片机_(HAL库)】4-1【定时器TIM】定时器中断点灯实验
  • Linux编译安装Mysql笔记
  • 在java后端发送HTTPClient请求
  • 【STM32单片机_(HAL库)】4-3-2【定时器TIM】测量按键按下时间1——编程实现捕获功能
  • MySQL:2059 - Authentication plugin ‘caching_sha2_password‘ cannot be loaded
  • 【JavaSE】反射、枚举、lambda表达式
  • P3227 [HNOI2013] 切糕
  • 超分服务的分量保存
  • Windows11系统下SkyWalking环境搭建教程
  • 前端BOM常用操作
  • 【Go】-viper库的使用
  • JavaWeb酒店管理系统(详细版)
  • C++ | 定长内存池 | 对象池
  • python画图|自制渐变柱状图