当前位置: 首页 > news >正文

Lift, Splat, Shoot图像BEV安装与模型详解

1 前言

计算机视觉算法通常使用图像是作为输入并输出预测的结果,但是对结果所在的坐标系却并不关心,例如图像分类、图像分割、图像检测等任务中,输出的结果均在原始的图像坐标系中。因此这种范式不能很好的与自动驾驶契合。

在自动驾驶中,多个相机传感器的数据一起作为输入,这样每帧图像均在自己的坐标系中;但是感知算法最终需要在车辆自身坐标系(ego coordinate)中输出最终的预测结果;并提供给下游的规划任务。

当前也有很多简单、使用的方法用于扩展单帧图像到多视角图像的方法。简单实用的有来自所有相机的每一帧图像均进行目标检测,然后可以根据各相机的内参与外参对检测的结果进行旋转和平移至ego坐标系中。这一种单帧扩展到多视角的的方法有如下3个重要的对称性质:

        1 平移对称性(Translation equivariance):在图像坐标系中所有的像素偏移会导致输出的结果同样带有此偏移。

        2 排列不变性(Permutation invariance):算法结果不会因为不同相机输入帧的排列组合不同导致输出结果不一致。

        3 ego坐标系的等距性(Ego-frame isometry equivariance):物理世界是三维世界,因此ego在物理世界中,遵循T∈SE3变换;即ego-frame被旋转平移输出也会进行相同的旋转与平移。

上述简单方法的缺点是使用后处理来自单图像检测器的检测,使得网络不能直接在ego坐标系使用预测结果回传到输入来进行优化;导致模型不能很好的融合来自多相机的数据;同时也不能根据下游的规划任务的反馈来优化整个感知算法,因为数据不连贯致使反向传播算法难以应用。

综上所述,本文作者提出了编码来自

http://www.lryc.cn/news/193381.html

相关文章:

  • MySQL简介
  • php代码优化---本人的例子
  • EMC Unity存储(VNXe) service Mode和Normal Mode的一些说明
  • 基于全景运动感知的飞行视觉脑关节神经网络全方位碰撞检测
  • Java 继承与实现
  • Unity 3D基础——计算两个物体之间的距离
  • css常见问题处理
  • 蓝桥杯(迷宫,C++)
  • Python爬虫selenium安装谷歌驱动解决办法
  • 生信教程:使用拓扑加权探索基因组进化(3)
  • React js原生 详解 HTML 拖放 API(鼠标拖放功能)
  • LiveMedia视频中间件如何与第三方系统实现事件录像关联
  • 机器学习-有监督算法-决策树和支持向量机
  • luffy项目之后台项目搭建、目录调整、封装日志、全局异常、Response、数据库连接
  • C++标准模板(STL)- 类型支持 (数值极限,min_exponent10,max_exponent,max_exponent10)
  • linux 服务器类型Apache配置https访问
  • langchain 加载各种格式文件读取方法
  • 飞花令游戏(Python)
  • 解决“413 Request Entity Too Large”错误 代表请求包太大,服务器拒绝响应
  • MoeCTF2023web
  • C语言编写简易图书管理系统
  • C++入门 第一篇(C++关键字, 命名空间,C++输入输出)
  • python股票波动性分析
  • 53 打家劫舍
  • CentOS 7 基于C 连接ZooKeeper 客户端
  • 2023-2024-1 for循环-1(15-38)
  • 初级问题 程序中的变量是指什么?中级问题 把若干个数据沿直线排列起来的数据结构叫作什么?高级问题 栈和队列的区别是什么?
  • clickhouse数据库简介,列式存储
  • flask 发送ajax
  • Android Gradle 命令打包AAR