当前位置: 首页 > news >正文

Transformer 立体视觉 Depth Estimation

1. Intro

立体深度估计具有重要的意义,因为它能够重建三维信息。为此,在左右相机图像之间匹配相应的像素;对应像素位置的差异,即视差,可以用来推断深度并重建3D场景。最近基于深度学习的立体深度估计方法已经显示出有希望的结果,但仍然存在一些挑战。

其中一个挑战涉及使用有限的视差范围。理论上,视差值的范围可以从0到图像宽度,这取决于相机的分辨率/基线以及它们与物理对象的接近程度。然而,许多性能最好的方法都被限制在手动预先指定的视差范围内(通常最大值为192像素)[21]。这些方法依赖于“成本量”,其中计算多个候选匹配的匹配成本,并计算最终预测的差异值作为总和。这种自我施加的视差范围是必要的,以使这些方法的内存可行的实现,但不是灵活的物理场景和/或相机设置的属性。在自动驾驶和内窥镜干预等应用中,无论相机设置如何(视差值可能大于192),识别近距离物体以避免碰撞是很重要的,这表明需要放宽固定视差范围假设。

几何属性和约束,如遮挡和匹配唯一性,导致了非学习方法的成功,如[18],也经常在基于学习的方法中缺失。对于立体深度估计,遮挡区域没有有效的视差。先前的算法通常通过分段平滑假设来推断被遮挡区域的差异,这可能并不总是有效的。提供置信度估计和视差值将有利于下游分析,例如配准或场景理解算法,以便对遮挡和低置信度估计进行加权或拒绝。然而,大多数先前的方法不提供这样的信息。此外,一幅图像中的像素不应该与另一幅图像中的多个像素匹配(直到图像分辨率),因为它们对应于物理场景中的相同位置[28]。虽然这个约束对于解决歧义非常有用,但是大多数现有的基于学习的方法并没有强加它。

上述问题在很大程度上源于当代立体匹配观的缺陷,即试图构建一个成本体。从沿极线序列对序列匹配的角度考虑视差估计的方法可以避免这些挑战。这些方法并不新鲜࿰

http://www.lryc.cn/news/116048.html

相关文章:

  • vue去掉所有输入框两边空格,封装指令去空格,支持Vue2和Vue3,ElementUI Input去空格
  • 认识FFMPEG框架
  • Vue3 大屏数字滚动效果
  • 【深度学习注意力机制系列】—— SENet注意力机制(附pytorch实现)
  • go 函数
  • python之正则表达式
  • 【LeetCode每日一题】——219.存在重复元素II
  • 篇六:适配器模式:让不兼容变兼容
  • 【云原生】Docker-compose中所有模块学习
  • 广义积分练习
  • element-ui树形表格,左边勾选,右边显示选中的数据-功能(如动图)
  • Android数字价格变化的动画效果的简单实现
  • Win10无法投影关闭3D模式
  • FFmpeg 编码详细流程
  • 05如何做微服务架构设计
  • 安卓开发问题记录:需要常量表达式
  • 回归预测 | MATLAB实现基于SVM-RFE-BP支持向量机递归特征消除特征选择算法结合BP神经网络的多输入单输出回归预测
  • 配置root账户ssh免密登录并使用docker-machine构建docker服务
  • 【力扣周赛】第357场周赛
  • 多线程案例(4)-线程池
  • 【数据结构OJ题】轮转数组
  • 现代C++中的从头开始深度学习:【4/8】梯度下降
  • Yolov5缺陷检测/目标检测 Jetson nx部署Triton server
  • MobaXterm 中文乱码, 及pojie
  • java: 程序包sun.misc不存在
  • WSL2Linux 子系统(五)
  • java 企业工程管理系统软件源码 自主研发 工程行业适用 em
  • IPO观察丨困于门店扩张的KK集团,还能讲好增长故事吗?
  • 【iOS】RunLoop
  • 数据包传输方式:单播、多播、广播、组播、泛播