当前位置：首页 > news >正文

【文献阅读】DEPTH PRO: SHARP MONOCULAR METRIC DEPTH IN LESS THAN A SECOND

news 2025/7/13 10:42:32

-文献阅读
摘要
作者提出一种零样本单目绝对深度估计的基础模型，depth pro。它合成具有无与伦比清晰度和高频细节的高分辨率深度图。预测的深度是绝对深度，而不依赖于元数据的可用性，如相机内参。（这里不依赖元数据的可用性是什么意思）
并且该模型速度快，在标准GPU上0.3秒内产生2.25兆像素的深度图。
这些特性是由许多技术贡献实现的，包括用于密集预测的有效的多尺度视觉转换器，结合真实和合成数据集的训练协议，以实现高精度的边界跟踪，**估计深度图中边界精度的专用评估指标，以及从单幅图像中估计最先进的焦距**。
大量的实验分析了具体的设计选择，并证明了Depth Pro在多个维度上优于先前的工作。
代码传送门

引言
零样本单目深度估计支持越来越多的应用，例如高级图像编辑、视图合成和条件图像生成。在MiDaS ( Ranftl et al , 2022)和后续许多工作( Ranftl et al , 2021 ; Ke et al , 2024 ; Yang et al , 2024a ;皮奇内利et al , 2024 ; Hu et al , 2024)的启发下，应用程序越来越多地利用了为任何图像生成稠密像素深度图的能力。

作者的工作特别受到来自单张图像的新颖视图合成的激励，这是一个令人兴奋的应用，它已经被单目深度估计( Hedman et al , 2017 ; Shih et al . , 2020 ; Jampani et al , 2021 ; Khan et al , 2023)的进步所改变。

单幅图像新视图合成的应用暗含了许多单目深度估计待解决的问题。

首先，深度估计器应该零样本的在任何图像上工作，而不局限于特定的域( Ranftl et al , 2022 ; Yang et al , 2024a)。
此外，该方法在理想情况下，应能以零样本模式生成度量深度图（绝对深度图），以准确地再现物体形状、场景布局和绝对尺度(桂子丽妮等, 2023 ; Hu et al . , 2024)。为了最广泛的“野外”适用性，该方法应该产生具有绝对尺度的度量深度图，即使图像没有提供摄像机内参数(如焦距)。
这使得基本任意单幅图像的视图合成场景成为可能，如"从63毫米以外合成该场景的视图"。

其次，最引人注目的结果是，单目深度估计器应该在高分辨率下操作，并产生与图像细节紧密相关的细粒度深度图，如头发、皮毛和其他精细结构。
生成精确跟踪复杂细节的锐利深度图的一个好处是消除"飞行像素"，这在视图合成等应用中会降低图像质量。（好处是降低图像质量？还是降低对图像质量的要求？）

第三，对于许多交互式应用场景，深度估计器应该在低延迟下运行，在不到一秒的时间内处理一张高分辨率图像，以支持交互式视图合成的"按需查询"。低延迟是将零样本单目深度估计通过神经网络减少到单次前向传递的方法的共同特征，但这并不总是被那些在测试时使用计算要求更高的机器的方法所共享。
Depth Pro在V100 GPU上可在0.3秒内生成绝对尺度为2.25百万像素的零样本度量深度图。
在这项工作中，我们提出了一个满足所有这些要求（在任何图像上零样本、深度估计图高分辨率、高频细节丰富以及低延迟）的零样本度量单目深度估计的基础模型。我们的模型Depth Pro，在不需要相机内参等元数据的情况下，在任意"野外"图像上生成具有绝对尺度的度量深度图。
它以高分辨率工作，在V100 GPU上0.3秒内产生2.25兆像素深度图(在可选的进一步上采样之前,具有1536 × 1536的原生输出分辨率)。
在V100 GPU上以0.3秒的速度产生2.25M像素深度图。图1给出了一些具有代表性的结果。
Depth Pro在物体边界的锐利勾画方面显著优于所有先前的工作，包括毛发、皮毛、植被等细微结构。

补充知识：边界召回率（Boundary Recall）是图像分割领域用于评估算法性能的指标，主要用于衡量算法对真实边界检测的准确性。其核心思想是计算真实边界点周围是否存在预测边界点，以此判断算法对边界的检测能力。

如图2所示，Depth Pro提供了无与伦比的边界追踪，在边界召回中通过一个乘法因子超越了先前所有的工作。
相比于目前最先进的边界精读，Depth Pro速度快了1~2个数量级，边界精度更高，提供了具有绝对尺度的深度估计图。
图2：边界召回率与运行时间。Depth Pro通过乘性因子在边界精度上优于先前的工作，同时比专注于细粒度预测的工作快几个数量级
可以看的出边界召回率depth pro最好，速度也比较快，速度优于depth pro的方法的召回率低。

Depth Pro由多项技术贡献实现。
一、它推导了一套新的度量指标，可以利用高精度的抠图数据集来量化边界跟踪在评估单目深度图中的准确性。作者分析了典型输出分辨率的影响，发现高分辨率是必要的，但不足以提高边界精度。

二、它设计了一种高效的基于多尺度的ViT框架，用于捕获全局图像上下文，同时在高分辨率下也能预测出精细的结构。

三、它设计了一组损失函数和训练策略，以促进锐利深度估计，
同时在提供了粗略的和不准确的边界监督的真实世界数据集上，以及提供了精确的像素级GT但是真实性有限的合成数据集上训练。

四、从单幅图像中实现了零样本焦距估计，其性能显著优于现有技术。

相关工作

早期关于单目深度估计的工作主要集中在使用单个相机记录的单个数据集上进行训练。虽然这种设置直接实现了绝对深度估计预测，但受限于单一数据集和狭小的领域。

零样本深度估计：
MegaDepth（Li与Snavely于2018年提出）表明，利用多样化数据集进行训练，可使单目深度预测（模型）超越特定领域，实现泛化应用。MiDaS（Ranftl等人，2022年）通过采用包含多种不同数据集的大型混合数据集，并使用尺度平移不变损失函数进行训练，进一步推进了这一理念。后续研究将这一方法应用于基于Transformer的架构（Ranftl等人，2021年；Birkl等人，2023年），并通过自监督学习进一步拓展了可用数据集的范围（Spencer等人，2023年；Yang等人，2024a）。有一系列研究利用自监督学习从未标注的图像和视频数据中学习（Petrovai & Nedevschi，2022年；Yang等人，2024a）。近期的一些方法（Ke等人，2024年；Gui等人，2025年）利用扩散模型合成相对深度图。尽管其中一些方法展现出了出色的泛化能力，但它们的预测结果在尺度和偏移上存在模糊性，这限制了那些需要精确形状、尺寸或距离的下游应用。

零样本绝对深度估计：

一系列研究试图通过利用深度值的全局分布（Fu等人，2018年；Bhat等人，2021年；2022年；Li等人，2024b）以及进一步结合场景类型进行条件建模（Bhat等人，2023年），来改进绝对深度预测。

另一种方法则直接将相机内参纳入考量。Cam-Convs（Fácil等人，2019年）使卷积运算以相机内参为条件。LeReS（Yin等人，2021年）训练了一个独立网络，用于对点云去畸变以恢复深度图的尺度和偏移；Metric3D（Yin等人，2023年）将图像或深度图缩放至规范空间，并根据焦距重新映射估计的深度；ZeroDepth（Guizilini等人，2023年）在变分框架中学习相机特定的嵌入表示。DMD（Saxena等人，2023年）使扩散模型以视场为条件。Metric3D v2（Hu等人，2024年）利用表面法线作为辅助输出以改进绝对深度。所有这些方法均要求已知且准确的相机内参。近期研究则尝试通过独立网络（Spencer等人，2024年）或预测相机嵌入表示以在球面空间中对深度预测进行条件建模（Piccinelli等人，2024年），从而推断未知的相机内参。

与这些近期方法类似，作者的方法无需将焦距作为输入提供。作者提出直接从深度预测网络的中间特征中估计视场（field of view），并证明该方法在跨域焦距估计任务中的表现显著优于现有最先进水平。

清晰锐利的遮挡轮廓。
SharpNet（Ramamonjisoa和Lepetit，2019）将法线和遮挡轮廓约束纳入模型，但训练时需要额外的轮廓和法线监督信息。BoostingDepth（Miangoleh等人，2021）通过将低分辨率网络独立应用于图像块，从而获得精细的深度预测结果。然而，由于图像块缺乏全局上下文信息，BoostingDepth需通过复杂的多步骤流程对它们进行融合。PatchFusion（Li等人，2024a）通过图像自适应的图像块采样以及定制化模块对这一概念进行了优化，实现了端到端训练。近期一系列研究（Gui等人，2025年；Ke等人，2024年）利用扩散先验来提升遮挡边界的清晰度。然而，这些方法主要聚焦于预测相对深度（而非绝对深度）。作者提出了一种更简单的架构，无需任务特定模块或扩散先验，即可在生成绝对深度图的同时，获得更清晰、更准确的结果，且运行时间缩短了两个数量级以上。

引导式深度超分辨率技术利用输入图像对低分辨率深度预测结果进行上采样（Metzger等人，2023年；Zhong等人，2023年）。SMDNet（Tosi等人，2021年）通过预测双峰混合密度来锐化遮挡轮廓。Ramamonjisoa等人（Ramamonjisoa等人，2020年）则引入了一个模块，用于学习如何锐化预训练网络的深度边界。这些研究与我们的方法互为补充，可应用于进一步对我们生成的高分辨率预测结果进行上采样处理。

为评估预测深度图中边界勾勒的效果，Koch等人（2018年）推出了iBims数据集，该数据集对遮挡轮廓进行了人工标注，并提供了相应的评估指标。然而，人工标注的需求以及对高精度深度真值的依赖，使得该基准测试仅限于少量室内场景。作者提出了基于分割与图像抠图数据集的评估指标，这些指标通过支持对复杂动态环境或具有超精细细节（此类场景的深度真值无法获取）的场景进行评估，从而提供了互补的评估视角。

多尺度VIT
视觉Transformer（Vision Transformers，ViTs）已成为感知任务中占据主导地位的通用架构，但其运行分辨率较低（Dosovitskiy等人，2021年）。由于注意力层的计算复杂度过高，若直接将其扩展到更高分辨率会面临计算瓶颈，为此，多项研究提出了替代方案（Zhu等人，2021年；Liu等人，2021年；Li等人，2022c；Chu等人，2021年；Liu等人，2022a；2023年；Cai等人，2023年；Jaegle等人，2022年）。另一类研究则对ViT架构进行改进，以生成多层次特征（Fan等人，2021年；Xie等人，2021年；Yuan等人，2021年；Ranftl等人，2021年；Chen等人，2021年；Lee等人，2022年）。

相较于需要耗费大量计算资源进行重新训练的ViT架构修改方案，作者提出了一种新架构：该架构在多尺度上应用纯ViT主干网络，并将各尺度预测结果融合为单一高分辨率输出。这种设计能够直接受益于ViT预训练领域的持续进展——新变体模型可轻松替换接入（Oquab等人，2024年；Peng等人，2022b年；Sun等人，2023年）。
预训练的视觉Transformer（ViT）已被成功应用于语义分割和目标检测任务。ViT-Adapter（Chen等人，2023年）和ViT-CoMer（Xia等人，2024年）通过为预训练ViT添加卷积网络来实现密集预测，而ViT-Det（Li等人，2022b年）则在预训练ViT之上构建特征金字塔。与这些方法不同，作者通过融合多尺度ViT提取的特征，同时学习全局上下文信息和局部细节信息。

方法
network
网络的核心思想在于：在端到端可训练的模型中（见图3），将纯视觉Transformer（ViT）编码器（Dosovitskiy等人，2021年）应用于从多尺度提取的图像块上，并将其预测结果融合为单一的高分辨率密集深度预测图。由于图像块编码器在所有尺度上共享权重，从直观上看，它能够学习到尺度不变的特征表示。图像编码器则将图像块预测结果锚定在全局上下文中。它作用于整个输入图像，并将其下采样至所选编码器主干网络的基础输入分辨率（在我们的案例中为384×384）。

在这里插入图片描述

整个网络以1536×1536的固定分辨率运行，该分辨率是ViT基础分辨率384×384的整数倍。这一设计既确保了足够大的感受野，又能保证对任意尺寸图像的处理时间恒定，同时避免了内存溢出问题（我们在处理大尺寸图像时，反复观察到可变分辨率方法存在此类错误）。第4节和表5的实验结果验证了这一设计选择：Depth Pro相比可变分辨率方法，不仅速度始终快数个数量级，而且精度更高、边界更清晰。采用纯ViT编码器而非定制编码器构建架构的关键优势在于，可充分利用大量现成的预训练ViT主干网络（Oquab等人，2024；Peng等人，2022b；Sun等人，2023）。

在将输入图像初步下采样至1536×1536分辨率后，作者在每个尺度上将图像分割为384×384大小的图像块。对于两个最精细的尺度，作者让图像块相互重叠以避免出现拼接缝隙，这两个尺度分别生成25个和9个图像块。总共，作者提取了35个图像块，并沿批量维度将它们拼接起来，以便进行高效的批量处理，随后将这些图像块输入到图像块编码器中。这样，每个输入图像块都会生成一个分辨率为24×24的特征张量（图3中的特征3 - 6）。在最精细的尺度上，作者还进一步提取了中间特征（图3中的特征1和特征2），以捕捉更精细的细节，从而额外生成25 + 25 = 50个特征图像块。将这作者些特征图像块合并为特征图（具体细节见C.1节），并将其输入到解码器模块中，该解码器模块与DPT解码器（Ranftl等人，2021年）类似。

除了跨尺度共享特征表示外，基于图像块的编码器网络应用方式还天然支持并行化处理，因为各图像块可独立运算。其计算效率的另一优势源于：与直接将ViT扩展至更高分辨率相比，基于图像块的处理方式计算复杂度更低。原因在于多头自注意力机制（Vaswani等人，2017年）的计算复杂度与输入像素数量呈平方关系，因此在图像维度上会呈现四次方增长趋势。而通过图像块分割处理，可有效控制每次注意力计算的输入规模，从而显著降低整体计算量。

清晰单目深度估计
训练目标
对于每个输入图像 I，网络 f 会预测一张标准逆深度图 C=f(I)，其中 C 的数值表示归一化的相对深度（值越小对应距离越远）。为将其转换为密集的绝对深度图 Dm，需通过相机水平视场参数进行尺度校准，具体公式为：
在这里插入图片描述
其中：

f px：相机的水平焦距（以像素为单位），由相机内参矩阵提供；
w：输入图像的宽度（像素）；
C：网络预测的逆深度图。

作者采用基于标准逆深度的多种损失函数进行训练，因为这种设计能优先关注靠近摄像机的区域（而非远处或整个场景），从而在新型视图合成等应用中提升视觉质量（详见附录B.4）。设 ^C为真实标准逆深度图，对于所有带真实度量深度的数据集，作者计算每个像素 i 的平均绝对误差（LMAE，公式1），并在真实场景数据集（非合成数据）中剔除每张图像误差排名前20%的像素点后再进行评估：
在这里插入图片描述
对于所有非绝对深度数据集（即缺乏可靠相机内参或尺度不一致的数据集），我们在计算损失前，会先通过中位数平均绝对偏差（Median Absolute Deviation, MAD）对预测值和真实值进行归一化处理（方法参考Ranftl等人，2022）。此外，我们还在多尺度下计算（标准）逆深度图的一阶和二阶空间导数的误差。设 ∇ ∗表示空间导数算子 ∗（如Scharr算子 S（Scharr等人，1997）或Laplace算子 L），p 为误差范数，则多尺度导数损失，在M个尺度上定义为：在这里插入图片描述