当前位置：首页 > news >正文

⭐CVPR2025 3D 高斯探测视觉基础模型3D能力

news 2025/8/15 9:27:52

⭐CVPR 开源论文精读 | Feat2GS：用 3D 高斯探测视觉基础模型的 3D 能力

📄论文题目：Feat2GS: Probing Visual Foundation Models with Gaussian Splatting

✍️作者及机构：Yue Chen、Xingyu Chen、Anpei Chen 等（浙江大学、西湖大学、德国图宾根大学、马克斯・普朗克研究所等）

🧩面临问题：当前视觉基础模型（VFMs）的 3D 能力评估存在局限。一方面，现有方法多聚焦几何感知（如深度、法线估计），忽略纹理感知能力，而纹理对 3D 重建与生成至关重要；另一方面，评估依赖 3D 标注数据，限制了数据集的规模和多样性，难以公平全面地 benchmark 不同 VFMs。

在这里插入图片描述

🎯创新点及其具体研究方法：

1️⃣ 提出 Feat2GS 统一探测框架：基于 3D 高斯 splatting（3DGS）实现 VFMs 的 3D 能力测评。从输入图像中提取 VFMs 特征，通过轻量 readout 层（2 层 MLP）将像素级特征转化为 3D 高斯参数（几何：位置 x、不透明度 α、协方差 Σ；纹理：球面谐波系数 c），以光度损失训练，最终通过新视角合成（NVS）评估 3D 能力，全程无需 3D 标注数据。同时利用 DUSt3R 初始化相机姿态，支持稀疏、无标定的 casual 图像测评。

2️⃣ 全面剖析 VFMs 的几何与纹理感知能力：设计三种探测模式（GTA 模式）分离测评几何和纹理 awareness。- Geometry 模式：用 VFMs 特征预测 3D 高斯几何参数，自由优化纹理参数，评估几何感知；- Texture 模式：用 VFMs 特征预测纹理参数，自由优化几何参数，评估纹理感知；- All 模式：用特征同时预测所有参数，评估整体 3D 能力。在 7 个多视图数据集（LLFF、DTU 等）上通过 PSNR、SSIM、LPIPS 量化，发现 RADIO 几何最优、MAE 纹理更优，Stable Diffusion 表现最差。

3️⃣ 构建强基线刷新新视角合成（NVS）性能：基于测评发现设计高效基线。- 特征筛选：选取几何最优的 RADIO 特征作为基础，提升 NVS 几何一致性；- 特征融合：拼接高排名 VFMs 特征（如 RADIO+MAE），经 PCA 统一维度后通过轻量网络解码 3D 高斯，避免过拟合；- 微调优化：在 warm-start 阶段结合 DUSt3R 点云初始化，提升优化稳定性。在稀疏无标定图像上，PSNR 和 SSIM 全面超越 SOTA 方法 InstantSplat。

在这里插入图片描述