⭐CVPR2025 3D 高斯探测视觉基础模型3D能力
⭐CVPR 开源论文精读 | Feat2GS:用 3D 高斯探测视觉基础模型的 3D 能力
📄论文题目:Feat2GS: Probing Visual Foundation Models with Gaussian Splatting
✍️作者及机构:Yue Chen、Xingyu Chen、Anpei Chen 等(浙江大学、西湖大学、德国图宾根大学、马克斯・普朗克研究所等)
🧩面临问题:当前视觉基础模型(VFMs)的 3D 能力评估存在局限。一方面,现有方法多聚焦几何感知(如深度、法线估计),忽略纹理感知能力,而纹理对 3D 重建与生成至关重要;另一方面,评估依赖 3D 标注数据,限制了数据集的规模和多样性,难以公平全面地 benchmark 不同 VFMs。
🎯创新点及其具体研究方法:
1️⃣ 提出 Feat2GS 统一探测框架:基于 3D 高斯 splatting(3DGS)实现 VFMs 的 3D 能力测评。从输入图像中提取 VFMs 特征,通过轻量 readout 层(2 层 MLP)将像素级特征转化为 3D 高斯参数(几何:位置 x、不透明度 α、协方差 Σ;纹理:球面谐波系数 c),以光度损失训练,最终通过新视角合成(NVS) 评估 3D 能力,全程无需 3D 标注数据。同时利用 DUSt3R 初始化相机姿态,支持稀疏、无标定的 casual 图像测评。
2️⃣ 全面剖析 VFMs 的几何与纹理感知能力:设计三种探测模式(GTA 模式)分离测评几何和纹理 awareness。- Geometry 模式:用 VFMs 特征预测 3D 高斯几何参数,自由优化纹理参数,评估几何感知;- Texture 模式:用 VFMs 特征预测纹理参数,自由优化几何参数,评估纹理感知;- All 模式:用特征同时预测所有参数,评估整体 3D 能力。在 7 个多视图数据集(LLFF、DTU 等)上通过 PSNR、SSIM、LPIPS 量化,发现 RADIO 几何最优、MAE 纹理更优,Stable Diffusion 表现最差。
3️⃣ 构建强基线刷新新视角合成(NVS)性能:基于测评发现设计高效基线。- 特征筛选:选取几何最优的 RADIO 特征作为基础,提升 NVS 几何一致性;- 特征融合:拼接高排名 VFMs 特征(如 RADIO+MAE),经 PCA 统一维度后通过轻量网络解码 3D 高斯,避免过拟合;- 微调优化:在 warm-start 阶段结合 DUSt3R 点云初始化,提升优化稳定性。在稀疏无标定图像上,PSNR 和 SSIM 全面超越 SOTA 方法 InstantSplat。