当前位置: 首页 > news >正文

⭐CVPR2025 3D 高斯探测视觉基础模型3D能力

⭐CVPR 开源论文精读 | Feat2GS:用 3D 高斯探测视觉基础模型的 3D 能力

📄论文题目:Feat2GS: Probing Visual Foundation Models with Gaussian Splatting

✍️作者及机构:Yue Chen、Xingyu Chen、Anpei Chen 等(浙江大学、西湖大学、德国图宾根大学、马克斯・普朗克研究所等)

🧩面临问题:当前视觉基础模型(VFMs)的 3D 能力评估存在局限。一方面,现有方法多聚焦几何感知(如深度、法线估计),忽略纹理感知能力,而纹理对 3D 重建与生成至关重要;另一方面,评估依赖 3D 标注数据,限制了数据集的规模和多样性,难以公平全面地 benchmark 不同 VFMs。

在这里插入图片描述

🎯创新点及其具体研究方法:

1️⃣ 提出 Feat2GS 统一探测框架:基于 3D 高斯 splatting(3DGS)实现 VFMs 的 3D 能力测评。从输入图像中提取 VFMs 特征,通过轻量 readout 层(2 层 MLP)将像素级特征转化为 3D 高斯参数(几何:位置 x、不透明度 α、协方差 Σ;纹理:球面谐波系数 c),以光度损失训练,最终通过新视角合成(NVS) 评估 3D 能力,全程无需 3D 标注数据。同时利用 DUSt3R 初始化相机姿态,支持稀疏、无标定的 casual 图像测评。

2️⃣ 全面剖析 VFMs 的几何与纹理感知能力:设计三种探测模式(GTA 模式)分离测评几何和纹理 awareness。- Geometry 模式:用 VFMs 特征预测 3D 高斯几何参数,自由优化纹理参数,评估几何感知;- Texture 模式:用 VFMs 特征预测纹理参数,自由优化几何参数,评估纹理感知;- All 模式:用特征同时预测所有参数,评估整体 3D 能力。在 7 个多视图数据集(LLFF、DTU 等)上通过 PSNR、SSIM、LPIPS 量化,发现 RADIO 几何最优、MAE 纹理更优,Stable Diffusion 表现最差。

3️⃣ 构建强基线刷新新视角合成(NVS)性能:基于测评发现设计高效基线。- 特征筛选:选取几何最优的 RADIO 特征作为基础,提升 NVS 几何一致性;- 特征融合:拼接高排名 VFMs 特征(如 RADIO+MAE),经 PCA 统一维度后通过轻量网络解码 3D 高斯,避免过拟合;- 微调优化:在 warm-start 阶段结合 DUSt3R 点云初始化,提升优化稳定性。在稀疏无标定图像上,PSNR 和 SSIM 全面超越 SOTA 方法 InstantSplat。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

http://www.lryc.cn/news/620897.html

相关文章:

  • Mybatis学习笔记(五)
  • 3D-R1、Scene-R1、SpaceR论文解读
  • 区块链 + 域名Web3时代域名投资的新风口(上)
  • CTFSHOW | nodejs题解 web334 - web344
  • 一颗TTS语音芯片给产品增加智能语音播报能力
  • 关于RSA和AES加密
  • vue+后端
  • vue3使用leaflet地图
  • 最新去水印小程序系统 前端+后端全套源码 多套模版 免授权(源码下载)
  • 跨域及解决方案
  • python+vue扫盲
  • langchain入门笔记03:使用fastapi部署本地大模型后端接口,优化局域网内的问答响应速度
  • Room 数据存储
  • AI 赋能:从智能编码提速到金融行业革新的实践之路
  • 机器翻译:Hugging Face库详解
  • 【51单片机学习】定时器、串口、LED点阵屏、DS1302实时时钟、蜂鸣器
  • 深入解析Prompt缓存机制:原理、优化与实践经验
  • (第十五期)HTML文本格式化标签详解:让文字更有表现力
  • 若依前后端分离版学习笔记(十)——数据权限
  • 阿里云TranslateGeneral - 机器翻译SDK-自己封账单文件版本—仙盟创梦IDE
  • 在mysql> 下怎么运行 .sql脚本
  • LeetCode 分类刷题:2302. 统计得分小于 K 的子数组数目
  • AI引擎重构数据安全:下一代分类分级平台的三大技术跃迁
  • Keep-Alive 的 “爱情故事”:HTTP 如何从 “短命” 变 “长情”?
  • Qt TCP 客户端对象生命周期与连接断开问题解析
  • 从零开始学Python之数据结构(字符串以及数字)
  • 18.13 《3倍效率提升!Hugging Face datasets.map高级技巧实战指南》
  • C# 贪吃蛇游戏
  • PHP现代化全栈开发:微服务架构与云原生实践
  • 机器视觉的磁芯定位贴合应用