当前位置: 首页 > news >正文

论文阅读笔记 NoPoSplat

NoPoSplat 论文

NoPoSplat 针对无需相机外参的稀疏视角三维重建。现有 SOTA 方法需要准确的相机外参(SfM/COLMAP——需要大量图片),联合优化位姿估计和重建,形成误差累计。NoPoSplat 通过将首帧视角的局部坐标系作为规范空间,直接融合多视角信息,解耦位姿与重建。直接将相机内参作为 token 嵌入,使模型能够预测合理尺度。
在这里插入图片描述

输入是稀疏无 pose 图片以及对应的相机内参 { I v , K v } v = 1 V \{I^v, K^v\}^V_{v=1} {Iv,Kv}v=1V,其中 v 是视角数量,然后通过学习一个前馈神经网络 f θ f_\theta fθ,在规范空间 I v , k v = 1 u V I^v,k^{u^V}_{v=1} Iv,kv=1uV 映射到 3D 高斯,以表达一个场景的几何与外观:
f θ : { ( I v , k v ) } v = 1 V ↦ { ∪ ( μ j v , α j v , r j v , s j v , c j v ) } j = 1 , . . . , H × W v = 1 , . . . , V f_{\boldsymbol{\theta}}:\left\{(\boldsymbol{I}^v,\boldsymbol{k}^v)\right\}_{v=1}^V\mapsto\left\{\cup\left(\boldsymbol{\mu}_j^v,\alpha_j^v,\boldsymbol{r}_j^v,\boldsymbol{s}_j^v,\boldsymbol{c}_j^v\right)\right\}_{j=1,...,H\times W}^{v=1,...,V} fθ:{(Iv,kv)}v=1V{(μjv,αjv,rjv,sjv,cjv)}j=1,...,H×Wv=1,...,V

NoPoSplat 的核心架构基于 DUSt3R 的框架,但针对 3D高斯重建进行了针对性改进。其处理流程如下:首先将输入 RGB 图像分割为图像块并转换为 token 序列,随后与相机内参 token 进行拼接。这些拼接后的多视角 token 被送入共享权重的 ViT 编码器进行特征提取。编码后的特征通过 ViT 解码器进行跨视角交互,其中每个视角的特征通过 cross-attention 机制与其他视角特征进行深度融合。
为预测 3D高斯参数,系统采用双分支预测头设计:第一个分支专注于高斯中心坐标的预测,仅利用解码器输出的高层语义特征;第二个分支则同时融合解码器特征和原始 RGB 图像信息,用于预测高斯尺度、旋转和颜色等属性。这种 RGB 快捷连接的设计有效弥补了 ViT 特征因 16 倍下采样导致的结构细节丢失,确保了纹理信息的完整传递。通过这种分工明确的预测机制,系统既能保持几何结构的准确性,又能保留场景的精细纹理细节。

传统方法采用"局部到全局"的高斯重建范式,首先在每个输入视图的局部坐标系中预测像素级深度并构建高斯基元,再通过相机外参将这些局部高斯变换到全局坐标系进行融合。这种流程存在两个关键缺陷:一方面,它高度依赖精确的相机外参,而在实际稀疏视角场景(如仅有2-3张输入图像)中,可靠的位姿估计往往难以获取;另一方面,当输入视角间重叠区域有限或测试数据超出训练分布时,这种"先变换后融合"的方式会导致不同视角的高斯基元在全局空间中难以正确对齐,产生严重的重建碎片化问题。
在这里插入图片描述
约定第一个输入视角作为 global 坐标系,表示为 [ U ∣ 0 ] —— { u j v → 1 , r j v → 1 , c j v → 1 , α j v → 1 , s j v → 1 } [U|0]——\{u_j^{v→1},r_j^{v→1},c_j^{v→1},\alpha_j^{v→1},s_j^{v→1}\} [U∣0]——{ujv1,rjv1,cjv1,αjv1,sjv1},其中 v→1 表示在视角 v 下任意像素 P j P_j Pj 对应的高斯参数。

  • 全局加性嵌入(Global Intrinsic Embedding - Addition)最直接粗暴的做法:将相机内参通过线性层映射为全局特征向量,在ViT的patch embedding层之后,将这个特征向量广播(复制扩展)到每个图像patch的特征上,然后简单相加。这种方式实现了内参信息的全局渗透。
  • 全局拼接嵌入(Global Intrinsic Embedding - Concat)更优雅的做法:将内参通过线性层转换后,视为一个特殊的内参token,直接拼接到图像patch tokens序列的最前面。这个内参token会参与后续所有的transformer自注意力计算,自然地与视觉特征交互。
  • 密集光线嵌入(Dense Intrinsic Embedding)最精细的做法:对于每个像素点,先用相机内参矩阵K计算其对应的3D光线方向(相当于去除了外参影响的标准化视线向量),然后通过球谐函数编码为高维特征,最后拼接到对应的RGB像素值上作为网络输入。这实际上是经典PLUCKER射线嵌入的简化版(去除了对外参的依赖),在Dmv3d和LGM等工作中被广泛验证有效。

实验结果

在这里插入图片描述
在这里插入图片描述

http://www.lryc.cn/news/578502.html

相关文章:

  • 笔记/计算机网络
  • 动手学深度学习13.5. 多尺度目标检测-笔记练习(PyTorch)
  • 推客系统小程序终极指南:从0到1构建自动裂变增长引擎,实现业绩10倍增长!
  • (JAVA)自建应用调用企业微信API接口,实现消息推送
  • uniapp+vue写小程序页面,实现一张图片默认放大后,可以在容器内上下左右拖动查看
  • android13 如何定时输出app的帧率FPS
  • 应急响应类题练习——玄机第五章 Windows 实战-evtx 文件分析
  • mac重复文件清理,摄影师同款清理方案
  • COCO、VOC 和 YOLO三种主流目标检测数据格式的详细对比与示例说明
  • Java Selenium反爬虫技术方案
  • 笔记本电脑怎样投屏到客厅的大电视?怎样避免将电脑全部画面都投出去?
  • 基于c#语言的股票模拟交易软件的开发与实现
  • Vue3 使用 i18n 实现国际化完整指南
  • AiPy实战(7):一键生成天气组件,解放UI设计的双手
  • 应用场景全解析:飞算 JavaAI 的实战舞台
  • 业界优秀的零信任安全管理系统产品介绍
  • 启用不安全的HTTP方法
  • 内部类与Lambda的衍生关系(了解学习内部类,Lambda一篇即可)
  • [6-02-01].第48节:场景整合 -搭建父项目
  • DIC技术在金属材料裂纹尖端张开位移(COD)分析中的创新应用
  • Badoo×亚矩云手机:社交约会革命的“云端心跳加速剂“
  • 企业上网行为管理:零信任安全产品的对比分析
  • 3D 商品展示与 AR 试戴能为珠宝行业带来一些便利?
  • 软件测试复习之单元测试
  • Sql注入中万能密码order by联合查询利用
  • linux系统编程——Makefile、GDB调试
  • Terraform Helm:微服务基础设施即代码
  • Linux容器讲解以及对应软件使用
  • 云原生的本质
  • Oracle 常用函数