当前位置：首页 > news >正文

Semi-Supervised Single-View 3D Reconstruction via Prototype Shape Priors

news 2025/7/12 12:56:18

阅读总结

一、研究背景与挑战

问题定义

任务：单视图3D重建（从单张RGB图像预测物体3D形状）
痛点：
- 监督方法（如Pix2Vox）依赖大量3D标注数据（图像-体素对），标注成本高昂。
- 单视图重建是病态问题（单张2D图像对应多种3D形状解）。
现有局限：
- 半监督学习（SSL）在分类/检测中有效，但未应用于3D重建。
- 直接迁移SSL方法（如MeanTeacher）效果差：
  - 3D伪标签噪声大（图1b）
  - 缺乏形状先验导致重建结果不自然（如表面断裂）

二、核心方法：SSP3D框架

整体架构

两阶段训练：
1. Warm-up阶段：用少量标注数据（1%~20%）预训练教师模型。
2. 互学习阶段：教师生成伪标签指导学生模型，学生通过强数据增强学习，教师通过EMA更新权重。

关键创新模块

1. 原型注意力模块（Prototype Attentive Module, PAM）

动机：解决标注数据不足时的形状先验学习问题。
实现：
1. 原型生成：对标注数据的3D形状特征聚类（K-Means），得到类别原型（如椅子类3个典型形状）。
2. 注意力融合：
  - 图像特征（Query）← 2D编码器（ResNet-50）
  - 原型特征（Key/Value）← 3D编码器（处理原型体素）
  - 多头注意力（MHA）计算：
    $\text{Prior} = \text{MHA}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$
3. 输出：融合原型信息的先验特征 → 输入形状解码器。
作用：显式注入类别先验，提升遮挡/噪声图像的鲁棒性。

2. 形状自然性模块（Shape Naturalness Module, SNM）

动机：评估伪标签质量并提升形状真实性。
双功能设计：
1. 判别器：区分预测形状与真实形状，通过对抗损失优化生成器： $\mathcal{L}_d = \mathbb{E}_{y_p}[\log D(y_p)] + \mathbb{E}_{y_g}[\log(1-D(y_g))]$
2. 置信度评分器：输出Sigmoid值作为伪标签质量得分（高=真实性强），用于加权无监督损失。

三、训练策略

1. Warm-up阶段

损失函数：

2. Teacher-Student互学习

教师生成伪标签：
- 弱增强图像 → 教师模型 → 输出体素 $\hat{y}$ → 二值化（阈值 $\delta=0.3$ ）。
学生训练：
- 监督损失：标注数据的BCE损失。
- 无监督损失：伪标签的加权平方L2损失（Brier Score）：
  - $\text{score}_i$ ：SNM输出的置信度（0~1）。
教师更新：EMA平滑学生权重 → $\theta_t \leftarrow \alpha \theta_t + (1-\alpha) \theta_s \quad (\alpha=0.9996)$

原文链接：2209.15383https://arxiv.org/pdf/2209.15383

代码链接：ChenHsing/SSP3D: [ECCV 2022, Semi-Supervised Single-View 3D Reconstruction via Prototype Shape Priors]https://github.com/ChenHsing/SSP3D

http://www.lryc.cn/news/585536.html

相关文章：

小智AI模型接入MCP

【一起来学AI大模型】微调技术：LoRA（Low-Rank Adaptation）的实战应用

SQL Server通过CLR连接InfluxDB实现异构数据关联查询技术指南

Rust与UE5高效集成实战

uniapp制作一个个人页面

ffmpeg-api记录

UC浏览器PC版自2016年后未再更新不支持vue3

小旺AI截图1.2.1版本上线：新增录屏音频、Mac长截屏

Docker高级管理--Dockerfile 镜像制作

手把手一起使用Miniforge3+mamba平替Anaconda(Win10)

机器学习week2-线性回归加强

Java的extends通配符

netdxf—— CAD c#二次开发之（netDxf 处理 DXF 文件）

和鲸社区深度学习基础训练营2025年关卡2（3）pytorch

利用Claude code，只用文字版系统设计大纲，就能轻松实现系统~

免费应用分发平台的安全漏洞和防护机制是什么？

60 美元玩转 Li-Fi —— 开源 OpenVLC 平台入门（附 BeagleBone Black 驱动简单解析）

Windows解决 ping 127.0.0.1 一般故障问题

【Linux网络】深入理解HTTP/HTTPS协议：原理、实现与加密机制全面解析

信号量机制

聊聊AI大模型的上下文工程（Context Engineering）

Spring 声明式事务：从原理到实现的完整解析

运行ssh -T git@github.com报错

多端协作白板：如何改变传统会议模式！

设计模式 - 面向对象原则：SOLID最佳实践

多态使用场景

【三维重建工具】NeRFStudio、3D GaussianSplatting、Colmap安装与使用指南

VOB如何转换成MP4格式？3种快速转换教程推荐

GT IP核仿真测试