当前位置: 首页 > news >正文

Semi-Supervised Single-View 3D Reconstruction via Prototype Shape Priors

阅读总结

一、研究背景与挑战

问题定义
  • 任务:单视图3D重建(从单张RGB图像预测物体3D形状)
  • 痛点
    • 监督方法(如Pix2Vox)依赖大量3D标注数据(图像-体素对),标注成本高昂。
    • 单视图重建是病态问题(单张2D图像对应多种3D形状解)。
  • 现有局限
    • 半监督学习(SSL)在分类/检测中有效,但未应用于3D重建。
    • 直接迁移SSL方法(如MeanTeacher)效果差:
      • 3D伪标签噪声大(图1b)
      • 缺乏形状先验导致重建结果不自然(如表面断裂)

二、核心方法:SSP3D框架

整体架构
 

  • 两阶段训练
    1. Warm-up阶段:用少量标注数据(1%~20%)预训练教师模型。
    2. 互学习阶段:教师生成伪标签指导学生模型,学生通过强数据增强学习,教师通过EMA更新权重。
关键创新模块
1. 原型注意力模块(Prototype Attentive Module, PAM)
  • 动机:解决标注数据不足时的形状先验学习问题。
  • 实现
    1. 原型生成:对标注数据的3D形状特征聚类(K-Means),得到类别原型(如椅子类3个典型形状)。
    2. 注意力融合
      • 图像特征(Query)← 2D编码器(ResNet-50)
      • 原型特征(Key/Value)← 3D编码器(处理原型体素)
      • 多头注意力(MHA)计算:
        $\text{Prior} = \text{MHA}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$
    3. 输出:融合原型信息的先验特征 → 输入形状解码器。
  • 作用:显式注入类别先验,提升遮挡/噪声图像的鲁棒性。
2. 形状自然性模块(Shape Naturalness Module, SNM)
  • 动机:评估伪标签质量并提升形状真实性。
  • 双功能设计
    1. 判别器:区分预测形状与真实形状,通过对抗损失优化生成器: $\mathcal{L}_d = \mathbb{E}_{y_p}[\log D(y_p)] + \mathbb{E}_{y_g}[\log(1-D(y_g))]$
    2. 置信度评分器:输出Sigmoid值作为伪标签质量得分(高=真实性强),用于加权无监督损失。

三、训练策略

1. Warm-up阶段
  • 损失函数
2. Teacher-Student互学习
  • 教师生成伪标签
    • 弱增强图像 → 教师模型 → 输出体素 $\hat{y}$ → 二值化(阈值 $\delta=0.3$)。
  • 学生训练
    • 监督损失:标注数据的BCE损失。
    • 无监督损失:伪标签的加权平方L2损失(Brier Score):$\mathcal{L}_{unsup} = \sum \text{score}_i \cdot (\hat{y}_i - y_i)^2$
      • $\text{score}_i$:SNM输出的置信度(0~1)。
  • 教师更新:EMA平滑学生权重 → $\theta_t \leftarrow \alpha \theta_t + (1-\alpha) \theta_s \quad (\alpha=0.9996)$​​​​​​​

原文链接:2209.15383https://arxiv.org/pdf/2209.15383

代码链接:ChenHsing/SSP3D: [ECCV 2022, Semi-Supervised Single-View 3D Reconstruction via Prototype Shape Priors]https://github.com/ChenHsing/SSP3D

http://www.lryc.cn/news/585536.html

相关文章:

  • 小智AI模型接入MCP
  • 【一起来学AI大模型】微调技术:LoRA(Low-Rank Adaptation) 的实战应用
  • SQL Server通过CLR连接InfluxDB实现异构数据关联查询技术指南
  • SpringBoot JWT
  • Rust与UE5高效集成实战
  • uniapp制作一个个人页面
  • ffmpeg-api记录
  • UC浏览器PC版自2016年后未再更新不支持vue3
  • 小旺AI截图1.2.1版本上线:新增录屏音频、Mac长截屏
  • Docker高级管理--Dockerfile 镜像制作
  • 手把手一起使用Miniforge3+mamba平替Anaconda(Win10)
  • 机器学习week2-线性回归加强
  • Java的extends通配符
  • netdxf—— CAD c#二次开发之(netDxf 处理 DXF 文件)
  • 和鲸社区深度学习基础训练营2025年关卡2(3)pytorch
  • 利用Claude code,只用文字版系统设计大纲,就能轻松实现系统~
  • 免费应用分发平台的安全漏洞和防护机制是什么?
  • 60 美元玩转 Li-Fi —— 开源 OpenVLC 平台入门(附 BeagleBone Black 驱动简单解析)
  • Windows解决 ping 127.0.0.1 一般故障问题
  • 【Linux网络】深入理解HTTP/HTTPS协议:原理、实现与加密机制全面解析
  • 信号量机制
  • 聊聊AI大模型的上下文工程(Context Engineering)
  • Spring 声明式事务:从原理到实现的完整解析
  • 运行ssh -T git@github.com报错
  • 多端协作白板:如何改变传统会议模式!
  • 设计模式 - 面向对象原则:SOLID最佳实践
  • 多态 使用场景
  • 【三维重建工具】NeRFStudio、3D GaussianSplatting、Colmap安装与使用指南
  • VOB如何转换成MP4格式?3种快速转换教程推荐
  • GT IP核仿真测试