⭐CVPR2025 建模部件级动态的 4D 重建框架
⭐CVPR 顶会论文精读|PartRM:建模部件级动态的 4D 重建框架
📄论文题目:PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model
✍️作者及机构:Mingju Gao等(清华大学等)
🧩面临问题:当前部件级动态建模方法存在实用性不足的问题。一方面,现有方法如 Puppet-Master 依赖 2D 视频扩散模型,仅输出单视角视频,无法提供模拟器所需的 3D 表示,还需额外重建模型易引入误差;另一方面,扩散去噪过程耗时久,难以满足实时反馈需求,且 4D 动态数据稀缺,模型微调时易发生灾难性遗忘,丢失预训练的外观和几何建模能力134。
🎯创新点及其具体研究方法:
1️⃣ 提出 PartRM 4D 重建框架:基于大型 3D 高斯重建模型,实现外观、几何和部件级运动的同步建模。以单视角图像和用户拖拽指令为输入,通过前馈方式生成 3D 高斯表示,直接输出下一状态的 3D 结构,支持多视角渲染,相比 Puppet-Master 提升了 PSNR 并显著加快推理速度256。
2️⃣ 构建 PartDrag-4D 数据集:基于 PartNet-Mobility 数据集,选取 738 个物体(涵盖 8 个类别),将每个物体的可动部件在极端位置间分为 6 个运动阶段,生成 20,548 个状态,每个状态渲染 12 个视角图像,同时精准采样拖拽点并过滤遮挡点,解决 4D 数据稀缺问题791011。
3️⃣ 多尺度拖拽嵌入模块:对输入及传播后的拖拽点,通过傅里叶嵌入和 3 层 MLP 编码起点与终点坐标,生成对应 UNet 各下采样块空间维度的拖拽图,将其与网络输出 concatenate 后送入卷积层,增强模型对不同粒度拖拽运动的识别能力。
4️⃣ 两阶段训练策略:第一阶段(运动学习)以预训练网络推断的目标状态 3D 高斯参数为监督,通过 L2 损失优化,专注学习运动动态;第二阶段(外观学习)以目标视角渲染图像为监督,采用 MSE、LPIPS 和 alpha 通道损失联合优化,避免灾难性遗忘,兼顾运动与外观建模。