当前位置: 首页 > news >正文

⭐CVPR 文本到 3D 场景生成新突破:Prometheus 框架解析

📄论文题目:Prometheus: 3D-Aware Latent Diffusion Models for Feed-Forward Text-to-3D Scene Generation
✍️作者及机构:Yuanbo Yang、Jiahao Shao、Xinyang Li、Yujun Shen、Andreas Geiger、Yiyi Liao(浙江大学、厦门大学、蚂蚁集团、University of T¨ubingen)
🧩面临问题:当前 3D 生成模型存在泛化能力有限、效率低下及质量问题。一方面,依赖 3D / 多视图数据或单一类别单视图图像的模型泛化能力弱,因训练数据稀缺;另一方面,利用 2D 数据的方法多通过优化生成 3D 表示,过程耗时,且因 2D 模型缺乏 3D 完整理解,易出现多视图不一致(Janus 问题)和保真度低的情况2。
在这里插入图片描述
🎯创新点及其具体研究方法:
1️⃣ 前馈式 3D 高斯生成框架:将 3D 场景生成表述为潜在扩散范式下的多视图、前馈、像素对齐 3D 高斯生成,实现无需迭代优化的直接生成,大幅提升效率,使 3D 场景生成时间缩短至秒级13。
2️⃣ RGB-D 潜空间引入:在 3D 高斯生成中引入 RGB-D 潜空间,分离外观和几何信息。通过预训练的 Stable Diffusion 编码器分别编码 RGB 图像和深度图, concatenate 得到联合潜空间,助力生成具有更高保真度和更优几何结构的 3D 高斯46。
3️⃣ 两阶段训练策略:第一阶段训练 3D 高斯变分自编码器(GS-VAE),以多视图或单视图 RGB-D 图像为输入,预测像素对齐 3D 高斯,编码器复用 Stable Diffusion 编码器,解码器基于其修改;第二阶段训练多视图潜扩散模型(MV-LDM),结合文本提示和相机姿态,联合预测多视图 RGB-D 潜码,且在 9 个多视图和单视图数据集上训练以增强泛化性578。
4️⃣ 混合采样与 CFG-rescale 策略:采用混合采样 guidance,通过文本和姿态引导权重平衡多视图一致性与保真度;同时使用 CFG-rescale 避免条件采样中的过饱和问题,提升生成质量9。

#论文 #3D 生成 #计算机视觉 #深度学习 #文本到 3D #潜在扩散模型 #前馈式生成

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

http://www.lryc.cn/news/612447.html

相关文章:

  • 小实验--继电器定时开闭
  • Pytest项目_day04(Python做接口请求)
  • vector使用模拟实现
  • Linux 学习 之 killer 问题
  • Unity笔记(三)——父子关系、坐标转换、Input、屏幕
  • STM32学习笔记3-GPIO输入部分
  • 【模电笔记】—— 直流稳压电源——稳压电路
  • RK3568笔记九十六:多路实时目标检测
  • Python应用指南:获取风闻评论数据并解读其背后的情感倾向(二)
  • 【补题】CodeTON Round 1 (Div. 1 + Div. 2, Rated, Prizes!) D. K-good
  • 基于单片机GD32E103的HID按键问题分析
  • hive专题面试总结2
  • 一、Envoy基础概念学习
  • 8.6笔记
  • 《嵌入式数据结构笔记(四):栈结构与队结构链表》
  • Chrontel【7322BMF】CH7322B HDMI Consumer Electronics Control (CEC) devices
  • GaussDB 数据库架构师修炼(六)-3 集群工具管理-主备倒换
  • prometheus+Grafana 监控中间件项目
  • 202506 电子学会青少年等级考试机器人四级实际操作真题
  • 架构层防护在高并发场景下的实践
  • 机器学习-LinearRegression
  • 机器学习模型调优实战指南
  • 机器学习——SVM
  • 居家养老场景下摔倒识别准确率提升 29%:陌讯动态姿态建模算法实战解析
  • 第五十一章:AI模型服务的“百变面孔”:WebUI/CLI/脚本部署全解析
  • 从原理图到PCB的布局
  • LiveQing视频RTMP推流视频点播服务功能-云端录像支持按时间段下载录像时间段下载视频mp4
  • STM32的PWR
  • 引领GameFi 2.0新范式:D.Plan携手顶级财经媒体启动“龙珠创意秀”
  • ZYNQ实现FFT信号处理项目