当前位置: 首页 > news >正文

论文阅读——MVDiffusion

MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion

文生图模型

用于根据给定像素到像素对应关系的文本提示生成一致的多视图图像。

MVDiffusion 会在给定任意每个视图文本的情况下合成高分辨率真实感全景图像,或将一幅透视图像推断为完整的 360 度视图。

对于以深度/姿势为条件的多视图图像生成,MVDiffusion 展示了场景网格纹理的最先进性能。

MVDiffusion 通过运行稳定扩散模型的多个副本/分支来同时生成多个图像,并采用新颖的分支间“对应感知注意”(CAA)机制来促进多视图一致性。

Panorama generation任务:

全景图是通过生成八个透视图来实现的,每个透视图具有 90° 的水平视场和 45° 的重叠。为了实现这一目标,我们通过生成模块使用冻结的预训练稳定扩散模型生成八个 512 × 512 图像

CCA:特征图之间的交叉注意力:

在条件图像的 UNet 分支中,我们将一个由 1 组成的掩码连接到图像(总共 4 个通道)。然后,该串联图像用作修复模型的输入,这确保条件图像的内容保持不变。相反,在目标图像的 UNet 分支中,我们将黑色图像(像素值为零)与零掩码连接起来作为输入,从而要求修复模型根据文本生成全新的图像条件以及与条件图像的对应关系。

训练CAA模块。

Multiview depth-to-image generation任务

多视图深度到图像任务旨在生成给定深度/姿势的多视图图像。

MVDiffusion 的过程从生成模块生成关键图像开始,然后由插值模块进行致密化以获得更详细的表示。

多视图深度图像生成的生成模块与全景图生成的生成模块类似。

MVDiffusion 的插值模块受 VideoLDM 的启发,在一对“关键帧”之间创建 N 个图像,这些图像之前已由生成模块生成。该模型采用与生成模型相同的 UNet 结构和对应注意力权重,具有额外的卷积层,并使用高斯噪声重新初始化中间图像和关键图像的潜在特征。该模块的一个显着特征是关键图像的 UNet 分支以已生成的图像为条件。具体来说,这个条件被合并到每个 UNet 块中。在关键图像的 UNet 分支中,生成的图像与 1 的掩码(4 个通道)连接,然后使用零卷积运算将图像下采样到相应的特征图大小。这些下采样条件随后被添加到 UNet 模块的输入中。对于中间图像的分支,我们采取不同的方法。我们将像素值为零的黑色图像附加到零掩码,并应用相同的零卷积运算对图像进行下采样以匹配相应的特征图大小。这些下采样条件也被添加到 UNet 模块的输入中。此过程本质上是对模块进行训练,以便当掩码为 1 时,分支重新生成条件图像,而当掩码为零时,分支生成中间图像。

采用两阶段的培训过程。在第一阶段,我们使用所有 ScanNet 数据对 SD UNet 模型进行微调。此阶段是没有 CAA 块的单视图训练。在第二阶段,我们将 CAA 块和图像条件块集成到 UNet 中,并且仅训练这些添加的参数。我们使用与全景生成相同的损失来训练模型。

计算资源:

4 NVIDIA RTX A6000 GPUs

实验结果:

http://www.lryc.cn/news/333205.html

相关文章:

  • Linux中的网络命令深度解析与CentOS实践
  • nginx配置实例(反向代理)
  • Flutter 解决NestedScrollView与TabBar双列表滚动位置同步问题
  • 云计算存在的安全隐患
  • 黑翅鸢优化算法(BKA)-2024年SCI一区新算法-公式原理详解与性能测评 Matlab代码免费获取
  • sqlmap(四)案例
  • 【C++初阶】String在OJ中的使用(一):仅仅反转字母、字符串中的第一个唯一字母、字符串最后一个单词的长度、验证回文串、字符串相加
  • 【25考研】:四川大学计算机学院24届874考研考情分析
  • 【GPT-4 Turbo】、功能融合:OpenAI 首个开发者大会回顾
  • java-Stream原理及相关操作详解(filter、map、flatMap、peek、reduce、anyMatch等等)
  • 基于Springboot中小企业设备管理系统设计与实现(论文+源码)_kaic
  • ORACLE 12 C估算 用户历史上的CPU消耗
  • Zookeeper 简明使用教程
  • JS 利用 webcam访问摄像头 上传到服务器
  • 【微信小程序】【小程序样式加载不出来】
  • 【THM】Exploit Vulnerabilities(利用漏洞)-
  • Tomcat管理配置
  • C++模版简单认识与使用
  • 图解大型网站多级缓存的分层架构
  • 基于Vision Transformer的迁移学习在乳腺X光图像分类中的应用
  • WebGIS 地铁交通线网数据可视化监控平台
  • 批量导入svg文件作为图标使用(vue3)vite-plugin-svg-icons插件的具体应用
  • X服务器远程连接问题解决:Bad displayname ““‘或Missing X server or $DISPLAY
  • matlab:五点中心差分求解Navier边界的Biharmonic方程(具有纳维尔边界的双调和方程)
  • 详细介绍微信小程序app.js
  • 【六 (2)机器学习-EDA探索性数据分析模板】
  • Java集合——Map、Set和List总结
  • Python TensorFlow 2.6 获取 MNIST 数据
  • EChart简单入门
  • 阿里云8核32G云服务器租用优惠价格表,包括腾讯云和京东云