当前位置: 首页 > news >正文

使用Diffusion Models进行街景视频生成

Diffusion Models专栏文章汇总:入门与实战

前言:街景图生成相当有挑战性,目前的文本到视频的方法仅限于生成有限范围的场景的短视频,文本到3D的方法可以生成单独的对象但不是整个城市。除此之外街景图对一致性的要求相当高,这篇博客介绍如何用Diffusion Models执行街景图生成。

目录

概述

方法详解

基于粗糙场景布局信息的条件方法

自回归生成法

论文


概述

通过对被忽视的数据来源(大规模的街景图像集合)进行训练,并对一种新的输入进行条件反射,即跨越多个城市块的场景布局来合成远程一致的街景。为了在长尺度上获得高质量的街景,我们提出了 (i) 布局条件生成方法,(ii) 能够实现一致两帧生成的运动模块,以及 (iii) 一种自回归时间插补技术,在推理时修改预训练的两帧运动模块以实现一致的远程视频生成。通过我们的结果,我们证明了我们的系统自回归地生成覆盖具有一致高质量远程相机轨迹的街景。由于我们对场景布局、相机姿势和场景条件的灵活控制,我们的系统还支持许多创造性的场景生成应用程序。

方法详解

基于粗糙场景布局信息的条件方法

首先训练一个扩散模型,通过迭代去噪两个随机噪声图像来联合生成两帧。该模型还将从给定布局渲染的两个相机视图的输入条件信息作为输入条件信息。我们的目标是在我们的输出中生成许多一致的帧,但不仅仅是两个。为此,我们修改了预训练的两帧生成模型,使其能够以自回归时间插补模式运行,而无需重新训练模型。在这种模式下,用作模型的输入的两个随机噪声图像被当前相机视图生成的帧的噪声版本和扭曲到下一个相机视图的当前帧的噪声版本所取代。

自回归生成法

上面讨论的并行去噪方法可以生成街景的前两帧。对于超出这些的帧,我们希望确保它们与所有先前生成的帧一致。仅 G 缓冲区条件并不能保证一致性,因为这种方法只控制场景的布局,而不能控制它们的外观。因此,随着时间的推移,通过并行去噪生成的图像堆叠对并不能达到所需的一致性,因为一致性仅在每对中实现。或者,还可以将生成的帧附加到 ControlNet 输入中,为外观添加 RGB 控制。然而,我们凭经验发现它遭受严重的质量漂移。

Streetscapes 系统沿所需的相机轨迹生成一系列一致的帧。一致性是通过使用并行去噪联合生成前 2 帧来实现的,然后通过时间插补生成每个后续帧,以自回归方式由前一帧指导。这两种程序都使用相同的模型,但具有不同的反向扩散公式。

论文

Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion

http://www.lryc.cn/news/404851.html

相关文章:

  • UFO:革新Windows操作系统交互的UI聚焦代理
  • scp免密复制文件
  • Maven 的模块化开发示例
  • 通过QT进行服务器和客户端之间的网络通信
  • 【STM32 HAL库】DMA+串口
  • C#类型基础Part2-对象判等
  • 13.CSS 打印样式表 悬停下划线动画
  • C#基础:数据库分表的好处和实现方式
  • 基于3D开发引擎HOOPS平台的大型三维PLM系统的设计、开发与应用
  • 学习React(描述 UI)
  • mysql字符类型字段设置默认值为当前时间
  • java题目之数字加密以及如何解密
  • Linux基于CentOS7【yum】【vim】的基础学习,【普通用户提权】
  • 盛元广通实验室自动化生物样本库质量控制管理系统
  • Java | 自制AWT单词猜一猜小游戏(测试版)
  • docker搭建ES 8.14 集群
  • 自定义特征的智能演进:Mojo模型中的动态特征选择控制
  • Git->Git生成patch和使用patch
  • 开发面试算法题求教
  • OpenStack中nova的架构
  • 力扣高频SQL 50题(基础版)第五题
  • Air780EP- AT开发-阿里云应用指南
  • 【中项】系统集成项目管理工程师-第4章 信息系统架构-4.4数据架构
  • excel批量新建多个同类型的表格
  • React Native 与 Flutter:你的应用该如何选择?
  • DP学习——状态模式
  • 前端性能优化面试题汇总
  • C#基于SkiaSharp实现印章管理(4)
  • Vue全家桶 - pinia 的理解和学习2(Pinia 核心概念的插件、组件外的 Store 和 服务器渲染(SSR))
  • 数学建模(6)——预测类模型目录