当前位置: 首页 > news >正文

文本生成高清、连贯视频,谷歌推出时空扩散模型

谷歌研究人员推出了创新性文本生成视频模型——Lumiere。

与传统模型不同的是,Lumiere采用了一种时空扩散(Space-time)U-Net架构,可以在单次推理中生成整个视频的所有时间段,能明显增强生成视频的动作连贯性,并大幅度提升时间的一致性。

此外,Lumiere为了解决空间超分辨率级联模块,在整个视频的内存需求过大的难题,使用了Multidiffusion方法,同时可以对生成的视频质量、连贯性进行优化。

论文地址:https://arxiv.org/abs/2401.12945?ref=maginative.com

时空扩散U-Net架构

传统的U-Net是一种常用于图像分割任务的卷积神经网络架构,其特点是具有对称的编码器-解码器,能够在多个层次上捕获上下文信息,并且能够精确地定位图像中的对象。

而时空扩散U-Net是在时空维度上执行下采样和上采样操作,以便在紧凑的时空表示中生成视频

图片

下采样的目的是减小特征图的尺寸,同时增加特征图的通道数,以捕捉更丰富的特征。

上采样则是通过插值以及将特征图的尺寸恢复到原始输入的大小,同时减少通道数,以生成更细节的输出。

时空扩散U-Net的编码器部分通过卷积和池化操作实现时空下采样。卷积层用于提取特征,并逐渐减小特征图的尺寸。

图片

池化层则通过降采样操作减小特征图的空间尺寸,同时保留重要的特征信息。通过逐步堆叠这些下采样模块,编码器可以逐渐提取出更高级别的抽象特征。

因此,Lumiere在时空扩散U-Net架构帮助下,能够一次生成80帧、16帧/秒(相当于5秒钟)的视频。并且与传统方法相比,这种架构显著增强了生成视频运动的整体连贯性。

Multidiffusion优化方法

Multidiffusion核心技术是通过在时间窗口内进行空间超分辨率计算,并将结果整合为整个视频段的全局连贯解决方案。

具体来说,Multidiffusion通过将视频序列分割成多个时间窗口,每个时间窗口内进行空间超分辨率计算

图片

这样做的好处是,在每个时间窗口内进行计算可以减少内存需求,因为每个时间窗口的大小相对较小。同时,这种分割的方式也使得计算更加高效,并且能够更好地处理长视频序列。

图片

在每个时间窗口内,Multidiffusion方法使用已经生成的低分辨率视频作为输入,通过空间超分辨率级联模块生成高分辨率的视频帧

然后,通过引入扩散算法,将每个时间窗口的结果进行整合,形成整个视频段的全局连贯解决方案。

这种整合过程考虑了时间窗口之间的关联性,保证了视频生成的连贯性和视觉一致性。

本文素材来源Lumiere论文,如有侵权请联系删除

END

http://www.lryc.cn/news/292127.html

相关文章:

  • 时隔3年 | 微软 | Windows Server 2025 重磅发布
  • 有趣的css - 动态的毛玻璃背景
  • 桥接模式解析
  • MySQL数据库基础第一篇(SQL通用语法与分类)
  • 【Qt学习笔记】(一)初识Qt
  • YIA主题如何关闭新版本升级提示?WordPress主题怎么取消升级提醒?
  • 消息队列的应用场景
  • Arcgis10.3安装
  • 用Python和 Cryptography库给你的文件加密解密
  • element-ui button 仿写 demo
  • Maya------创建多边形工具
  • SQL分组统计条数时,不存在组类型,如何显示条数为0
  • 通过日期计算星期函数(C语言版)
  • 配置支持 OpenAPI 的 ASP.NET Core 应用
  • 前端自己整理的学习面试笔记
  • jQuery html的使用
  • 锦上添花!特征选择+深度学习:mRMR-CNN-BiGRU-Attention故障识别模型!特征按重要性排序!最大相关最小冗余!
  • C++ QT入门2——记事本功能实现与优化(事件处理+基本控件)
  • 《Lua程序设计》-- 学习10
  • Linux内核编译-ARM
  • 开源编辑器:ONLYOFFICE文档又更新了!
  • 第3章 文件类型和目录结构
  • 前端构建变更:从 webpack 换 vite
  • 记录基于Vue.js的移动端Tree树形组件
  • Vue中嵌入原生HTML页面的方法
  • 17 # 类型检查机制:类型保护
  • Vulnhub-RIPPER: 1渗透
  • 幻兽帕鲁自建服务器:可以使用香港服务器吗?
  • Revisiting image pyramid structure for high resolution salient object detection
  • 中移(苏州)软件技术有限公司面试问题与解答(7)—— kmalloc与vmalloc的区别与联系及使用场景