当前位置: 首页 > news >正文

I2VGen-XL高清图像生成视频大模型

本项目I2VGen-XL旨在解决根据输入图像生成高清视频任务。I2VGen-XL由达摩院研发的高清视频生成基础模型之一,其核心部分包含两个阶段,分别解决语义一致性和清晰度的问题,参数量共计约37亿,模型经过在大规模视频和图像数据混合预训练,并在少量精品数据上微调得到,该数据分布广泛、类别多样化,模型对不同的数据均有良好的泛化性。项目相比于现有视频生成模型,I2VGen-XL在清晰度、质感、语义、时序连续性等方面均具有明显的优势。
在这里插入图片描述

此外,I2VGen-XL的许多设计理念和设计细节(比如核心的UNet部分)都继承于我们已经公开的工作VideoComposer,您可以参考我们的VideoComposer和本项目ModelScope的了解详细细节。

https://modelscope.cn/models/damo/Image-to-Video/summary

模型介绍 (Introduction):
如图Fig.2所示,I2VGen-XL是一种基于隐空间的视频扩散模型(VLDM),其通过我们专门设计的时空UNet(ST-UNet)在隐空间中进行时空建模,然后通过解码器重建出最终视频(具体模型结构可以参考VideoComposer)。为能够生成720P视频,我们将I2VGen-XL分为两个阶段,第一阶段是在低分辨率条件下保证语义一致性,第二阶是利用新的VLDM进行去噪以提高视频分辨率以及同时提升时间和空间上的一致性。通过在模型、数据和训练上的联合优化,I2VGen-XL主要具有以下几个特点:

高清&宽屏,可以直接生成720P(1280*720)分辨率的视频,且相比于现有的开源项目,不仅分辨率得到有效提高,其生产的宽屏视频可以适合更多的场景
连续性,通过特定训练和推理策略,在视频的细节生成的稳定性上(时间和空间维度)有明显提高
质感好,通过收集特定的风格的视频数据训练,使得生成的视频在质感上得到明显提升,可以生成科技感、电影色、卡通风格和素描等类型视频
无水印,模型通过我们内部大规模无水印视频/图像训练,并在高质量数据微调得到,生成的无水印视频可适用更多视频平台,减少许多限制。

在这里插入图片描述

http://www.lryc.cn/news/193404.html

相关文章:

  • Angular知识点系列(1)-每天10个小知识
  • 【从0开发】百度BML全功能AI开发平台【实操:以部署情感分析模型为例】
  • 源码解析FlinkKafkaConsumer支持punctuated水位线发送
  • vue3学习(五)--- 父子组件传值
  • 寻找AI时代的关键拼图,从美国橡树岭国家实验室读懂AI存力信标
  • 多线程并发篇---第十二篇
  • P7537 [COCI2016-2017#4] Rima
  • SwiftUI Swift CoreData 计算某实体某属性总和
  • docker安装skyWalking笔记
  • 【Codeforces】 CF1097G Vladislav and a Great Legend
  • 力扣每日一题36:有效的数独
  • 钉钉数字校园小程序开发:开启智慧教育新时代
  • 数据结构与算法--其他算法
  • 矩阵键盘行列扫描
  • unity 实现拖动ui填空,并判断对错
  • 《机器学习》第5章 神经网络
  • FPGA project : flash_erasure
  • AC修炼计划(AtCoder Regular Contest 166)
  • Android---Android 是如何通过 Activity 进行交互的
  • 【论文解读】单目3D目标检测 MonoCon(AAAI2022)
  • Angular知识点系列(5)-每天10个小知识
  • 基于海洋捕食者优化的BP神经网络(分类应用) - 附代码
  • Lift, Splat, Shoot图像BEV安装与模型详解
  • MySQL简介
  • php代码优化---本人的例子
  • EMC Unity存储(VNXe) service Mode和Normal Mode的一些说明
  • 基于全景运动感知的飞行视觉脑关节神经网络全方位碰撞检测
  • Java 继承与实现
  • Unity 3D基础——计算两个物体之间的距离
  • css常见问题处理