当前位置: 首页 > news >正文

AI视频-stable-video-diffusio介绍

介绍

stbilityai/stable-video-diffusion-img2vid-xt模型,由Stability AI开发和训练的基于散度的图像到视频生成模型。该模型可以接受一张静态图像作为条件,并生成出一个短视频。

该模型通过在SVD Image-to-Video [14帧]的基础上进行微调而来,可以生成576x1024分辨率、25帧长度的视频。它使用了行业标准的f8解码器来实现视频的时间一致性。

优缺点

该模型旨在用于研究目的,可以用来研究生成模型、部署安全模型、理解模型的局限性等。它不适合用来生成关于真实人物或事件的视频。

该模型的一些局限包括生成的视频较短、运动不够自然流畅、无法用文本进行控制等。

原理

https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets

Stable Video Diffusion(稳定视频扩散),这是一种用于高分辨率、最先进的文本到视频和图像到视频合成的潜在视频扩散模型。

为构建预训练数据集,作者进行了系统的数据选择和缩放研究,并提出了一种策略来整理海量视频数据,将大量嘈杂的视频集合转化为适合生成式视频建模的数据集。

作者还引入了视频模型训练的三个不同阶段,并分别分析了它们对最终模型性能的影响。这三个阶段是:图像预训练、视频预训练和视频微调。

Stable Video Diffusion提供了一个强大的视频表示,作者通过在该模型的基础上进行微调,得到了最先进的图像到视频合成模型和其他高相关应用,如用于相机控制的LoRAs。

最后,作者进行了视频扩散模型的多视图微调的开创性研究,表明Stable Video Diffusion构成了一个强大的3D先验知识,在多视图合成中取得了最先进的结果,而其计算量只是之前方法的一小部分。

安装

https://github.com/Stability-AI/generative-models

https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt

先决条件:

  • 确保您的系统上安装了 Python。推荐使用 Python 3.10 或更高版本。
  • 根据模型要求,您可能需要一台配备合适 GPU 的机器进行模型推理。
    克隆仓库

使用 Git 从 GitHub 克隆仓库。

git clone https://github.com/Stability-AI/generative-models.git

导航到仓库目录

克隆后,导航到克隆的仓库目录。

cd generative-models

创建并激活Python虚拟环境

conda create --name svd python=3.10 -yconda activate svd
pip3 install -r requirements/pt2.txt
pip3 install .
cd generative-models
streamlit run scripts/demo/video_sampling.py  --server.address  0.0.0.0  --server.port 7862
http://www.lryc.cn/news/261456.html

相关文章:

  • day01-报表技术POI
  • 如何预防最新的.locked、.locked1勒索病毒感染您的计算机?
  • 实现两张图片的接缝线拼接
  • 基于JNI 实现 嵌套 List 类型参数解析
  • 探索灵活性与可维护性的利器:策略(Strategy)模式详解
  • 压缩包文件暴力破解 -Server2005(解析)
  • mars3d加载arcgis发布的服务,⽀持4523坐标
  • 『K8S 入门』二:深入 Pod
  • 十七、如何将MapReduce程序提交到YARN运行
  • 华为云CodeArts Deploy常见问答汇总
  • 前后端交互—开发一个完整的服务器
  • 前端框架的虚拟DOM(Virtual DOM)
  • 什么是http状态码?
  • linux/CentOS 7安装Nginx
  • 软件工程期末复习+数据仓库ETL
  • 学习C语言——体会计算机中的0和1
  • PyTorch官网demo解读——第一个神经网络(1)
  • 升华 RabbitMQ:解锁一致性哈希交换机的奥秘【RabbitMQ 十】
  • vue3 element-plus 日期选择器 el-date-picker 汉化
  • 剑指 Offer(第2版)面试题 35:复杂链表的复制
  • 自定义指令Custom Directives
  • 预测性维护对制造企业设备管理的作用
  • 华为、新华三、锐捷常用命令总结
  • 链路追踪详解(四):分布式链路追踪的事实标准 OpenTelemetry 概述
  • Node.js 工作线程与子进程:应该使用哪一个
  • python matplotlib 三维图形添加文字且不随图形变动而变动
  • Ubuntu设置kubelet启动脚本关闭swap分区
  • MySQL数据库存储
  • verilog语法进阶,时钟原语
  • 案例069:基于微信小程序的计算机实验室排课与查询系统