当前位置: 首页 > news >正文

上海AI Lab视频生成大模型书生.筑梦环境搭建推理测试

引子

最近视频生成大模型层出不穷,上海AI Lab推出新一代视频生成大模型 “书生・筑梦 2.0”(Vchitect 2.0)。根据官方介绍,书生・筑梦 2.0 是集文生视频、图生视频、插帧超分、训练系统一体化的视频生成大模型。OK,那就让我们开始吧。

一、模型介绍

筑梦 2.0 支持 5s-20s 长视频生成,超过其他开源模型的生成时长。同时支持高达 720x480 分辨率的生成。该模型还能够处理多种视频格式,包括横屏、竖屏、4:3、9:16 和 16:9 等比例,极大地扩展了其应用场景。与其他开源模型不同,筑梦 2.0 同步开源了用于视频增强的生成式模型 ——VEnhancer,集成了插帧、超分辨率和修复功能。该增强算法可在 2K 分辨率、24fps 的情况下生成更加清晰、流畅的视频,解决了视频抖动等常见问题,显著提升了视频的稳定性。

二、环境搭建

1、模型下载

https://huggingface.co/Vchitect/Vchitect-2.0-2B/tree/main

2、环境安装

docker run -it --rm --gpus=all -v /datas/work/zzq:/workspace pytorch/pytorch:2.2.2-cuda12.1-cudnn8-devel bash

git clone GitHub - Vchitect/Vchitect-2.0: Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models

cd /workspace/Vchitect/Vchitect-2.0-master

pip install -r requirements.txt -i Simple Index

pip install protobuf -i Simple Index

三、推理测试

1、修改代码

python inference.py --test_file assets/test.txt --save_dir output --ckpt_path models

http://www.lryc.cn/news/456425.html

相关文章:

  • 3D看车如何实现?有哪些功能特点和优势?
  • Pytorch中不会自动传播梯度的操作有哪些?
  • 【设计模式】软件设计原则——开闭原则里氏替换单一职责
  • 项目完整开发的流程
  • 性能测试学习6:jmeter安装与基本配置/元件/线程组介绍
  • 大数据ETL数据提取转换和加载处理
  • 物理与环境安全技术
  • 手把手教你如何配置好VS Code的WEB基础开发环境(保姆级)
  • 高性能、编译器编写语言、编程语言的高低贵贱
  • Python安装库时使用国内源pip install -i
  • Linux 再入门整理:详解 /etc/fstab 文件
  • 2.8 双绞线、同轴电缆、光纤与无线传输介质
  • OBOO鸥柏:布局于为无人机展厅行产业提供LCD液晶显示终端
  • win10状态栏中 “音量” 符号丢失,而在“打开或关闭系统图标”中音量开关无法调节的解决方法
  • Mysql 学习——项目实战
  • Springboot 整合 logback 日志框架
  • Hugging face简要介绍
  • A股知识答题pk小程序怎么做?
  • 单细胞转录组 —— kb-python 原始数据处理
  • 全同态加密算法概览
  • leetcode 刷题day38动态规划Part07 打家劫舍(198.打家劫舍、213.打家劫舍II、337.打家劫舍III)
  • C0010.Qt5.15.2下载及安装方法
  • 制造企业MES管理系统的应用策略与实施路径
  • Halcon 3D应用 - 胶路提取
  • 【Redis】Redis线程模型
  • Electron构建桌面应用程序,服务于项目的自主学习记录(持续更新...
  • linux Load Average 计算
  • pandas常用数据格式IO性能对比
  • 【D3.js in Action 3 精译_031】3.5.2 DIY实战:在 Observable 平台实现带数据标签的 D3 条形图并改造单元测试模块
  • 华为OD机试真题-字符串分割