当前位置: 首页 > news >正文

重塑视频新语言,让每一帧都焕发新生——Video-Retalking,开启数字人沉浸式交流新纪元!

模型简介

Video-Retalking 模型是一种基于深度学习的视频再谈话技术,它通过分析视频中的音频和图像信息,实现视频角色口型、表情乃至肢体动作的精准控制与合成。这一技术的实现依赖于强大的技术架构和核心算法,特别是生成对抗网络(GAN)等先进算法的应用。

一、在算家云搭建

1.选择模型实例

在应用社区中搜索或找到“video-retalking”模型

或者在“视频生成”选项功能中单击选择“视频配音”

微信截图_20240913164613.png

2.创建模型实例

在video-retalking模型界面页面中单击“创建应用”

微信截图_20240913164637.png

选择GPU资源项选择RTX 3090后单击”立即创建“

微信截图_20240913164726.png

3.使用模型

单击webSSH进入终端:

3090进入终端.jpg

使用下列命令运行项目

conda activate video_retalking
cd video-retalking
python webUI.py

微信截图_20240913165426.png

返回项目实例页面点击video-retalking项目开放端口

开放端口.jpg

打开一个新的网页,将得到网址进行粘贴,模型界面成功打开:

微信截图_20240910140649.png

二、本地部署教程

系统:Ubuntu22.04 系统,显卡:3090,显存:24G

1.查看系统是否有 Miniconda3 的虚拟环境

conda -V
如果输入命令没有显示 Conda 版本号,则需要安装。

安装教程可查看:

屏幕截图

2.更新系统命令

输入下列命令将系统更新及系统缺失命令下载

apt-get update 
apt-get upgrade 
apt-get install -y vim wget unzip lsof net-tools openssh-server git git-lfs gcc cmake build-essential

3.创建虚拟 Python 环境

  • 创建一个名为"Video-Retalking"的虚拟镜像,python 版本为 3.10
conda create -n video_retalking python=3.10

微信截图_20240910115534.png

  • 进入"video_retalking"虚拟环境
conda activate video_retalking

微信截图_20240910115552.png

4.下载模型

输入下列命令对 video_retalking 模型进行下载

git clone https://gitclone.com/github.com/AILab-CVC/VideoCrafter.gitls
cd VideoCrafter

微信截图_20240910115643.png

5.下载 pytorch

输入下列命令:

pip install torch==2.1.1 torchvision==0.16.1 torchaudio==2.1.1

微信截图_20240910125835.png

耐心等待直到”Successfully“出现:

微信截图_20240910125848.png

6.下载模型依赖包

先输入下载 tb-nightly 包避免下载其他依赖包报错:

pip install tb-nightly -i https://mirrors.aliyun.com/pypi/simple

微信截图_20240910125910.png

再输入下列命令:

pip install -r requirements.txt

微信截图_20240910125948.png

耐心等待直到”Successfully“出现

微信截图_20240910134730.png

最后安装 ffmpeg:

conda install ffmpeg

微信截图_20240910153111.png

7.添加模型文件

先创建一个名为 checkpoints

mkdir checkpoints
cd checkpoints

微信截图_20240910142612.png

下载权重文件:

git lfs install
git clone https://hf-mirror.com/yachty66/video_retalking

微信截图_20240910144503.png

8.推理

输入下列命令:

python3 inference.py
--face examples/face/1.mp4
--audio examples/audio/1.wav
--outfile results/1_3.mp4

微信截图_20240912083436.png

9.web 界面展示

输入下列命令启动界面:

python webUI.py

此时系统会自动下载缺失权重文件

微信截图_20240910145034.png

复制网址打开页面:

微信截图_20240910140649.png

以上就是在算家云搭建以及本地部署的详细教程。进入算家云-AI-应用社区|模型社区|镜像社区一键使用,快来体验吧~

算家云——简单、高效、便宜

算家云官网.png

http://www.lryc.cn/news/495169.html

相关文章:

  • 联想Lenovo SR650服务器硬件监控指标解读
  • 二十一、QT C++
  • 微服务上下线动态感知实现的技术解析
  • 指针与引用错题汇总
  • 短视频账号矩阵系统源码--独立saas技术部署
  • leaflet 介绍
  • 总结贴:Servlet过滤器、MVC拦截器
  • 鸿蒙开发:自定义一个任意位置弹出的Dialog
  • 在Windows下编译支持https的wsdl2h
  • PHP和GD库如何根据像素绘制图形
  • webpack(react)基本构建
  • 《Opencv》基础操作<1>
  • Oracle 11g R2 RAC 到单实例 Data Guard 搭建(RMAN备份方式)
  • HTTPS 加密
  • 泛微e9开发 编写前端请求后端接口方法以及编写后端接口
  • Linux —— 《线程控制》
  • 基于HTML+CSS的房地产销售网站设计与实现
  • 操作系统 | 学习笔记 | 王道 | 2.4死锁
  • 【FPGA开发】Vivado自定义封装IP核,绑定总线
  • python的3D可视化库vedo-3 (visual模块)点对象的属性、光效、附注
  • llamaindex实战-ChatEngine-ReAct Agent模式
  • redis快速进门
  • 从0开始linux(39)——线程(2)线程控制
  • International Journal of Medical Informatics投稿经历时间节点
  • BUUCTF—Reverse—Java逆向解密(10)
  • CLIP-MMA: Multi-Modal Adapter for Vision-Language Models
  • 三维扫描仪-3d扫描建模设备自动检测尺寸
  • vue3+ant design vue实现日期选择器默认显示当前年,并限制用户只能选择当前年及之前~
  • 【electron-vite】搭建electron+vue3框架基础
  • 05《存储器层次结构与接口》计算机组成与体系结构 系列课