当前位置：首页 > news >正文

Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos

news 2025/7/14 1:55:44

清华深&港科&深先进&Tencent AAAI24
https://github.com/mayuelala/FollowYourPose

问题引入

本文的任务是根据文本来生成高质量的角色视频，并且可以通过pose来控制任务的姿势；
当前缺少video-pose caption数据集，所以提出一个两阶段的训练，可以利用image-pose数据和pose free video数据；
第一阶段首先使用pose-image pair来训练pose encoder，第二阶段使用pose free video来训练时序模块；

methods

将任务分解为两个子问题，首先image-pose pair数据来实现pose控制，视频数据来实现帧间的一致性；
训练阶段1Pose-Controllable Text-to-Image Generation：pose encoder模块 $E_p$
训练阶段2Video Generation via Pose-free Videos：时序模块；

实验

Laion-Pose训练第一阶段，HDVILA第二阶段；

http://www.lryc.cn/news/355962.html

相关文章：

记录一次开源 MaxKey 安装部署

k8s基础命令

【云原生_K8S系列】认识 Kubernetes

性能猛兽：OrangePi Kunpeng Pro评测！

六一儿童节创意项目：教你用HTML5和CSS3制作可爱的雪糕动画

日用百货元宇宙以科技创新培育产业新质生产力

云服务器购买之后到部署项目的流程

2025秋招计算机视觉面试题（二）

ECU 关键通讯信息安全事件记录清单

webpack5基础和开发模式配置

Oracle实践｜内置函数之日期与时间函数

内网穿透工具

JAVA自制小游戏之推箱子

Media Encoder 2024 for Mac媒体编码器安装教程ME2024安装包下载

B2120 单词的长度

分布式事务解决方案（最终一致性【可靠消息解决方案】）

AI预测福彩3D采取888=3策略+和值012路一缩定乾坤测试5月28日预测第4弹

JAVA：深入了解JAVA中的23种设计模式（三）- 行为型模式（下）

微信小程序【WXML】

基于python实现的深度学习的车牌识别系统

SQL试题使得每个学生按照姓名的字⺟顺序依次排列在对应的⼤洲下⾯

kafka3.6.1版本学习

移除链表元素-力扣

HTTP请求拦截器链

再创佳绩丨达梦数据库一体机荣获2024数字中国创新大赛·信创赛道总决赛一等奖

数据分析之统计学基础

Web3 游戏周报（5.19 - 5.25）

通过el-tree自定义渲染网页版工作目录，实现鼠标悬浮显示完整名称、用icon区分文件和文件夹等需求

C语言 | Leetcode C语言题解之第101题对称二叉树