当前位置：首页 > news >正文

VideoBooth: Diffusion-based Video Generation with Image Prompts

news 2025/8/15 15:12:38

VideoBooth: Diffusion-based Video Generation with Image Prompts

Videos synthesized by image prompts.

概括

文章提出了一个视频生成模型VideoBooth，输入一张图片和一个文本提示词，即可输出保持图片中物体且符合文本提示词要求的视频。

方法

粗-细两阶段设计：1）粗阶段，利用CLIP图像编码器将图片视觉编码注入文本嵌入中，融合后的嵌入送入cross attention层；2）细阶段，将多尺度图片空间信息注入视频生成模型的cross-frame attentions层。
Overview
一些困惑：

多尺度的图片编码是用什么图像编码器获取的？通过VAE获取潜在表征，而这个多尺度，其实就是潜在编码在U-Net在不同阶段的输出。

预备知识

拓展2D卷积：为了处理视频数据和时序关联，我们将SD模型中的2D卷积扩展为了3D卷积。（应该指的是U-Net中的卷积层）
交叉帧注意力模块：SD模型中原本的自注意力模块被修改成了交叉帧注意力模块，以提高时序一致性。交叉帧模块同时处理空间和时序域，因此可以提高合成帧的时序一致性。
时序注意力模块：处理时序域，对所有帧起作用，提高时序一致性。

粗粒度视觉编码

使用CLIP获取图像提示词和文本提示词的编码信息，然后将文本编码中目标物体的编码替换为图像视觉编码，将融合后的视觉-图像编码送入交叉注意力层。CLIP图像编码器是固定的，但是为了对齐图像和文本编码，图像编码会经过MLP层。此外，为了适配融合后的编码，交叉注意力层中的K和V也被微调了。

细粒度视觉编码

这部分的编码信息应该是用来保证时序一致性的。首先通过VAE获取图像潜在编码，然后加噪送入U-Net，每个阶段的U-Net输出（包括最初的潜在编码）对应的K-V都会和原始的K-V进行拼接，初始帧的V被更新，并影响后续所有的Value。

实验

查看全文

http://www.lryc.cn/news/497603.html

模拟简单的iOT工作流

C++学习0.2: RAII

k8s，进一步理解Pod

MFC图形函数学习13——在图形界面输出文字

【Canvas与雷达】点鼠标可暂停金边蓝屏雷达显示屏

React第十二节组件之间通讯之发布订阅模式（使用pubsub-js插件）

Spring Native适用场景、代理使用及测试部署策略

LeetCode—11. 盛最多水的容器（中等）

第一部分：入门准备 1.欢迎来到新手村 --[JavaScript 新手村：开启编程之旅的第一步]

BERT的中文问答系统50

深入解析CMake中的find_package命令：用法、特性及版本依赖问题

【OpenDRIVE_Python】使用python脚本输出OpenDRIVE数据中含有隧道tunnel的道路ID和隧道信息

SIP系列五：HTTP(SIP)鉴权

mysql json整数数组去重整数数组精确查找并删除相应数据

【5G】技术组件 Technology Components

数据结构4——栈和队列

PHP SM4 加密

leetcode - 2825. Make String a Subsequence Using Cyclic Increments

工业—使用Flink处理Kafka中的数据_ChangeRecord1