当前位置：首页 > news >正文

文生视频Sora

news 2025/9/15 1:16:29

Sora：scalable diffusion models with transformers 文生视频模型
Sora：视频生成模型60s，视频中体现一定的物理逻辑
时空patch，是Sora创新的核心。
Sora 到底是不是物理引擎甚至世界模型？数据驱动的物理引擎
帆船在水里跟随水流浮力上下起伏体现物理逻辑

生成模型的方法包括GAN、自回归、扩散模型。它们都有各自的优势和局限性。
目前市面上文生视频模型的主流技术路线主要有两种：
（1）一种基于Transformer模型的技术路线，即从文本及图像中生成
（2）另一种则是基于扩散模型（Diffusion model），如 Runway
Sora融合了Diffusion和Transformer架构，结合在一起的Diffusion Transformer模型，
通过扩散模型（DALL-E3）和转换器架构（ChatGPT）组合，Sora不用预测序列中的下一个文本，
而是预测序列中的下一个“Patch”。
Sora引入的，是一种全新的范式转变——新的建模技术和灵活性，可以处理各种时间、纵横比和分辨率。

文生图像/视频常见爆火模型
Dall-E 2021.1 Open AI 文生图模型
Midjourney 2022.3 文生图模型
Stability AI 2023 文生图模型
Runway Stable Diffusion 2022 文生图模型
gen-2 文生视频模型 2023.3 文本、图片、文本+图片直接生成视频
Pika 2023.11.28 文生视频模型支持生成3D动画、2D动漫、卡通等多种画风的视频
Sora 2024.2.16 Open AI 文生视频模型