Stability AI技术浅析(二):LDM
Stability AI 的 Latent Diffusion Model (LDM) 是其核心创新之一,通过将扩散过程迁移到低维潜在空间(Latent Space),显著提升了生成效率和质量。
1. LDM 的基本原理
传统扩散模型直接在像素空间操作,计算成本极高(如 512×512 图像需处理 262K 维数据)。LDM 的核心思想是:
-
压缩到潜在空间:使用 VAE 或 GAN 将图像压缩到低维空间(如 64×64×4,维度降低 64 倍)。
-
在潜在空间中扩散:对潜在表示 zz 执行扩散和去噪。
-
解码到像素空间:最终通过解码器生成高清图像。
优势:
-
计算量减少,适合高分辨率生成。
-
潜在空间能捕捉语义特征,提升生成质量。
2. 数学建模与关键公式
2.1 潜在空间编码
使用 VAE 的编码器 和解码器