当前位置：首页 > news >正文

变分推断 (Variational Inference) 解析

news 2025/8/22 4:49:12

前言

如果你对这篇文章可感兴趣，可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」，查看完整博客分类与对应链接。

变分推断

在贝叶斯方法中，针对含有隐变量的学习和推理，通常有两类方式，其一是马尔可夫链蒙特卡罗法 (MCMC)，其通过采样来近似估计后验概率分布；其二是变分推断，通过解析的方法近似计算后验概率分布。

假设联合概率分布 $p (x, z)$ ，其中 $x$ 是观测变量，即数据， $z$ 是隐变量，目标是学习后验概率分布 $p(z∣x)p(z\mid x)$ 。

由于 $p(z∣x)p(z\mid x)$ 通常非常复杂，难以直接求解，因此变分推断使用分布 $q (z)$ 来近似 $p(z∣x)p(z\mid x)$ ，并通过限制 $q (z)$ 形式，得到一种局部最优、但具有确定解的近似后验分布。其中 $q (z)$ 即为变分分布 (variational distribution)， $q (z)$ 与 $p(z∣x)p(z\mid x)$ 之间的相似度通过 $KL\text{KL}$ 散度衡量。

如下图所示，我们希望在集合 $Q\mathcal{Q}$ 中找到 $q^*(z)$ 使其与 $p(z∣x)p(z\mid x)$ 之间的 $KL\text{KL}$ 散度尽可能小。

在这里插入图片描述
基于上述想法，对 $KL(q(z)∥p(z∣x))\text{KL}(q(z)\|p(z\mid x))$ 进行拆解：
$KL(q(z)∥p(z∣x))=∫q(z)log⁡q(z)dz−∫q(z)log⁡p(z∣x)dz=log⁡p(x)−{∫q(z)log⁡p(x,z)dz−∫q(z)log⁡q(z)dz}=log⁡p(x)−Eq[log⁡p(x,z)−log⁡q(z)].\begin{aligned} \text{KL}(q(z)\| p(z\mid x)) &= \int q(z) \log q(z) \text{d} z - \int q(z) \log p(z\mid x) \text{d} z \\ &= \log p(x) - \left\{\int q(z) \log p(x,z) \text{d} z - \int q(z) \log q(z) \text{d} z\right\} \\ &= \log p(x) - \mathbb{E}_q\left[\log p(x,z)-\log q(z)\right]. \end{aligned}$

由于 $KL\text{KL}$ 散度非负，因此：
$log⁡p(x)≥Eq[log⁡p(x,z)−log⁡q(z)].\log p(x) \geq \mathbb{E}_q\left[\log p(x,z)-\log q(z)\right].$

不等式左端为证据 (Evidence)，右端则为证据下界 (Evidence Lower Bound, $ELBO\text{ELBO}$ )，记作 $L (q)$ （ELBO 经常出现于各类与贝叶斯有关的文章中）。

我们的目的是求解 $q (z)$ 来最小化 $KL(q(z)∥p(z∣x))\text{KL}(q(z)\| p(z\mid x))$ ，由于 $log⁡p(x)\log p(x)$ 是常量，问题转化为最大化 $ELBO\text{ELBO}$ $L (q)$ .

若 $q (z)$ 形式过于复杂，最大化 $ELBO\text{ELBO}$ 依然难以求解，因此通常会对 $q (z)$ 形式进行约束，一种常见的方式是假设 $z$ 服从分布
$q(z)=∏iqi(zi),q(z)=\prod_{i} q_i(z_i),$

即 $z$ 可拆解为一系列相互独立的 $z_i$ ，此时的变分分布称为平均场 (Mean Filed).

总结一下，变分推断常见步骤如下：

定义变分分布 $q (z)$ ；
推导证据下界 $ELBO\text{ELBO}$ 表达式；
最大化 $ELBO\text{ELBO}$ ，得到 $q^*(z)$ ，作为后验概率分布 $p(z∣x)p(z\mid x)$ 的近似。

广义 EM

上述变分推断过程可以与「广义 EM」联系起来，由于 $log⁡p(x)≥ELBO\log p(x)\geq \text{ELBO}$ 恒成立，若将模型参数 $θ\theta$ 引入其中，即可得到：

$log⁡p(x∣θ)≥Eq[log⁡p(x,z∣θ)−log⁡q(z)],\log p(x\mid \theta) \geq \mathbb{E}_q\left[\log p(x,z\mid \theta)-\log q(z)\right],$

此时有两种理解：

用分布 $q (z)$ 近似联合概率分布 $p(x,z∣θ)p(x,z\mid \theta)$ ，最小化分布距离 $KL(q∥p)\text{KL}(q\|p)$ ；
采用极大似然估计的思想，最大化对数似然函数 $log⁡p(x∣θ)\log p(x\mid \theta)$ （也可以理解为最大化证据）。

虽然两种视角不同，但结论一致，即最大化 $ELBO\text{ELBO}$ ，记作 $L(q,θ)L(q,\theta)$ 。对应于广义 EM 算法，即采用迭代的方式，循环执行 E 步和 M 步，直至收敛：

【E 步】固定 $θ\theta$ ，求 $L(q,θ)L(q,\theta)$ 对 $q$ 的最大化；
【M 步】固定 $q$ ，求 $L(q,θ)L(q,\theta)$ 对 $θ\theta$ 的最大化。

上述迭代可以保证 $log⁡p(x∣θ(t))\log p(x\mid \theta^{(t)})$ 不降，即一定会收敛，但可能会收敛到局部最优：
$log⁡p(x∣θ(t−1))=L(q(t),θ(t−1))≤L(q(t),θ(t))≤log⁡p(x∣θ(t))\log p(x \mid \theta^{(t-1)})=L(q^{(t)}, \theta^{(t-1)}) \leq L(q^{(t)}, \theta^{(t)}) \leq \log p(x \mid \theta^{(t)})$