当前位置：首页 > news >正文

机器学习笔记之流形模型——标准流模型基本介绍

news 2025/8/21 23:18:22

机器学习笔记之流形模型——标准流模型基本介绍

引言
- 回顾：隐变量模型的缺陷
- 标准流( $Flow\text{Normalizing Flow}$ )思想
- - 分布变换的推导过程

引言

本节将介绍概率生成模型——标准流模型( $Flow\text{Normalizing Flow}$ )。

回顾：隐变量模型的缺陷

关于隐变量模型( $Model,LVM\text{Latent Variable Model,LVM}$ )，如果表示隐变量的随机变量集合 $Z\mathcal Z$ 足够复杂的话，很容易出现积分难问题：
此时隐变量 $Z\mathcal Z$ 的维度(随机变量个数)极高 $(M)(\mathcal M)$ ,对 $Z\mathcal Z$ 求解积分的代价是极大的 $(Intractable)(\text{Intractable})$ .
$P(X)⏟Intractable=∫ZP(Z,X)dZ=∫ZP(Z)⋅P(X∣Z)dZ=∫Z1⋯∫ZMP(Z1,⋯,ZM)⋅P(X∣Z1,⋯,ZM)dZ1,⋯,ZM\begin{aligned} \underbrace{\mathcal P(\mathcal X) }_{\text{Intractable}} & = \int_{\mathcal Z} \mathcal P(\mathcal Z,\mathcal X) d\mathcal Z \\ & = \int_{\mathcal Z} \mathcal P(\mathcal Z) \cdot \mathcal P(\mathcal X \mid \mathcal Z) d\mathcal Z \\ & = \int_{\mathcal Z_1} \cdots \int_{\mathcal Z_{\mathcal M}} \mathcal P(\mathcal Z_1,\cdots,\mathcal Z_{\mathcal M}) \cdot \mathcal P(\mathcal X \mid \mathcal Z_1,\cdots,\mathcal Z_{\mathcal M}) d\mathcal Z_1,\cdots,\mathcal Z_{\mathcal M} \end{aligned}$
从而，关于隐变量 $Z\mathcal Z$ 的后验概率 $P(Z∣X)\mathcal P(\mathcal Z \mid \mathcal X)$ 也同样是极难求解的：
$P(Z∣X)⏟Intractable=P(Z,X)P(X)=P(Z)⋅P(X∣Z)P(X)⏟Intractable\begin{aligned} \underbrace{\mathcal P(\mathcal Z \mid \mathcal X)}_{\text{Intractable}} & = \frac{\mathcal P(\mathcal Z,\mathcal X)}{\mathcal P(\mathcal X)} \\ & = \frac{\mathcal P(\mathcal Z) \cdot \mathcal P(\mathcal X \mid \mathcal Z)}{\underbrace{\mathcal P(\mathcal X)}_{\text{Intractable}}} \end{aligned}$

针对这种问题，由于无法得到精确解/精确解计算代价极高，因而通常采用近似推断( $Inference\text{Approximate Inference}$ )的方式对 $P(Z∣X)\mathcal P(\mathcal Z \mid \mathcal X)$ 近似求解。

例如变分自编码器( $Auto-Encoder,VAE\text{Variational Auto-Encoder,VAE}$ )，它的底层逻辑是使用重参数化技巧将人为设定分布 $Q(Z∣X)\mathcal Q(\mathcal Z \mid \mathcal X)$ 视作关于参数 $ϕ\phi$ 的函数 $Q(Z∣X,ϕ)\mathcal Q(\mathcal Z \mid \mathcal X,\phi)$ ，并通过神经网络学习参数 $ϕ\phi$ 并使其近似 $P(Z∣X)\mathcal P(\mathcal Z \mid \mathcal X)$ 。关于变分自编码器的模型结构表示如下：
在这里插入图片描述
关于编码器( $Encoder\text{Encoder}$ )函数 $Q(Z∣X;ϕ)\mathcal Q(\mathcal Z \mid \mathcal X;\phi)$ 与解码器( $Decoder\text{Decoder}$ )函数 $P(X∣Z;θ)\mathcal P(\mathcal X \mid \mathcal Z;\theta)$ ，变分自编码器的目标函数表示如下：
一个有趣的现象：其中 $\text{KL} [\mathcal Q(\mathcal Z \mid \mathcal X;\phi) || \mathcal P(\mathcal Z ;\theta^{(t)})]$ 只是一个关于 $ϕ\phi$ 的惩罚项(约束)，并且这个约束直接作用于 $EQ(Z∣X;ϕ)[log⁡P(X∣Z;θ)]\mathbb E_{\mathcal Q(\mathcal Z \mid \mathcal X;\phi)} \left[\log \mathcal P(\mathcal X \mid \mathcal Z;\theta)\right]$ .因此真正迭代的只有参数 $θ(θ(t)⇒θ(t+1))\theta(\theta^{(t)}\Rightarrow \theta^{(t+1)})$ ,参数 $ϕ\phi$ 仅是迭代过程中伴随着 $θ\theta$ 的更新而更新。
${L(ϕ,θ,θ(t))=EQ(Z∣X;ϕ)[log⁡P(X∣Z;θ)]−KL[Q(Z∣X;ϕ)∣∣P(Z;θ(t))](θ^(t+1),ϕ^(t+1))=arg⁡max⁡θ,ϕL(ϕ,θ,θ(t))\begin{cases} \mathcal L(\phi,\theta,\theta^{(t)}) = \mathbb E_{\mathcal Q(\mathcal Z \mid \mathcal X;\phi)} \left[\log \mathcal P(\mathcal X \mid \mathcal Z;\theta)\right] - \text{KL} [\mathcal Q(\mathcal Z \mid \mathcal X;\phi) || \mathcal P(\mathcal Z;\theta^{(t)})] \\ \quad \\ (\hat {\theta}^{(t+1)},\hat {\phi}^{(t+1)}) = \mathop{\arg\max}\limits_{\theta,\phi} \mathcal L(\phi,\theta,\theta^{(t)}) \end{cases}$
关于目标函数 $L(ϕ,θ,θ(t))\mathcal L(\phi,\theta,\theta^{(t)})$ 的底层逻辑是最大化 $ELBO\text{ELBO}$ ：
$(θ^(t+1),ϕ^(t+1))=arg⁡max⁡θ,ϕ{EQ(Z∣X;ϕ)[log⁡P(X,Z;θ)Q(Z∣X;ϕ)]}(\hat {\theta}^{(t+1)},\hat {\phi}^{(t+1)}) = \mathop{\arg\max}\limits_{\theta,\phi} \left\{\mathbb E_{\mathcal Q(\mathcal Z \mid \mathcal X;\phi)} \left[\log \frac{\mathcal P(\mathcal X,\mathcal Z;\theta)}{\mathcal Q(\mathcal Z \mid \mathcal X;\phi)}\right]\right\}$
也就是说，它仅仅是最大化了极大似然估计 $log⁡P(X;θ)\log \mathcal P(\mathcal X;\theta)$ 的下界。实际上，它并没有直接对对数似然函数求解最优化问题。

这不可避免地存在误差，毕竟最优化对数似然函数和最优化它的下界 是两个概念。这一切的核心问题均在于 $P(X)\mathcal P(\mathcal X)$ 无法得到精确解。

如果存在一种模型，它在学习任务过程中， $P(X)\mathcal P(\mathcal X)$ 是可求解的( $tractable\text{tractable}$ )，自然不会出现上述一系列的近似操作了。

标准流( $Flow\text{Normalizing Flow}$ )思想

关于样本 $X\mathcal X$ 的概率分布 $P(X)\mathcal P(\mathcal X)$ ，它可能是复杂的。但流模型( $Model\text{Flow-based Model}$ )的思想是：分布 $P(X)\mathcal P(\mathcal X)$ 的复杂并不是一蹴而就的，而是通过若干次的变化而产生出的复杂结果。

关于流模型的概率图结构可表示为如下形式：
流模型-概率图结构
从模型结构中可以观察到，既然分布 $P(X)\mathcal P(\mathcal X)$ 比较复杂，那么可以构建隐变量 $Z\mathcal Z$ 与 $X\mathcal X$ 之间的函数关系 $X=f(Z)\mathcal X = f(\mathcal Z)$ ，从而通过换元的方式描述 $P(Z)\mathcal P(\mathcal Z)$ 与 $P(X)\mathcal P(\mathcal X)$ 的函数关系。

如果隐变量 $Z\mathcal Z$ 的结构同样复杂，可以继续针对该隐变量创造新的隐变量并构建函数关系。以此类推，最终可以通过一组服从简单分布的随机变量 $Zinit\mathcal Z_{init}$ 通过若干次的函数的嵌套表示，得到关于 $X\mathcal X$ 的关联关系，从而得到 $Pinit(Zinit)⇒P(X)\mathcal P_{init}(\mathcal Z_{init}) \Rightarrow \mathcal P(\mathcal X)$ 的函数关系。

分布变换的推导过程

以上图中隐变量 $ZK\mathcal Z_{\mathcal K}$ 和观测变量 $X\mathcal X$ 之间关联关系示例：
在这里插入图片描述

创建假设： $fKf_{\mathcal K}$ 是一个 连续、可逆 函数，满足 $X=fK(ZK)\mathcal X = f_{\mathcal K}(\mathcal Z_{\mathcal K})$ 。其中 $ZK,X\mathcal Z_{\mathcal K},\mathcal X$ 均表示随机变量集合，并服从对应的概率分布：
- 其中 $PX(X)\mathcal P_{\mathcal X}(\mathcal X)$ 表示关于 $X\mathcal X$ 的概率分布，并且变量是 $X.ZK\mathcal X.\mathcal Z_{\mathcal K}$ 对应分布同理。
- 反过来，由于 $fKf_{\mathcal K}$ 函数可逆，因而有： $ZK=fK−1(X)\mathcal Z_{\mathcal K} = f_{\mathcal K}^{-1}(\mathcal X)$ .
  $ZK∼PZK(ZK),X∼PX(X);ZK,X∈Rp\mathcal Z_{\mathcal K} \sim \mathcal P_{\mathcal Z_{\mathcal K}}(\mathcal Z_{\mathcal K}),\mathcal X \sim \mathcal P_{\mathcal X}(\mathcal X);\quad \mathcal Z_{\mathcal K},\mathcal X \in \mathbb R^p$
不可否认的是，无论是 $PZK(ZK)\mathcal P_{\mathcal Z_{\mathcal K}}(\mathcal Z_{\mathcal K})$ 还是 $PX(X)\mathcal P_{\mathcal X}(\mathcal X)$ ，它们都是概率分布。根据概率密度积分的定义，必然有：
$∫ZKPZK(ZK)dZK=∫XPX(X)dX=1\int_{\mathcal Z_{\mathcal K}} \mathcal P_{\mathcal Z_{\mathcal K}}(\mathcal Z_{\mathcal K}) d\mathcal Z_{\mathcal K} = \int_{\mathcal X} \mathcal P_{\mathcal X}(\mathcal X) d\mathcal X =1$
从而有：
在变分推断——重参数化技巧一节中也使用这种描述进行换元,在不定积分中, $PZK(ZK)dZK\mathcal P_{\mathcal Z_{\mathcal K}}(\mathcal Z_{\mathcal K}) d\mathcal Z_{\mathcal K}$ 和 $PX(X)dX\mathcal P_{\mathcal X}(\mathcal X)d \mathcal X$ 必然相等;但是在定积分中, $ZK,X\mathcal Z_{\mathcal K},\mathcal X$ 位于不同的特征空间，对应的积分值(有正有负)存在差异。因此需要加上‘模’符号。
$∣PZK(ZK)dZK∣=∣PX(X)dX∣|\mathcal P_{\mathcal Z_{\mathcal K}}(\mathcal Z_{\mathcal K}) d\mathcal Z_{\mathcal K}| = |P_{\mathcal X}(\mathcal X) d\mathcal X|$
但由于 $PZK(ZK),PX(X)\mathcal P_{\mathcal Z_{\mathcal K}}(\mathcal Z_{\mathcal K}),\mathcal P_{\mathcal X}(\mathcal X)$ 它们是概率密度函数，它们的实际结果表示概率值(恒正)。因此 $∣PX(X)∣=PX(X)|\mathcal P_{\mathcal X}(\mathcal X)| = \mathcal P_{\mathcal X}(\mathcal X)$ ， $PZK(ZK)\mathcal P_{\mathcal Z_{\mathcal K}}(\mathcal Z_{\mathcal K})$ 同理。经过移项，可将概率分布之间的关系表示为如下形式：
$PX(X)=∣dZKdX∣⋅PZK(ZK)\mathcal P_{\mathcal X}(\mathcal X) = \left|\frac{d\mathcal Z_{\mathcal K}}{d\mathcal X}\right| \cdot \mathcal P_{\mathcal Z_{\mathcal K}}(\mathcal Z_{\mathcal K})$
将 $ZK=fK−1(X)\mathcal Z_{\mathcal K} = f_{\mathcal K}^{-1}(\mathcal X)$ 代入，最终可得到如下形式：
$PX(X)=∣∂fK−1(X)∂X∣⋅PZK(ZK)\mathcal P_{\mathcal X}(\mathcal X) = \left|\frac{\partial f_{\mathcal K}^{-1}(\mathcal X)}{\partial \mathcal X}\right| \cdot \mathcal P_{\mathcal Z_{\mathcal K}}(\mathcal Z_{\mathcal K})$
观察系数项 $∣∂fK−1(X)∂X∣\left|\frac{\partial f_{\mathcal K}^{-1}(\mathcal X)}{\partial \mathcal X}\right|$ ，它是一个标量、常数，但 $∂fK−1(X)∂X\frac{\partial f_{\mathcal K}^{-1}(\mathcal X)}{\partial\mathcal X}$ 自身是一个矩阵：
该矩阵被称作雅可比矩阵 $Jacobian\text{Jacobian}$
$∂fK−1(X)∂X=[∂fK−1(X1)∂X1∂fK−1(X1)∂X2⋯∂fK−1(X1)∂Xp∂fK−1(X2)∂X1∂fK−1(X2)∂X2⋯∂fK−1(X2)∂Xp⋮⋮⋱⋮∂fK−1(Xp)∂X1∂fK−1(Xp)∂X2⋯∂fK−1(Xp)∂Xp]p×p\frac{\partial f_{\mathcal K}^{-1}(\mathcal X)}{\partial \mathcal X} = \begin{bmatrix} \frac{\partial f_{\mathcal K}^{-1}(\mathcal X_1)}{\partial \mathcal X_1} & \frac{\partial f_{\mathcal K}^{-1}(\mathcal X_1)}{\partial \mathcal X_2}& \cdots & \frac{\partial f_{\mathcal K}^{-1}(\mathcal X_1)}{\partial \mathcal X_p} \\ \frac{\partial f_{\mathcal K}^{-1}(\mathcal X_2)}{\partial \mathcal X_1} & \frac{\partial f_{\mathcal K}^{-1}(\mathcal X_2)}{\partial \mathcal X_2} & \cdots & \frac{\partial f_{\mathcal K}^{-1}(\mathcal X_2)}{\partial \mathcal X_p}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial f_{\mathcal K}^{-1}(\mathcal X_p)}{\partial \mathcal X_1} & \frac{\partial f_{\mathcal K}^{-1}(\mathcal X_p)}{\partial \mathcal X_2} & \cdots & \frac{\partial f_{\mathcal K}^{-1}(\mathcal X_p)}{\partial \mathcal X_p} \end{bmatrix}_{p \times p}$
那么 $∣∂fK−1(X)∂X∣\left|\frac{\partial f_{\mathcal K}^{-1}(\mathcal X)}{\partial \mathcal X}\right|$ 实际上是与雅克比矩阵对应的雅克比行列式( $Determinant\text{Jacobian Determinant}$ )的绝对值。使用 $det[∂fK−1(X)∂X]\text{det}\left[\frac{\partial f_{\mathcal K}^{-1}(\mathcal X)}{\partial \mathcal X}\right]$ 进行表示：
$PX(X)=∣det[∂fK−1(X)∂X]∣⋅PZK(ZK)\mathcal P_{\mathcal X}(\mathcal X) = \left|\text{det}\left[\frac{\partial f_{\mathcal K}^{-1}(\mathcal X)}{\partial \mathcal X}\right]\right| \cdot \mathcal P_{\mathcal Z_{\mathcal K}}(\mathcal Z_{\mathcal K})$
继续变换，观察 $∂fK−1(X)∂X\frac{\partial f_{\mathcal K}^{-1}(\mathcal X)}{\partial \mathcal X}$ ，可以继续向下变换：
${∂fK−1(X)∂X⋅∂fK(ZK)∂ZK=1⇒∂fK−1(X)∂X=[∂fK(ZK)∂ZK]−1⇒∣det[∂fK−1(X)∂X]∣=∣det[∂fK(ZK)∂ZK]∣−1\begin{cases} \frac{\partial f_{\mathcal K}^{-1}(\mathcal X)}{\partial \mathcal X} \cdot \frac{\partial f_{\mathcal K}(\mathcal Z_{\mathcal K})}{\partial \mathcal Z_{\mathcal K}} = 1 \Rightarrow \frac{\partial f_{\mathcal K}^{-1}(\mathcal X)}{\partial \mathcal X} = \left[\frac{\partial f_{\mathcal K}(\mathcal Z_{\mathcal K})}{\partial \mathcal Z_{\mathcal K}}\right]^{-1} \\ \Rightarrow \left|\text{det}\left[\frac{\partial f_{\mathcal K}^{-1}(\mathcal X)}{\partial \mathcal X}\right]\right| = \left|\text{det}\left[\frac{\partial f_{\mathcal K}(\mathcal Z_{\mathcal K})}{\partial \mathcal Z_{\mathcal K}}\right]\right|^{-1} \end{cases}$
最终，分布 $PX(X)\mathcal P_{\mathcal X}(\mathcal X)$ 与分布 $PZK(ZK)\mathcal P_{\mathcal Z_{\mathcal K}}(\mathcal Z_{\mathcal K})$ 之间的关系表示为：
$PX(X)=∣det[∂fK(ZK)∂ZK]∣−1⋅PZK(ZK)\mathcal P_{\mathcal X}(\mathcal X) = \left|\text{det}\left[\frac{\partial f_{\mathcal K}(\mathcal Z_{\mathcal K})}{\partial \mathcal Z_{\mathcal K}}\right]\right|^{-1} \cdot \mathcal P_{\mathcal Z_{\mathcal K}}(\mathcal Z_{\mathcal K})$

至此，从随机变量 $ZK\mathcal Z_{\mathcal K}$ 与随机变量 $X\mathcal X$ 之间的函数关系，转化为概率分布 $PX(X)\mathcal P_{\mathcal X}(\mathcal X)$ 与 $PZK(ZK)\mathcal P_{\mathcal Z_{\mathcal K}}(\mathcal Z_{\mathcal K})$ 之间的函数关系已表示出来。而流模型中的每一个过程均是基于上述关系，一层一层计算过来。

不同于以往对 $P(X)\mathcal P(\mathcal X)$ 的求解过程，它能够将 $P(X)\mathcal P(\mathcal X)$ 描述出来，直到使用隐变量的层数选择完成，其对应的 $P(X)\mathcal P(\mathcal X)$ 计算精度达到条件即可。关于流模型的学习方式依然是极大似然估计( $Estimation,MLE\text{Maximum Likelihood Estimation,MLE}$ )：
$log⁡PX(X)=log⁡{∏k=1K∣det[∂fk(Zk)∂Zk]∣−1⋅Pinit(Zinit)}=log⁡Pinit(Zinit)+∑k=1Klog⁡{∣det[∂fk(Zk)∂Zk]∣−1}\begin{aligned} \log \mathcal P_{\mathcal X}(\mathcal X) & = \log \left\{\prod_{k=1}^{\mathcal K} \left|\text{det} \left[\frac{\partial f_{k}(\mathcal Z_k)}{\partial \mathcal Z_k}\right]\right|^{-1} \cdot \mathcal P_{init}(\mathcal Z_{init})\right\} \\ & = \log \mathcal P_{init}(\mathcal Z_{init}) + \sum_{k=1}^{\mathcal K} \log \left\{\left|\text{det} \left[\frac{\partial f_{k}(\mathcal Z_k)}{\partial \mathcal Z_k}\right]\right|^{-1}\right\} \end{aligned}$