当前位置: 首页 > news >正文

ECCV-2018《Variational Wasserstein Clustering》

核心思想

该论文提出了一个基于最优传输(optimal transportation) 理论的新型聚类方法,称为变分Wasserstein聚类(Variational Wasserstein Clustering, VWC)。其核心思想有三点:

  1. 建立最优传输与k-means聚类的联系:作者指出k-means聚类问题本质上等价于求解一个特殊的Wasserstein重心问题(Wasserstein barycenter problem),当目标是一个单变量测度时,这被称为Wasserstein均值问题(Wasserstein means problem)。

  2. 采用Monge-Brenier最优传输视角:与主流的Kantorovich最优传输方法不同,本文采用Monge-Brenier方法,将最优传输视为测度保持映射(measure-preserving mapping),即一个样本不能被分割到多个位置,这与k-means聚类的特性更加吻合。

  3. 利用power diagrams作为传输计划:通过变分原理(variational principle)求解最优传输问题,使用power Voronoi图作为传输计划,将任意域聚集成固定数量的簇,同时在移动簇中心点的过程中保持最小聚类能量。

这种方法的优势在于:(1)它是局部微分同胚;(2)不需要预先计算成对距离;(3)避免在乘积空间中搜索,从而大幅减少参数数量。

目标函数

论文的目标函数基于2-Wasserstein距离,旨在找到一组稀疏的簇中心Y(y,ν)Y(y,\nu)Y(y,ν),使其与目标分布X(x,μ)X(x,\mu)X(x,μ)之间的Wasserstein距离最小化:

inf⁡Y∈P(M)W22(X,Y)=inf⁡Y∈P(M),π∈P(M×M)∑yj=π(xi)μi∥xi−yj∥2\inf_{Y \in P(M)} W_2^2(X, Y) = \inf_{Y \in P(M), \pi \in P(M \times M)} \sum_{y_j = \pi(x_i)} \mu_i \|x_i - y_j\|^2YP(M)infW22(X,Y)=YP(M),πP(M×M)infyj=π(xi)μixiyj2

其中P(M)P(M)P(M)表示度量空间MMM上的所有Borel概率测度集合。

在固定测度ν\nuν的情况下,该问题等价于:

f(h,y)=∑j=1k∑xi∈Vj(h)μi∥xi−yj∥2f(h, y) = \sum_{j=1}^k \sum_{x_i \in V_j(h)} \mu_i \|x_i - y_j\|^2f(h,y)=j=1kxiVj(h)μixiyj2

这里:

  • h=(h1,…,hk)Th = (h_1, \dots, h_k)^Th=(h1,,hk)T是power diagram的参数向量
  • y=(y1,…,yk)y = (y_1, \dots, y_k)y=(y1,,yk)是簇中心
  • Vj(h)V_j(h)Vj(h)是由power diagram定义的第jjj个Voronoi单元
  • μi\mu_iμi是样本xix_ixi的测度

power Voronoi图的定义为:
Vj≜{m∈M∣∥m−yj∥2−rj2≤∥m−yi∥2−ri2},∀j≠iV_j \triangleq \{m \in M \mid \|m - y_j\|^2 - r_j^2 \leq \|m - y_i\|^2 - r_i^2\}, \forall j \neq iVj{mMmyj2rj2myi2ri2},j=i

其中rjr_jrj与单元的总质量相关。

目标函数的优化过程

论文提出了迭代测度保持映射(Iterative Measure-Preserving Mapping) 算法来优化目标函数,该算法交替执行两个步骤:

1. 固定簇中心yyy,更新power diagram(即更新hhh

通过求解变分最优传输问题,最小化能量函数:
E(h)=∫Ωθh(x)μ(x)dx−∑j=1kνjhjE(h) = \int_{\Omega} \theta_h(x)\mu(x)dx - \sum_{j=1}^k \nu_j h_jE(h)=Ωθh(x)μ(x)dxj=1kνjhj

其中θh(x)=max⁡{⟨x,yj⟩+hj}\theta_h(x) = \max\{\langle x, y_j \rangle + h_j\}θh(x)=max{⟨x,yj+hj}是一个分段线性凸函数。

使用牛顿法求解:

  • 梯度:∇E(h)=(w1(h)−ν1,…,wk(h)−νk)T\nabla E(h) = (w_1(h) - \nu_1, \dots, w_k(h) - \nu_k)^TE(h)=(w1(h)ν1,,wk(h)νk)T
  • Hessian矩阵:
    H=∂2E(h)∂hi∂hj={∑l∫filμ(x)dx∥yl−yi∥,i=j,∀l,s.t. fil≠∅−∫fijμ(x)dx∥yj−yi∥,i≠j,fij≠∅0,i≠j,fij=∅H = \frac{\partial^2 E(h)}{\partial h_i \partial h_j} = \begin{cases} \sum_l \frac{\int_{f_{il}} \mu(x)dx}{\|y_l - y_i\|}, & i = j, \forall l, \text{s.t. } f_{il} \neq \emptyset \\ -\frac{\int_{f_{ij}} \mu(x)dx}{\|y_j - y_i\|}, & i \neq j, f_{ij} \neq \emptyset \\ 0, & i \neq j, f_{ij} = \emptyset \end{cases}H=hihj2E(h)=lylyifilμ(x)dx,yjyifijμ(x)dx,0,i=j,l,s.t. fil=i=j,fij=i=j,fij=

其中wj(h)=∑x∈Vj(h)μ(x)w_j(h) = \sum_{x \in V_j(h)} \mu(x)wj(h)=xVj(h)μ(x)是第jjj个单元的总质量,fijf_{ij}fij是相邻单元的交集。

更新规则:h(t+1)←h(t)−λH−1∇E(h)h^{(t+1)} \leftarrow h^{(t)} - \lambda H^{-1} \nabla E(h)h(t+1)h(t)λH1E(h)

2. 固定power diagram(即固定hhh),更新簇中心yyy

更新规则为加权平均:
yj(t+1)=∑x∈Vjμixi(t)∑x∈Vjμiy_j^{(t+1)} = \frac{\sum_{x \in V_j} \mu_i x_i^{(t)}}{\sum_{x \in V_j} \mu_i}yj(t+1)=xVjμixVjμixi(t)

论文证明了该算法具有以下性质:

  • 单调收敛性:每次迭代都减少目标函数值
  • 有限步收敛:在有限次迭代后收敛
  • 唯一解:产生唯一的局部解

主要贡献点

  1. 理论贡献:建立了最优传输与k-means聚类之间的理论联系,从Monge-Brenier角度重新解释了k-means聚类问题。

  2. 算法创新:提出了变分Wasserstein聚类算法,利用power Voronoi图同时优化Wasserstein距离和聚类质量,实现了测度保持映射。

  3. 计算效率:相比基于Kantorovich最优传输的方法,避免了在乘积空间中搜索,大大减少了参数数量和计算复杂度。

  4. 多领域应用:成功将该方法应用于域适应、重新网格化和学习表示三个不同领域,展示了其广泛适用性。

  5. 理论保证:证明了算法的收敛性和解的唯一性,为方法的可靠性提供了理论支持。

实验结果

论文在三个不同任务上验证了VWC方法的有效性:

1. 合成数据上的域适应

  • 实验设置:源域包含两个高斯分布(各30个样本),目标域包含两个不同均值和方差的高斯分布(各1500个样本)
  • 结果
    • VWC在RBF核上的分类准确率达到99.31%,略高于D2(99.25%)和JDOT(99.23%)
    • 传统k-means++在没有先验知识(如线性偏移)的情况下表现极差(准确率仅50%)
    • VWC不需要预先知道两个域之间的关系,即可有效进行知识迁移

2. 三角网格变形

  • 实验设置:将人脸表面的三角网格重新分布,使顶点向高曲率区域移动
  • 结果
    • 鼻子尖端等高曲率区域顶点更密集,额头等平坦区域顶点更稀疏
    • 通过将曲面映射到单位圆盘,应用VWC,再映射回原始曲面,实现了基于曲率的自适应网格划分
    • 该方法可用于计算机图形学中的网格优化

3. 脑图像表示学习

  • 实验设置:在100个MRI脑图像上进行实验(50个阿尔茨海默病AD,50个正常对照NC)
  • 结果
    • 使用VWC学习的低维表示在SVM分类中表现显著优于PCA
    • 随着中心点数量增加,VWC的分类准确率稳定提高,而PCA表现波动
    • 验证了VWC在医学图像分析中的潜力,特别是对AD相关脑萎缩的表征能力

算法实现过程

VWC的完整算法流程如下:

1. 预处理阶段

  • 初始化:从已知分布中采样得到初始测度ν\nuν
  • 域统一:如果源域MMM和目标域NNN不同,使用调和映射(Harmonic mapping)将它们映射到凸规范空间(通常是欧氏空间RnR^nRn或单位圆盘DnD^nDn
    • 例如:将3D脑表面映射到单位球

2. 迭代测度保持映射

(a) 更新Voronoi划分(变分最优传输)
  • 计算当前hhh对应的power diagram VVV
  • 计算每个单元的权重w(h)={∑m∈Vjμ(m)}w(h) = \{\sum_{m \in V_j} \mu(m)\}w(h)={mVjμ(m)}
  • 计算能量函数的梯度∇E(h)\nabla E(h)E(h)和Hessian矩阵HHH
  • 更新h←h−λH−1∇E(h)h \leftarrow h - \lambda H^{-1} \nabla E(h)hhλH1E(h)
  • 重复直到∥∇E(h)∥<ϵ\|\nabla E(h)\| < \epsilon∥∇E(h)<ϵ
(b) 更新簇中心
  • 对每个簇jjj,计算新的中心点:
    yj=∑x∈Vjμixi∑x∈Vjμiy_j = \frac{\sum_{x \in V_j} \mu_i x_i}{\sum_{x \in V_j} \mu_i}yj=xVjμixVjμixi
  • 这是基于测度μi\mu_iμi的加权平均
© 收敛判断
  • 重复(a)和(b)步骤,直到簇中心yyy的变化小于阈值

3. 输出结果

  • 返回测度保持映射π:X→Y\pi: X \rightarrow Yπ:XY,表示为(y,V)(y, V)(y,V)
  • 其中yyy是最终的簇中心,VVV是对应的power Voronoi图

实现细节

  • 使用Voro++库计算Voronoi图
  • 对于高维数据,可能面临计算和内存挑战
  • 可通过梯度下降替代完整Voronoi图计算,只需相邻单元交集来计算Hessian
  • 每个样本的分配可通过最近邻搜索确定

总结

VWC方法将最优传输理论与k-means聚类巧妙结合,提供了一种全新的聚类视角。其核心优势在于能够同时优化聚类质量和Wasserstein距离,实现测度保持的映射。该方法在域适应、网格优化和医学图像分析等任务中展示了出色的性能,特别是对于需要保持分布特性的应用场景。相比传统聚类方法和基于Kantorovich最优传输的方法,VWC在计算效率和理论保证方面都有明显优势,为聚类分析和分布匹配问题提供了新的解决方案。

以下是对该公式的详细推导与解释:


1. 幂图(Power Diagram)的定义

给定一组中心点 {y1,y2,…,yk}⊂Rn\{y_1, y_2, \dots, y_k\} \subset \mathbb{R}^n{y1,y2,,yk}Rn 和权重 {r12,r22,…,rk2}\{r_1^2, r_2^2, \dots, r_k^2\}{r12,r22,,rk2},幂图(Power Diagram)将空间 Rn\mathbb{R}^nRn 划分为 kkk 个区域 V1,V2,…,VkV_1, V_2, \dots, V_kV1,V2,,Vk,其中:
Vj={m∈M | ∥m−yj∥2−rj2≤∥m−yi∥2−ri2,∀i≠j}. V_j = \left\{ m \in M \,\middle|\, \|m - y_j\|^2 - r_j^2 \leq \|m - y_i\|^2 - r_i^2, \quad \forall i \neq j \right\}. Vj={mMmyj2rj2myi2ri2,i=j}.
每个区域 VjV_jVj 包含所有点 mmm,使得对任意其他中心 yiy_iyi,加权距离 ∥m−yj∥2−rj2\|m - y_j\|^2 - r_j^2myj2rj2 不大于 ∥m−yi∥2−ri2\|m - y_i\|^2 - r_i^2myi2ri2


2. 不等式的推导

从幂图的定义出发,我们推导出更简洁的线性不等式形式:

步骤1:展开平方项

对任意 i≠ji \neq ji=j,比较 ∥m−yj∥2−rj2\|m - y_j\|^2 - r_j^2myj2rj2∥m−yi∥2−ri2\|m - y_i\|^2 - r_i^2myi2ri2
∥m−yj∥2−rj2≤∥m−yi∥2−ri2. \|m - y_j\|^2 - r_j^2 \leq \|m - y_i\|^2 - r_i^2. myj2rj2myi2ri2.
展开平方项:
(m−yj)T(m−yj)−rj2≤(m−yi)T(m−yi)−ri2. (m - y_j)^T(m - y_j) - r_j^2 \leq (m - y_i)^T(m - y_i) - r_i^2. (myj)T(myj)rj2(myi)T(myi)ri2.

步骤2:化简表达式

展开后得到:
mTm−2mTyj+yjTyj−rj2≤mTm−2mTyi+yiTyi−ri2. m^T m - 2 m^T y_j + y_j^T y_j - r_j^2 \leq m^T m - 2 m^T y_i + y_i^T y_i - r_i^2. mTm2mTyj+yjTyjrj2mTm2mTyi+yiTyiri2.
两边同时减去 mTmm^T mmTm,并整理:
−2mTyj+(yjTyj−rj2)≤−2mTyi+(yiTyi−ri2). -2 m^T y_j + (y_j^T y_j - r_j^2) \leq -2 m^T y_i + (y_i^T y_i - r_i^2). 2mTyj+(yjTyjrj2)2mTyi+(yiTyiri2).

步骤3:移项得到线性不等式

将含 mmm 的项移到左边,常数项移到右边:
−2mTyj+2mTyi≤(yiTyi−ri2)−(yjTyj−rj2). -2 m^T y_j + 2 m^T y_i \leq (y_i^T y_i - r_i^2) - (y_j^T y_j - r_j^2). 2mTyj+2mTyi(yiTyiri2)(yjTyjrj2).
提取公因子 222
2mT(yi−yj)≤(yiTyi−ri2)−(yjTyj−rj2). 2 m^T (y_i - y_j) \leq (y_i^T y_i - r_i^2) - (y_j^T y_j - r_j^2). 2mT(yiyj)(yiTyiri2)(yjTyjrj2).
两边除以 222,得到最终形式:
mTyj−12(yjTyj+rj2)≤mTyi−12(yiTyi+ri2). m^T y_j - \frac{1}{2}(y_j^T y_j + r_j^2) \leq m^T y_i - \frac{1}{2}(y_i^T y_i + r_i^2). mTyj21(yjTyj+rj2)mTyi21(yiTyi+ri2).


3. 几何意义

上述不等式可以看作是超平面分割的条件:

  • 左端mTyj−12(yjTyj+rj2)m^T y_j - \frac{1}{2}(y_j^T y_j + r_j^2)mTyj21(yjTyj+rj2) 是关于 mmm 的线性函数。
  • 右端mTyi−12(yiTyi+ri2)m^T y_i - \frac{1}{2}(y_i^T y_i + r_i^2)mTyi21(yiTyi+ri2) 同样是关于 mmm 的线性函数。

因此,每个不等式对应一个超平面:
mT(yj−yi)≤12(yiTyi−yjTyj+rj2−ri2). m^T (y_j - y_i) \leq \frac{1}{2}\left( y_i^T y_i - y_j^T y_j + r_j^2 - r_i^2 \right). mT(yjyi)21(yiTyiyjTyj+rj2ri2).
这表明,幂图的每个区域 VjV_jVj 是由多个超平面分割出的凸多面体,因此整个幂图是凸分割


4. 与分段线性凸函数的关系

根据文献[27](Aurenhammer, 1987),幂图与分段线性凸函数存在一一对应关系:

  • 每个幂图区域 VjV_jVj 对应函数 uh(x)u_h(x)uh(x) 的一个线性片(affine piece)。
  • 函数 uh(x)u_h(x)uh(x) 在区域 VjV_jVj 内的表达式为:
    uh(x)=xTyj−12(yjTyj+rj2). u_h(x) = x^T y_j - \frac{1}{2}(y_j^T y_j + r_j^2). uh(x)=xTyj21(yjTyj+rj2).
  • 因此,幂图是该分段线性凸函数的次微分分解(subdifferential decomposition)。

5. 应用场景

在论文《Variational Wasserstein Clustering》中,幂图被用于:

  1. 最优传输映射:通过调整权重 rj2r_j^2rj2,将源分布 XXX 映射到目标分布 YYY
  2. 聚类优化:每个幂图区域 VjV_jVj 对应一个簇,簇中心 yjy_jyj 和权重 rj2r_j^2rj2 通过迭代优化确定,以最小化Wasserstein距离。

总结

该不等式揭示了幂图的线性超平面结构,并通过分段线性凸函数建立了理论联系。这一结果为变分Wasserstein聚类算法提供了关键工具,使得复杂的最优传输问题可以通过凸优化求解。


1. 核心概念解析

(a) 概率测度空间 P(M)\mathcal{P}(M)P(M)
  • 定义P(M)\mathcal{P}(M)P(M) 是定义在度量空间 MMM 上的所有Borel概率测度的集合。
  • 示例
    • 离散测度:如 X=∑i=1nμiδxiX = \sum_{i=1}^n \mu_i \delta_{x_i}X=i=1nμiδxi(样本点 xix_ixi 的加权组合)。
    • 连续测度:如高斯分布 N(μ,σ2)N(\mu, \sigma^2)N(μ,σ2)
(b) 测度保持映射 TTT
  • 定义:若映射 T:X→YT: X \to YT:XY 满足:
    μ(T−1(B))=ν(B),∀B⊂Y, \mu(T^{-1}(B)) = \nu(B), \quad \forall B \subset Y, μ(T1(B))=ν(B),BY,
    则称 TTT测度保持映射(measure-preserving mapping)。
  • 几何意义:将 XXX 的质量完美地“搬运”到 YYY,不增不减。
© 耦合(Coupling)
  • 定义:耦合 π\piπXXXYYY 在乘积空间 M×MM \times MM×M 上的联合概率测度,其边缘分布为:
    μ=π(⋅,M),ν=π(M,⋅). \mu = \pi(\cdot, M), \quad \nu = \pi(M, \cdot). μ=π(,M),ν=π(M,).
  • 物理意义π(x,y)\pi(x, y)π(x,y) 表示将质量从 xxx 运输到 yyy 的比例。

2. 最优传输问题

(a) 运输成本函数 c(x,y)c(x, y)c(x,y)
  • 定义:通常取为测地距离的 ppp 次幂
    c(x,y)=d(x,y)p. c(x, y) = d(x, y)^p. c(x,y)=d(x,y)p.
  • 常见选择
    • p=1p=1p=1:对应Earth Mover’s Distance (EMD)。
    • p=2p=2p=2:对应最常见的Wasserstein距离。
(b) Wasserstein距离的定义

Wp(μ,ν)=(inf⁡π∈Π(μ,ν)∫M×Mc(x,y)dπ(x,y))1/p, W_p(\mu, \nu) = \left( \inf_{\pi \in \Pi(\mu, \nu)} \int_{M \times M} c(x, y) d\pi(x, y) \right)^{1/p}, Wp(μ,ν)=(πΠ(μ,ν)infM×Mc(x,y)dπ(x,y))1/p,
其中 Π(μ,ν)\Pi(\mu, \nu)Π(μ,ν) 是所有满足边缘约束的耦合集合。

  • 物理意义WpW_pWp 是将分布 μ\muμ 转换为 ν\nuν最小平均运输成本
  • 关键性质
    • 满足距离公理(非负性、同一性、对称性、三角不等式)。
    • 对分布的形状和位置敏感,适合衡量高维数据差异。

3. Monge型与Kantorovich型最优传输

(a) Monge型传输
  • 限制条件:每个质量点 xxx 只能被映射到一个 yyy,即:
    dπ(x,y)=dμ(x)δ[y=T(x)]. d\pi(x, y) = d\mu(x) \delta[y = T(x)]. dπ(x,y)=dμ(x)δ[y=T(x)].
  • 目标函数
    πTopt=Topt=arg min⁡T∫Mc(x,T(x))dμ(x). \pi_{T_{\text{opt}}} = T_{\text{opt}} = \argmin_T \int_M c(x, T(x)) d\mu(x). πTopt=Topt=TargminMc(x,T(x))dμ(x).
  • 优点:直接给出显式的映射 TTT,便于几何解释。
(b) Kantorovich型传输
  • 允许质量分裂:一个质量点 xxx 可以被分配到多个 yyy,通过耦合 π(x,y)\pi(x, y)π(x,y) 描述。
  • 目标函数
    Wp(μ,ν)=(inf⁡π∈Π(μ,ν)∫M×Mc(x,y)dπ(x,y))1/p. W_p(\mu, \nu) = \left( \inf_{\pi \in \Pi(\mu, \nu)} \int_{M \times M} c(x, y) d\pi(x, y) \right)^{1/p}. Wp(μ,ν)=(πΠ(μ,ν)infM×Mc(x,y)dπ(x,y))1/p.

4. 式(2)的推导

当研究Monge型传输时,由于每个 xxx 只能映射到一个 yyy,耦合 π\piπ 可表示为:
π(x,y)=δ[y=T(x)]dμ(x). \pi(x, y) = \delta[y = T(x)] d\mu(x). π(x,y)=δ[y=T(x)]dμ(x).
代入Wasserstein距离的定义:
Wpp(μ,ν)=∫Mc(x,T(x))dμ(x). W_p^p(\mu, \nu) = \int_M c(x, T(x)) d\mu(x). Wpp(μ,ν)=Mc(x,T(x))dμ(x).
因此,寻找最优传输等价于:
Topt=arg min⁡T∫Mc(x,T(x))dμ(x), T_{\text{opt}} = \argmin_T \int_M c(x, T(x)) d\mu(x), Topt=TargminMc(x,T(x))dμ(x),
即式(2)所示。


5. 应用场景与意义

在《Variational Wasserstein Clustering》中,作者利用Monge型传输的特性:

  1. 保持测度:确保聚类过程中质量守恒。
  2. 显式映射:通过求解 ToptT_{\text{opt}}Topt 直接获得簇中心与样本的对应关系。
  3. 变分原理:将最优传输转化为能量最小化问题,便于数值求解。

总结

该段文字的核心是:

  • 定义了最优传输问题,通过耦合 π\piπ 描述质量转移。
  • 区分了Monge型与Kantorovich型传输,前者更适合聚类任务。
  • 推导了Wasserstein距离的表达式,并指出在Monge框架下可简化为式(2)。

这一理论基础为后续的变分Wasserstein聚类算法提供了支撑,使得聚类过程既保持测度又具有几何可解释性。

Wasserstein度量的数学原理

Wasserstein度量(也称为Earth Mover’s Distance,EMD)是基于最优传输理论的概率分布间距离度量。下面我将系统阐述其数学原理,从基础定义到高级理论。

1. 最优传输问题基础

1.1 Monge问题(1781年)

Monge提出的原始问题:给定两个概率测度 μ\muμν\nuν,寻找一个测度保持映射 T:X→YT: X \rightarrow YT:XY,使得传输成本最小化:

inf⁡T#μ=ν∫Xc(x,T(x))dμ(x)\inf_{T_{\#}\mu = \nu} \int_X c(x, T(x)) d\mu(x)T#μ=νinfXc(x,T(x))dμ(x)

其中:

  • T#μ=νT_{\#}\mu = \nuT#μ=ν 表示 TTT 是测度保持映射(即 μ(T−1(B))=ν(B),∀B⊂Y\mu(T^{-1}(B)) = \nu(B), \forall B \subset Yμ(T1(B))=ν(B),BY
  • c(x,y)c(x, y)c(x,y) 是传输成本函数(通常为 c(x,y)=d(x,y)pc(x, y) = d(x, y)^pc(x,y)=d(x,y)p
  • d(x,y)d(x, y)d(x,y) 是基础空间上的距离度量

关键限制:每个质量点 xxx 只能被映射到一个 yyy(不能分割)

1.2 Kantorovich松弛(1941年)

Kantorovich将问题松弛为:

inf⁡π∈Π(μ,ν)∫X×Yc(x,y)dπ(x,y)\inf_{\pi \in \Pi(\mu, \nu)} \int_{X \times Y} c(x, y) d\pi(x, y)πΠ(μ,ν)infX×Yc(x,y)dπ(x,y)

其中 Π(μ,ν)\Pi(\mu, \nu)Π(μ,ν) 是所有满足边缘约束的耦合集合:

  • π(⋅,Y)=μ\pi(\cdot, Y) = \muπ(,Y)=μ
  • π(X,⋅)=ν\pi(X, \cdot) = \nuπ(X,)=ν

关键区别:允许质量分割,即一个 xxx 可以被分配到多个 yyy

2. Wasserstein距离的严格定义

2.1 p-Wasserstein距离

对于 p≥1p \geq 1p1,p-Wasserstein距离定义为:

Wp(μ,ν)=(inf⁡π∈Π(μ,ν)∫M×Md(x,y)pdπ(x,y))1/pW_p(\mu, \nu) = \left( \inf_{\pi \in \Pi(\mu, \nu)} \int_{M \times M} d(x, y)^p d\pi(x, y) \right)^{1/p}Wp(μ,ν)=(πΠ(μ,ν)infM×Md(x,y)pdπ(x,y))1/p

其中:

  • MMM 是基础度量空间
  • d(x,y)d(x, y)d(x,y)MMM 上的度量
  • Π(μ,ν)\Pi(\mu, \nu)Π(μ,ν) 是所有满足边缘约束的耦合集合

2.2 Wasserstein距离的性质

Wasserstein距离满足度量空间的所有公理:

  1. 非负性Wp(μ,ν)≥0W_p(\mu, \nu) \geq 0Wp(μ,ν)0
  2. 同一性Wp(μ,ν)=0W_p(\mu, \nu) = 0Wp(μ,ν)=0 当且仅当 μ=ν\mu = \nuμ=ν
  3. 对称性Wp(μ,ν)=Wp(ν,μ)W_p(\mu, \nu) = W_p(\nu, \mu)Wp(μ,ν)=Wp(ν,μ)
  4. 三角不等式Wp(μ,ζ)≤Wp(μ,ν)+Wp(ν,ζ)W_p(\mu, \zeta) \leq W_p(\mu, \nu) + W_p(\nu, \zeta)Wp(μ,ζ)Wp(μ,ν)+Wp(ν,ζ)

此外,它还具有以下重要特性:

  • 对分布形状敏感:不仅考虑分布的均值,还考虑分布的整体形状
  • 几何意义明确:可以理解为将一种分布"重塑"为另一种分布所需的最小"工作量"

3. Monge-Brenier最优传输理论

3.1 Brenier定理(1987年突破)

在欧氏空间 Rn\mathbb{R}^nRn 上,若 μ\muμ 是绝对连续测度,则存在唯一的最优传输映射 TTT,且 TTT 可表示为凸函数的梯度:

T=∇ϕT = \nabla \phiT=ϕ

其中 ϕ\phiϕRn\mathbb{R}^nRn 上的凸函数。

证明关键:最优传输映射 TTT 使传输成本 ∫∥x−T(x)∥2dμ(x)\int \|x - T(x)\|^2 d\mu(x)xT(x)2dμ(x) 最小化,且 TTT 是某个凸函数的梯度。

3.2 变分原理与Power Diagram

根据论文中的Alexandrov定理和Brenier定理:

  • 给定凸多面体 Ω⊂Rn\Omega \subset \mathbb{R}^nΩRnkkk 个不同点 y1,…,yk⊂Rny_1, \dots, y_k \subset \mathbb{R}^ny1,,ykRn,存在唯一的向量 h=(h1,…,hk)Th = (h_1, \dots, h_k)^Th=(h1,,hk)T(在平移意义下),使得分段线性凸函数:
    θh(x)=max⁡{⟨x,yj⟩+hj},j=1,…,k\theta_h(x) = \max\{\langle x, y_j \rangle + h_j\}, \quad j = 1, \dots, kθh(x)=max{⟨x,yj+hj},j=1,,k
    满足:
    vol(x∈Ω∣∇θh(x)=yj)=νj\text{vol}(x \in \Omega \mid \nabla \theta_h(x) = y_j) = \nu_jvol(xΩθh(x)=yj)=νj

  • 梯度映射 ∇θh\nabla \theta_hθh 提供了Monge问题的解,即最小化传输成本 ∫Ω∥x−θh(x)∥2\int_\Omega \|x - \theta_h(x)\|^2Ωxθh(x)2

  • Power Voronoi图:由凸函数 θh\theta_hθh 诱导的凸分割,定义为:
    Vj={m∈M∣∥m−yj∥2−rj2≤∥m−yi∥2−ri2,∀i≠j}V_j = \{m \in M \mid \|m - y_j\|^2 - r_j^2 \leq \|m - y_i\|^2 - r_i^2, \quad \forall i \neq j\}Vj={mMmyj2rj2myi2ri2,i=j}
    其中 rj2=−∥yj∥2−2hjr_j^2 = -\|y_j\|^2 - 2h_jrj2=yj22hj

4. Wasserstein距离的计算方法

4.1 Kantorovich方法

  • 将问题转化为线性规划
  • 需要预先计算成对距离
  • 在离散情况下,解耦合 π\piπn×mn \times mn×m 矩阵(nnnmmm 分别是两个分布的样本数)
  • 计算复杂度为 O(n3log⁡n)O(n^3 \log n)O(n3logn)

4.2 Monge-Brenier方法(变分方法)

  • 通过变分原理求解:最小化能量函数
    E(h)=∫Ωθh(x)μ(x)dx−∑j=1kνjhjE(h) = \int_\Omega \theta_h(x)\mu(x)dx - \sum_{j=1}^k \nu_j h_jE(h)=Ωθh(x)μ(x)dxj=1kνjhj

  • 梯度:∇E(h)=(w1(h)−ν1,…,wk(h)−νk)T\nabla E(h) = (w_1(h) - \nu_1, \dots, w_k(h) - \nu_k)^TE(h)=(w1(h)ν1,,wk(h)νk)T
    其中 wj(h)=∑x∈Vj(h)μ(x)w_j(h) = \sum_{x \in V_j(h)} \mu(x)wj(h)=xVj(h)μ(x) 是第 jjj 个单元的总质量

  • Hessian矩阵:
    H=∂2E(h)∂hi∂hj={∑l∫filμ(x)dx∥yl−yi∥,i=j,∀l,s.t. fil≠∅−∫fijμ(x)dx∥yj−yi∥,i≠j,fij≠∅0,i≠j,fij=∅H = \frac{\partial^2 E(h)}{\partial h_i \partial h_j} = \begin{cases} \sum_l \frac{\int_{f_{il}} \mu(x)dx}{\|y_l - y_i\|}, & i = j, \forall l, \text{s.t. } f_{il} \neq \emptyset \\ -\frac{\int_{f_{ij}} \mu(x)dx}{\|y_j - y_i\|}, & i \neq j, f_{ij} \neq \emptyset \\ 0, & i \neq j, f_{ij} = \emptyset \end{cases}H=hihj2E(h)=lylyifilμ(x)dx,yjyifijμ(x)dx,0,i=j,l,s.t. fil=i=j,fij=i=j,fij=
    其中 fijf_{ij}fij 是相邻单元的交集

  • 通过牛顿法迭代求解:h(t+1)←h(t)−λH−1∇E(h)h^{(t+1)} \leftarrow h^{(t)} - \lambda H^{-1} \nabla E(h)h(t+1)h(t)λH1E(h)

5. Wasserstein距离与k-means聚类的联系

5.1 Wasserstein均值问题

当目标分布 YYY 是稀疏的(即 YYY 有有限支持),Wasserstein距离最小化问题退化为:

inf⁡Y∈P(M)W22(X,Y)=inf⁡Y∈P(M),π∈P(M×M)∑yj=π(xi)μi∥xi−yj∥2\inf_{Y \in P(M)} W_2^2(X, Y) = \inf_{Y \in P(M), \pi \in P(M \times M)} \sum_{y_j = \pi(x_i)} \mu_i \|x_i - y_j\|^2YP(M)infW22(X,Y)=YP(M),πP(M×M)infyj=π(xi)μixiyj2

这正是k-means聚类问题

  • YYY 是簇中心集合
  • π\piπ 确定了样本到簇的分配
  • 目标是最小化加权平方距离和

5.2 变分Wasserstein聚类

如论文所述,变分Wasserstein聚类通过以下方式同时优化:

  1. 聚类质量∑xi∈Vjμi∥xi−yj∥2\sum_{x_i \in V_j} \mu_i \|x_i - y_j\|^2xiVjμixiyj2
  2. Wasserstein距离W22(X,Y)W_2^2(X, Y)W22(X,Y)

通过迭代更新:

  • Power Voronoi图:固定簇中心 yyy,更新划分 VVV
  • 簇中心:固定划分 VVV,更新 yj=∑x∈Vjμixi∑x∈Vjμiy_j = \frac{\sum_{x \in V_j} \mu_i x_i}{\sum_{x \in V_j} \mu_i}yj=xVjμixVjμixi

6. Wasserstein度量的几何解释

6.1 测地距离视角

在概率测度空间 (P2(M),W2)(\mathcal{P}_2(M), W_2)(P2(M),W2) 上:

  • W2W_2W2 是测地距离
  • 概率测度间的最短路径由McCann插值给出:
    μt=((1−t)I+tT)#μ0,t∈[0,1]\mu_t = ((1-t)I + tT)_{\#}\mu_0, \quad t \in [0,1]μt=((1t)I+tT)#μ0,t[0,1]
    其中 TTT 是从 μ0\mu_0μ0μ1\mu_1μ1 的最优传输映射

6.2 Barycenter(重心)

多个分布 μ1,…,μn\mu_1, \dots, \mu_nμ1,,μn 的Wasserstein重心定义为:
μˉ=arg⁡min⁡μ∈P2(M)∑i=1nλiW22(μ,μi)\bar{\mu} = \arg\min_{\mu \in \mathcal{P}_2(M)} \sum_{i=1}^n \lambda_i W_2^2(\mu, \mu_i)μˉ=argμP2(M)mini=1nλiW22(μ,μi)

n=1n=1n=1 时,这就是Wasserstein均值问题,与k-means聚类等价。

7. 不同p值的Wasserstein距离

7.1 1-Wasserstein距离 (EMD)

W1(μ,ν)=inf⁡π∈Π(μ,ν)∫M×Md(x,y)dπ(x,y)W_1(\mu, \nu) = \inf_{\pi \in \Pi(\mu, \nu)} \int_{M \times M} d(x, y) d\pi(x, y)W1(μ,ν)=πΠ(μ,ν)infM×Md(x,y)dπ(x,y)

  • 优点:计算相对简单,有双对偶形式
  • 应用:图像和形状比较

7.2 2-Wasserstein距离

W2(μ,ν)=(inf⁡π∈Π(μ,ν)∫M×Md(x,y)2dπ(x,y))1/2W_2(\mu, \nu) = \left( \inf_{\pi \in \Pi(\mu, \nu)} \int_{M \times M} d(x, y)^2 d\pi(x, y) \right)^{1/2}W2(μ,ν)=(πΠ(μ,ν)infM×Md(x,y)2dπ(x,y))1/2

  • 优点
    • 具有良好的几何性质
    • 与欧氏距离有紧密联系
    • 可通过变分方法高效计算
  • 应用:图像处理、几何处理、聚类

8. Wasserstein度量的优势与局限

8.1 优势

  1. 对分布敏感:考虑分布的整体形状,而非仅统计矩
  2. 几何意义明确:具有清晰的物理和几何解释
  3. 连续性:当分布连续变化时,Wasserstein距离也连续变化
  4. 适用于不同支撑集:即使两个分布的支撑集不相交,也能定义有意义的距离

8.2 局限

  1. 计算复杂度高:尤其对于高维数据
  2. 维度灾难:在高维空间中收敛速度较慢
  3. 对离群点敏感:极端值可能显著影响距离值

9. 总结

Wasserstein度量基于最优传输理论,为概率分布间提供了一种具有几何意义的距离度量。其核心数学原理包括:

  1. 最优传输问题:Monge问题和Kantorovich松弛
  2. Brenier定理:将最优传输映射表示为凸函数的梯度
  3. 变分原理:通过能量最小化求解最优传输
  4. Power Voronoi图:作为传输计划的几何表示
  5. 与k-means聚类的联系:Wasserstein均值问题等价于加权k-means聚类

Wasserstein度量不仅在理论上具有优雅的数学结构,在实际应用中也展现出强大能力,如论文中所示的域适应、网格变形和表示学习等任务。特别是2-Wasserstein距离,因其良好的几何性质和与聚类问题的自然联系,在机器学习和计算机视觉领域得到广泛应用。


如何更新划分 V:变分Wasserstein聚类中的关键步骤

在变分Wasserstein聚类(Variational Wasserstein Clustering, VWC)中,更新划分 VVV 是算法的核心环节。下面我将详细解释这一过程的数学原理和实现细节。

1. 划分 VVV 的数学定义

划分 VVV 是由power Voronoi diagram定义的,其数学表达为:

Vj={m∈M∣∥m−yj∥2−rj2≤∥m−yi∥2−ri2},∀j≠iV_j = \{m \in M \mid \|m - y_j\|^2 - r_j^2 \leq \|m - y_i\|^2 - r_i^2\}, \quad \forall j \neq iVj={mMmyj2rj2myi2ri2},j=i

通过简单代数变换,可得等价形式:

mTyj−12(yjTyj+rj2)≤mTyi−12(yiTyi+ri2)m^T y_j - \frac{1}{2}(y_j^T y_j + r_j^2) \leq m^T y_i - \frac{1}{2}(y_i^T y_i + r_i^2)mTyj21(yjTyj+rj2)mTyi21(yiTyi+ri2)

其中 rj2r_j^2rj2 与单元总质量相关,且 hj=−12(∥yj∥2+rj2)h_j = -\frac{1}{2}(\|y_j\|^2 + r_j^2)hj=21(yj2+rj2)

2. 更新划分 VVV 的算法流程

更新划分 VVV 的完整过程由Algorithm 1 (Variational-OT)实现,核心步骤如下:

(a) 初始化

  • 设置初始参数 h(0)=0h^{(0)} = 0h(0)=0

(b) 迭代更新 hhh

重复以下步骤直到收敛(∥∇E(h)∥<ϵ\|\nabla E(h)\| < \epsilon∥∇E(h)<ϵ):

  1. 更新power diagram VVV

    • 使用当前的 (y,h)(y, h)(y,h) 计算power Voronoi图
    • 每个单元 Vj(h)V_j(h)Vj(h) 由不等式 mTyj+hj≥mTyi+him^T y_j + h_j \geq m^T y_i + h_imTyj+hjmTyi+hi 定义
  2. 计算单元权重
    wj(h)=∑m∈Vjμ(m)w_j(h) = \sum_{m \in V_j} \mu(m)wj(h)=mVjμ(m)

    • wj(h)w_j(h)wj(h) 表示第 jjj 个Voronoi单元的总质量
  3. 计算梯度和Hessian

    • 梯度:∇E(h)=(w1(h)−ν1,…,wk(h)−νk)T\nabla E(h) = (w_1(h) - \nu_1, \dots, w_k(h) - \nu_k)^TE(h)=(w1(h)ν1,,wk(h)νk)T
    • Hessian矩阵:
      H=∂2E(h)∂hi∂hj={∑l∫filμ(x)dx∥yl−yi∥,i=j,∀l,s.t. fil≠∅−∫fijμ(x)dx∥yj−yi∥,i≠j,fij≠∅0,i≠j,fij=∅H = \frac{\partial^2 E(h)}{\partial h_i \partial h_j} = \begin{cases} \sum_l \frac{\int_{f_{il}} \mu(x)dx}{\|y_l - y_i\|}, & i = j, \forall l, \text{s.t. } f_{il} \neq \emptyset \\ -\frac{\int_{f_{ij}} \mu(x)dx}{\|y_j - y_i\|}, & i \neq j, f_{ij} \neq \emptyset \\ 0, & i \neq j, f_{ij} = \emptyset \end{cases}H=hihj2E(h)=lylyifilμ(x)dx,yjyifijμ(x)dx,0,i=j,l,s.t. fil=i=j,fij=i=j,fij=
      其中 fijf_{ij}fij 是相邻单元 ViV_iViVjV_jVj 的交集
  4. 牛顿法更新 hhh
    h(t+1)←h(t)−λH−1∇E(h)h^{(t+1)} \leftarrow h^{(t)} - \lambda H^{-1} \nabla E(h)h(t+1)h(t)λH1E(h)

    • λ\lambdaλ 是步长参数(通常设为1)
    • H−1H^{-1}H1 是Hessian矩阵的逆

© 返回结果

  • 最终的划分 VVV 和参数 hhh

3. 数学原理详解

(a) 能量函数 E(h)E(h)E(h)

更新划分 VVV 的核心是优化能量函数:
E(h)=∫Ωθh(x)μ(x)dx−∑j=1kνjhjE(h) = \int_{\Omega} \theta_h(x)\mu(x)dx - \sum_{j=1}^k \nu_j h_jE(h)=Ωθh(x)μ(x)dxj=1kνjhj
其中 θh(x)=max⁡{⟨x,yj⟩+hj}\theta_h(x) = \max\{\langle x, y_j \rangle + h_j\}θh(x)=max{⟨x,yj+hj} 是分段线性凸函数。

物理意义

  • ∫Ωθh(x)μ(x)dx\int_{\Omega} \theta_h(x)\mu(x)dxΩθh(x)μ(x)dx:表示传输成本
  • ∑j=1kνjhj\sum_{j=1}^k \nu_j h_jj=1kνjhj:表示约束项
  • 最小化 E(h)E(h)E(h) 等价于找到最优传输映射

(b) 梯度的几何解释

∇E(h)=(w1(h)−ν1,…,wk(h)−νk)T\nabla E(h) = (w_1(h) - \nu_1, \dots, w_k(h) - \nu_k)^TE(h)=(w1(h)ν1,,wk(h)νk)T

  • wj(h)>νjw_j(h) > \nu_jwj(h)>νj:第 jjj 个单元质量过大,需要缩小
  • wj(h)<νjw_j(h) < \nu_jwj(h)<νj:第 jjj 个单元质量过小,需要扩大

通过调整 hjh_jhj,可以控制单元 VjV_jVj 的大小:

  • 增加 hjh_jhj:扩大 VjV_jVj
  • 减少 hjh_jhj:缩小 VjV_jVj

© Hessian的几何解释

Hessian矩阵 HHH 描述了单元边界的变化率:

  • 对角线元素∑l∫filμ(x)dx∥yl−yi∥\sum_l \frac{\int_{f_{il}} \mu(x)dx}{\|y_l - y_i\|}lylyifilμ(x)dx

    • 表示单元 ViV_iVi 的"刚度",值越大越难变形
    • 与相邻边界的长度和质量成正比
  • 非对角线元素−∫fijμ(x)dx∥yj−yi∥-\frac{\int_{f_{ij}} \mu(x)dx}{\|y_j - y_i\|}yjyifijμ(x)dx

    • 表示单元 ViV_iViVjV_jVj 之间的"耦合强度"
    • 值越大表示边界越容易移动

4. 实现细节

(a) Voronoi图计算

  • 使用Voro++库计算power Voronoi图
  • 对于每个样本点 xix_ixi,确定其所属的Voronoi单元 VjV_jVj
    j=arg⁡max⁡k{xiTyk+hk}j = \arg\max_k \{x_i^T y_k + h_k\}j=argkmax{xiTyk+hk}

(b) 边界积分计算

  • 计算相邻单元交集 fijf_{ij}fij 的质量:
    ∫fijμ(x)dx=∑x∈fijμ(x)\int_{f_{ij}} \mu(x)dx = \sum_{x \in f_{ij}} \mu(x)fijμ(x)dx=xfijμ(x)
  • 在离散情况下,fijf_{ij}fij 由共享边界的样本点组成

© 收敛条件

  • ∥∇E(h)∥<ϵ\|\nabla E(h)\| < \epsilon∥∇E(h)<ϵ 时停止迭代
  • 通常 ϵ=10−6\epsilon = 10^{-6}ϵ=106

5. 与聚类过程的整合

在完整的VWC算法中,更新划分 VVV 是迭代测度保持映射的一部分:

  1. 更新划分 VVV

    • 通过Variational-OT算法,固定簇中心 yyy,更新划分 VVV
    • 目标:使每个单元的总质量 wj(h)w_j(h)wj(h) 等于目标测度 νj\nu_jνj
  2. 更新簇中心 yyy

    • 固定划分 VVV,更新簇中心:
      yj(t+1)=∑x∈Vjμixi∑x∈Vjμiy_j^{(t+1)} = \frac{\sum_{x \in V_j} \mu_i x_i}{\sum_{x \in V_j} \mu_i}yj(t+1)=xVjμixVjμixi
    • 这是基于测度 μi\mu_iμi 的加权平均

这两个步骤交替进行,直到收敛,确保:

  • 划分 VVV 满足测度保持条件
  • 簇中心 yyy 最小化聚类能量

6. 几何直观解释

考虑二维空间中的一个简单例子:

  • 有3个簇中心 y1,y2,y3y_1, y_2, y_3y1,y2,y3
  • 初始 h=(0,0,0)Th = (0, 0, 0)^Th=(0,0,0)T 产生标准Voronoi图
  • 如果单元 V1V_1V1 质量过大(w1>ν1w_1 > \nu_1w1>ν1
    • 减小 h1h_1h1,使 V1V_1V1 缩小
    • 边界向 y1y_1y1 移动
  • 如果单元 V2V_2V2 质量过小(w2<ν2w_2 < \nu_2w2<ν2
    • 增加 h2h_2h2,使 V2V_2V2 扩大
    • 边界远离 y2y_2y2

这个过程持续进行,直到所有单元的质量匹配目标测度 ν\nuν

7. 总结

更新划分 VVV 的核心是通过调整参数 hhh 优化power Voronoi图,使其满足测度保持条件。这一过程:

  1. 基于变分原理:最小化能量函数 E(h)E(h)E(h)
  2. 使用牛顿法:高效求解凸优化问题
  3. 保持几何结构:通过power diagram维持凸分割
  4. 确保测度守恒:使每个单元的总质量等于目标测度

这种方法的优势在于:

  • 避免了在乘积空间中搜索(相比Kantorovich方法)
  • 保证了局部微分同胚性质
  • 同时优化Wasserstein距离和聚类质量

在实际应用中,这一过程高效稳定,为域适应、网格变形和表示学习等任务提供了强大的理论和算法支持。


如何理解 Wasserstein 重心(Barycenter)

1. Wasserstein 重心的定义

多个概率测度 μ1,…,μn\mu_1, \dots, \mu_nμ1,,μn 的 Wasserstein 重心(Barycenter)定义为:
μˉ=arg⁡min⁡μ∈P2(M)∑i=1nλiW22(μ,μi), \bar{\mu} = \arg\min_{\mu \in \mathcal{P}_2(M)} \sum_{i=1}^n \lambda_i W_2^2(\mu, \mu_i), μˉ=argμP2(M)mini=1nλiW22(μ,μi),
其中:

  • W2(⋅,⋅)W_2(\cdot, \cdot)W2(,) 是 2-Wasserstein 距离
  • λi≥0\lambda_i \geq 0λi0 是权重,满足 ∑i=1nλi=1\sum_{i=1}^n \lambda_i = 1i=1nλi=1
  • P2(M)\mathcal{P}_2(M)P2(M) 是所有具有有限二阶矩的概率测度集合

物理意义:Wasserstein 重心是使总加权传输成本最小化的“平均”分布,类似于几何中的质心概念,但扩展到概率测度空间。


2. 当 n=1n=1n=1 时的特殊情形

n=1n=1n=1 时,目标函数退化为:
μˉ=arg⁡min⁡μ∈P2(M)λ1W22(μ,μ1). \bar{\mu} = \arg\min_{\mu \in \mathcal{P}_2(M)} \lambda_1 W_2^2(\mu, \mu_1). μˉ=argμP2(M)minλ1W22(μ,μ1).
由于 λ1=1\lambda_1 = 1λ1=1(归一化条件),此问题等价于:
μˉ=arg⁡min⁡μ∈P2(M)W22(μ,μ1). \bar{\mu} = \arg\min_{\mu \in \mathcal{P}_2(M)} W_2^2(\mu, \mu_1). μˉ=argμP2(M)minW22(μ,μ1).

关键结论

此时,Wasserstein 重心问题等价于Wasserstein 均值问题,其解是 μ1\mu_1μ1 本身(因为最小距离在 μ=μ1\mu = \mu_1μ=μ1 时取得)。然而,这一结论需要结合具体应用场景理解:

  • 离散测度情况:若 μ1\mu_1μ1 是经验分布(如 k-means 中的样本分布),则 Wasserstein 均值问题转化为寻找一个离散测度 μˉ\bar{\mu}μˉ(通常为单点 Dirac 测度),使其到 μ1\mu_1μ1 的 Wasserstein 距离最小。
  • k-means 聚类的联系:在 k-means 中,簇中心是样本的几何均值,而 Wasserstein 均值问题在离散情况下也寻求类似的结果。因此,当 n=1n=1n=1 时,两者在数学形式上等价。

3. 与 k-means 聚类的等价性

3.1 k-means 目标函数

k-means 的目标是将样本划分为 kkk 个簇,并最小化总平方误差:
min⁡C1,…,Ck∑j=1k∑x∈Cj∥x−mj∥2, \min_{C_1, \dots, C_k} \sum_{j=1}^k \sum_{x \in C_j} \|x - m_j\|^2, C1,,Ckminj=1kxCjxmj2,
其中 mjm_jmj 是第 jjj 个簇的均值。

3.2 Wasserstein 均值问题

n=1n=1n=1μ1\mu_1μ1 是经验分布(如样本分布)时,Wasserstein 均值问题可表示为:
μˉ=arg⁡min⁡μ∈P2(M)W22(μ,μ1). \bar{\mu} = \arg\min_{\mu \in \mathcal{P}_2(M)} W_2^2(\mu, \mu_1). μˉ=argμP2(M)minW22(μ,μ1).
μ\muμ 是单点 Dirac 测度 δm\delta_{m}δm,则:
W22(δm,μ1)=∫M∥x−m∥2dμ1(x), W_2^2(\delta_m, \mu_1) = \int_M \|x - m\|^2 d\mu_1(x), W22(δm,μ1)=Mxm2dμ1(x),
这正是 k-means 中簇中心 mmm 的目标函数!

因此,n=1n=1n=1 时,Wasserstein 均值问题等价于 k-means 聚类的单簇情况


4. 数学推导

4.1 Wasserstein 距离的表达式

对于离散测度 μ1=1N∑i=1Nδxi\mu_1 = \frac{1}{N} \sum_{i=1}^N \delta_{x_i}μ1=N1i=1Nδxi 和单点测度 μ=δm\mu = \delta_mμ=δm,有:
W22(μ,μ1)=1N∑i=1N∥xi−m∥2. W_2^2(\mu, \mu_1) = \frac{1}{N} \sum_{i=1}^N \|x_i - m\|^2. W22(μ,μ1)=N1i=1Nxim2.
这与 k-means 的目标函数完全一致。

4.2 最优解

k-means 的最优解是样本均值:
m∗=1N∑i=1Nxi. m^* = \frac{1}{N} \sum_{i=1}^N x_i. m=N1i=1Nxi.
同样,Wasserstein 均值问题的最优解也是这个均值,因为:
∂∂m(1N∑i=1N∥xi−m∥2)=−2N∑i=1N(m−xi)=0⇒m∗=1N∑i=1Nxi. \frac{\partial}{\partial m} \left( \frac{1}{N} \sum_{i=1}^N \|x_i - m\|^2 \right) = -\frac{2}{N} \sum_{i=1}^N (m - x_i) = 0 \quad \Rightarrow \quad m^* = \frac{1}{N} \sum_{i=1}^N x_i. m(N1i=1Nxim2)=N2i=1N(mxi)=0m=N1i=1Nxi.


5. 应用场景与意义

5.1 离散数据聚类

在 k-means 中,样本被分配到最近的簇中心,而 Wasserstein 均值问题通过最优传输理论给出了这一过程的理论依据。

5.2 概率分布的平均

Wasserstein 重心不仅适用于离散数据,还可处理连续分布。例如,在图像生成任务中,Wasserstein GAN(W-GAN)利用 Wasserstein 距离优化生成器,其目标之一是逼近真实数据分布的重心。

5.3 变分 Wasserstein 聚类

在论文《Variational Wasserstein Clustering》中,作者通过 power diagram 和变分原理求解 Wasserstein 重心,实现了同时优化聚类质量和测度保持映射。当 n=1n=1n=1 时,这一方法退化为标准 k-means 聚类。


6. 总结

  • Wasserstein 重心是概率测度空间中的“平均”概念,通过最小化总传输成本定义。
  • n=1n=1n=1,Wasserstein 均值问题等价于 k-means 聚类的单簇情况,两者在数学形式和目标上完全一致。
  • 这一等价性为将最优传输理论应用于聚类问题提供了理论基础,特别是在处理概率分布数据时(如图像、文本等)。
http://www.lryc.cn/news/620224.html

相关文章:

  • AI工程化闭环法(AIEC – AI Engineering Cycle) 适合TRAE CURSOR CLAUDE等工具
  • Transformer 之自注意力机制(一)
  • TF-IDF------词向量转化:从“文字”到“向量”
  • 可视化调试LangChain SQLChatMessageHistory:SQLite数据库查看全攻略
  • Java多线程进阶-从乐观锁到读写锁
  • 西门子TIA-SCL转STL指令项目案例及技巧
  • 【Python】Python 函数基本介绍(详细版)​
  • ARM 实操 流水灯 按键控制 day53
  • ACL 可以限制哪些流量?入方向和出方向怎么判断?
  • vue路由_router
  • rk3588 ubuntu20.04安装包经常出现的问题总结(chatgpt回复)
  • C++ 优选算法 力扣 209.长度最小的子数组 滑动窗口 (同向双指针)优化 每日一题 详细题解
  • VUE基础笔记
  • 计算机网络---IPv6
  • 向长波红外成像图注入非均匀噪声
  • ROS2实用工具
  • 小电视视频内容获取GUI工具
  • Ansible 实操笔记:Playbook 与变量管理
  • 传输层协议 TCP(1)
  • C语言队列的实现
  • 浪浪山小妖怪电影
  • HarmonyOS 开发实战:搞定应用名字与图标更换,全流程可运行示例
  • 《卷积神经网络(CNN):解锁视觉与多模态任务的深度学习核心》
  • 从 VLA 到 VLM:低延迟RTSP|RTMP视频链路在多模态AI中的核心角色与工程实现
  • AI驱动的前端革命:10项颠覆性技术如何在LibreChat中融为一体
  • Java19 Integer 位操作精解:compress与expand《Hacker‘s Delight》(第二版,7.4节)
  • Docker部署RAGFlow:开启Kibana查询ES数据指南
  • 学习嵌入式的第十九天——Linux——文件编程
  • 如何生成.patch?
  • 开发Excel Add-in的心得笔记