当前位置：首页 > news >正文

TFS-2022《A Novel Data-Driven Approach to Autonomous Fuzzy Clustering》

news 2025/8/3 11:38:30

核心思想

论文提出了一种新颖的数据驱动模糊聚类算法，称为 AFC（Autonomous Fuzzy Clustering，自适应模糊聚类）。其核心思想包括：

高斯型隶属度函数：AFC 使用高斯型隶属度函数来表示数据点与聚类中心的隶属关系，与传统模糊聚类（如模糊C-均值，FCM）不同，这种函数通过核宽度控制模糊程度。
自调整核宽度：核宽度基于数据的互距离和用户定义的粒度级别（granularity level, $G$ ）自适应调整，使得算法能够灵活适应数据的分布特性。
自动选择聚类中心：AFC 从数据空间中挑选高度代表性的样本作为初始聚类中心，无需用户预先指定聚类数量。
支持静态和流式数据：算法不仅适用于静态数据集，还扩展到逐块（chunk-by-chunk）处理数据流，适合在线学习场景。

AFC 的设计目标是实现一种无需过多人工干预、能够自适应数据特征的模糊聚类方法。

目标函数

论文中未直接给出 AFC 的目标函数公式，但根据其描述和与传统模糊聚类的相似性，可以推测其目标函数类似于模糊C-均值（FCM）的形式。FCM 的目标函数通常是最小化样本到聚类中心的加权距离之和，定义为：

$\sum_{i=1}^{C} \sum_{j=1}^{N} u_{ij}^m \|x_j - v_i\|^2$

其中：

$C$ ：聚类中心的数量；
$N$ ：数据点的总数；
$u_{ij}$ ：数据点 $x_j$ 对聚类中心 $v_i$ 的隶属度；
$m$ ：模糊指数（通常 $m > 1$ ），控制模糊程度；
$x_j - v_i\|^2$ ：数据点 $x_j$ 与聚类中心 $v_i$ 的欧氏距离平方。

然而，AFC 使用 高斯型隶属度函数，因此 $u_{ij}$ 的定义不同于 FCM 的幂函数形式，而是：

$u_{ij} = \exp\left(-\frac{\|x_j - v_i\|^2}{2\sigma_i^2}\right)$

其中：

$σi\sigma_i$ ：与聚类中心 $v_i$ 相关的核宽度，由数据互距离和粒度级别 $G$ 自适应推导。

因此，AFC 的目标函数可能为：

$\sum_{i=1}^{C} \sum_{j=1}^{N} \left[ \exp\left(-\frac{\|x_j - v_i\|^2}{2\sigma_i^2}\right) \right]^m \|x_j - v_i\|^2$

这个形式结合了高斯隶属度和距离加权，目标是通过优化 $v_i$ 和 $σi\sigma_i$ 最小化 $J$ 。

目标函数的优化过程

AFC 的优化过程通过迭代方法实现局部最优分区，类似于 FCM 的交替优化策略，但因隶属度函数不同，具体步骤有所调整：

初始化：
- 从数据中选择高度代表性的样本作为初始聚类中心 $v_i$ 。
- 根据数据互距离和粒度级别 $G$ 初始化核宽度 $σi\sigma_i$ 。
迭代优化：
- 更新隶属度：根据当前聚类中心 $v_i$ 和核宽度 $σi\sigma_i$ ，计算每个数据点 $x_j$ 的隶属度 $u_{ij}$ ：
  $u_{ij} = \exp\left(-\frac{\|x_j - v_i\|^2}{2\sigma_i^2}\right)$
- 更新聚类中心：基于隶属度重新计算聚类中心 $v_i$ 。在 FCM 中，更新公式为：
  $v_i = \frac{\sum_{j=1}^{N} u_{ij}^m x_j}{\sum_{j=1}^{N} u_{ij}^m}$
  但在 AFC 中，由于高斯隶属度函数的特性，更新公式可能需要调整，可能涉及加权平均或核密度估计的变体。
- 更新核宽度：根据数据的互距离和粒度级别 $G$ 自适应调整 $σi\sigma_i$ 。
收敛判断：
- 重复上述步骤，直到目标函数 $J$ 收敛或达到最大迭代次数。

这种迭代过程确保聚类中心和隶属度逐步逼近数据的真实分布。

主要的贡献点

AFC 的主要贡献包括：

新型算法：提出了一种数据驱动的模糊聚类算法，使用高斯型隶属度函数和自调整核宽度，提升了聚类的灵活性和适应性。
自动确定聚类中心：无需预先指定聚类数量，算法通过数据特性自动选择代表性样本作为初始中心。
支持多种数据类型：适用于静态数据集和流式数据，能够处理在线场景。
优越的性能：在多个基准数据集上表现出色，优于其他聚类算法。

这些贡献使得 AFC 在理论和应用上都具有创新性。

实验结果

论文在 六个合成数据集 和 八个真实世界数据集 上评估了 AFC 的性能：

性能指标：使用多种评价指标，如 ARI（Adjusted Rand Index）、NMI（Normalized Mutual Information） 等。
比较对象：AFC 与其他主流聚类算法（如 FCM 和在线聚类方法）进行了对比。
结果：
- 表格 II 显示了在合成数据集上的性能比较，AFC 在大多数指标上优于其他算法。
- 表格 III 和 IV 显示了在真实世界数据集上的结果，AFC 在静态和流式数据场景下均表现出更高的聚类质量。
- 对于流式数据，AFC 的性能随着块大小（chunk size）的减小而提升，但对数据模式变化的敏感性增加。

实验表明，AFC 在准确性和鲁棒性上具有显著优势。

算法的实现过程

AFC 的实现分为静态数据聚类和流式数据聚类两部分，分别通过伪代码 Algorithm 1 和 Algorithm 2 描述：

Algorithm 1：静态数据聚类

输入：
- 静态数据集；
- 粒度级别 $G$ 。
输出：
- 聚类中心矩阵 $P$ 。
步骤：
1. 初始化：从数据集中选择高度代表性的样本作为初始聚类中心。
2. 迭代优化：
  - 计算每个数据点的隶属度 $u_{ij}$ （使用高斯函数）。
  - 更新聚类中心 $v_i$ 和核宽度 $σi\sigma_i$ 。
  - 重复直到收敛。
3. 返回：输出最终的聚类中心矩阵 $P$ 。

Algorithm 2：流式数据聚类

输入：
- 数据块 ${p1},…,{pL}\{p_1\}, \ldots, \{p_L\}$ ；
- 粒度级别 $G$ 。
输出：
- 聚类中心矩阵 $P$ 。
步骤：
1. 逐块处理：
  - 对每个数据块 ${p_l\}$ ，调用 Algorithm 1 得到局部聚类中心 ${p_l\}$ 。
2. 更新聚类中心：
  - 如果是第一个数据块，直接赋值 ${pl}←{pl}\{p_l\} \leftarrow \{p_l\}$ 。
  - 否则：
    - 更新规则（如公式 (11)）调整已有中心。
    - 根据分裂规则（如公式 (12)）将 ${p_l\}$ 分成 ${p_l^1\}$ 和 ${p_l^2\}$ 。
    - 合并或扩展聚类中心（如公式 (14)）。
3. 循环：处理所有数据块。
4. 返回：输出最终的聚类中心矩阵 $P$ 。

计算复杂度

静态数据：复杂度为 $O(K^2 + HCK)$ ，其中 $K$ 是数据维度， $H$ 是迭代次数， $C$ 是聚类数。
流式数据：对于第 $L$ 个数据块，复杂度为 $O(K_L^2 + H_L C_L K_L + C_L^2 C_{L-1}^1 + N_L M_L)$ ，总体复杂度为 $O(∑l=1LKl2+CL2CL−11+CLKL+CLCL−11+NLML)O(\sum_{l=1}^L K_l^2 + C_L^2 C_{L-1}^1 + C_L K_L + C_L C_{L-1}^1 + N_L M_L)$ 。

总结

这篇论文于 2022年6月 发表在 IEEE Transactions on Fuzzy Systems 上，提出了一种创新的模糊聚类算法 AFC。它通过高斯型隶属度函数和自调整核宽度实现数据驱动的聚类，支持静态和流式数据。目标函数基于加权距离最小化，通过迭代优化实现局部最优。AFC 的主要贡献在于自动化和适应性，实验结果显示其在多种数据集上性能优越。算法实现清晰，分为静态和流式两种场景，具有较高的实用价值。

查看全文

http://www.lryc.cn/news/608276.html