当前位置：首页 > news >正文

一致性公式证明

news 2025/6/26 20:57:43

首先，假设存在两个不同的聚类假设 $f^1$ 和 $f^2$ ，它们在两个视角上的聚类结果分别为 $y^1\in\{-1,+1\}^n$ 和 $y^2\in\{-1,+1\}^n$ 。

证明一致性不等式：

$P(f^1\ne f^2)\ge\max\{P_{\mathrm{err}}(f^1), P_{\mathrm{err}}(f^2)\}$

其中 $P_{\mathrm{err}}(f)$ 表示假设 $f$ 的误差概率，即：

$P_{\mathrm{err}}(f)=\mathbb{E}_{(x,y)\sim D}[f(x)\ne y]$

其中 $(x, y)$ 表示数据点和其标签， $D$ 表示数据的分布。假设我们从 $D$ 中采样 $m$ 个数据点 $(x_1,y_1),\ldots,(x_m,y_m)$ ，构成训练集 $S=\{(x_1,y_1),\ldots,(x_m,y_m)\}$ 。

使用训练集 $S$ 学习得到聚类假设 $f_S$ ，我们定义训练误差 $P_{\mathrm{err}}(f_S)$ 为：

$P_{\mathrm{err}}(f_S)=\frac{1}{m}\sum_{i=1}^m\mathbf{1}(f_S(x_i)\ne y_i)$

其中 $\mathbf{1}(A)$ 表示当命题 $A$ 为真时取值为 $1$ ，否则取值为 $0$ 。

然后定义一个指示器函数 $I (S)$ 来判断训练误差是否落在某个区间之内。具体来说，对于给定的常数 $\delta\ge 0$ 和 $\epsilon>0$ ，我们定义：

$I(S)=\begin{cases} 1&\text{if }P_{\mathrm{err}}(f_S)-P_{\mathrm{err}}(f)>\epsilon\\ 0&\text{otherwise} \end{cases}$

其中 $f$ 表示最优聚类假设，即：

$f=\mathrm{argmin}_{g\in\{-1,+1\}^n}P_{\mathrm{err}}(g)$

接下来，我们定义两个独立的随机变量序列 $X_1^1,X_2^1,\ldots,X_n^1$ 和 $X_1^2,X_2^2,\ldots,X_n^2$ ，它们分别表示假设 $f^1$ 和 $f^2$ 在两个视角上的聚类结果是否相同。

每个随机变量的取值为 $0$ 或 $1$ ，其中 $1$ 表示相同， $0$ 表示不相同。

然后，定义：

$X_i^j=\begin{cases} 1&\text{if }y_i^1=y_i^2\\ 0&\text{otherwise} \end{cases}$

利用Hoeffding不等式来估计随机变量 $X_i^j$ 的样本平均值与其期望之间的差异。根据Hoeffding不等式，对于任意 $\epsilon>0$ ，有：

$P\left(\left|\frac{1}{n}\sum_{i=1}^nX_i^j-\mathbb{E}[X_i^j]\right|>\epsilon\right)\le 2\exp(-2n\epsilon^2)$

注意到 $\mathbb{E}[X_i^j]=P(y_i^1=y_i^2)$ ，这个概率可以通过样本外估计得到。

事实上，假设从分布 $D$ 中采样 $m$ 个独立同分布的数据点 $(x_1,y_1),\ldots,(x_m,y_m)$ 构成验证集 $V=\{(x_1,y_1),\ldots,(x_m,y_m)\}$ ，则相同的概率可以估计为：

$\hat{P}(y_i^1=y_i^2)=\frac{1}{m}\sum_{i=1}^m\mathbf{1}(y_i^1=y_i^2)$

在估计 $\hat{P}(y_i^1=y_i^2)$ 时，通过将训练得到的聚类结果应用到验证集 $V$ 上来进行。

具体来说，对于每一个数据点 $(x_i,y_i)\in V$ ，我们选择 $f^1(x_i)$ 和 $f^2(x_i)$ 中相同的那一个作为其聚类结果，然后计算相同的数据点占比。

注意到由于是将训练得到的聚类结果应用到验证集上，因此估计出来的 $\hat{P}(y_i^1=y_i^2)$ 实际上是有偏的（即估计结果的期望不等于真实值），但是可以证明这个偏差是可以控制的。

不难发现，当 $n$ 充分大时，两个随机变量序列的样本平均值与其期望之间的差异会逐渐变小，即 $\left|\frac{1}{n}\sum_{i=1}^nX_i^j-\mathbb{E}[X_i^j]\right|$ 的概率收敛于 $0$ 。

同时，当训练误差与最优误差之差 $\Delta=P_{\mathrm{err}}(f_S)-P_{\mathrm{err}}(f)$ 大于 $\epsilon$ 时，指示器函数 $I (S)$ 的取值为 $1$ ，否则为 $0$ 。因此，我们可以将一致性不等式表示为：

$P(X-f^1\ne X-f^2)\ge\max\left\{\frac{1}{2}\exp(-2 n \epsilon^2)-\Delta, P_{\mathrm{err}}(f^1)-P_{\mathrm{err}}(f^2)-2\epsilon\right\}$

其中 $\Delta=P_{\mathrm{err}}(f_S)-P_{\mathrm{err}}(f)$ 表示训练误差与最优误差之差， $\epsilon$ 是控制误差幅度的常数。这个不等式就是我们想要证明的一致性不等式。

查看全文

http://www.lryc.cn/news/194170.html

allegro中shape的一些基本操作（一）——添加和修改shape

HBuilder创建uniapp默认项目导入uview（胎教）

C语言基础算法复习

PyQt界面里如何加载本地视频以及调用摄像头实时检测（小白入门必看）

Ubuntu：VS Code IDE安装ESP-IDF【保姆级】

软考高级系统架构设计师系列之：快速掌握软件工程核心知识点

Java基础面试-ArrayList和LinkedList的区别

如何从 Pod 内访问 Kubernetes 集群的 API

计网面试复习自用

【Android 性能优化：内存篇】——WebView 内存泄露治理

C++入门（一）

C#控制台程序读取输入按键非阻塞方式

小程序框架-＞框架，视图层，生命周期(逻辑层)

Spring framework Day14:配置类的Lite模式和Full模式

公司要做大数据可视化看板，除了EXCEL以外有没有好用的软件可以用

掌握深入挖掘数据本质的方法

MyBatisPlus的学习项目页面

基于EtherCAT的机器人多轴同步运动控制

彩虹易支付 9.27 最新版加订单查询 sy 更新版

python树状打印项目路径

mysql误删误操作恢复数据，比传统方式和binlog2sql更快速用的恢复方式-reverse_sql恢复数据（单表多表）

CORE: Cooperative Reconstruction for Multi-Agent Perception 论文阅读

MySQL连接方式: Unix套接字 TCP/IP

TSINGSEE青犀智慧城市数字基座解决方案，助力城市数字化转型

【JavaEE】初识网络

UGUI交互组件ScrollBar

DamiBus v0.51 发布

[OpenJDK：环境变量配置]：填充Profile并修改默认配置

连接mysql报错：Host ‘xxx.xx.x.x‘ is not allowed to connect to this MySQL server

Qt 布局(QSplitter 类QDockWidget 类) 总结

相关文章：