当前位置：首页 > news >正文

熵、交叉熵、KL散度

news 2025/8/29 8:17:10

这里写目录标题

熵
KL散度
引入交叉熵。
- 交叉熵的二分类公式：
再次理解SoftMax函数
结束

熵

熵，是一个物理上的概念，表示一个系统的不确定性程度，或者表示一个系统的混乱程序。
下边是信息熵的演示：
信息熵的公式如下：
$H(x)=-\sum_{i=1)}^{n}p(x_i)logp(x_i)$
其中 $P (x) 表示随机变量 x 的概率函数$ 看数值可知道班花A的头脑更加混乱，那么多个帅哥，不知选择哪一个，不像班花B只需要选择第一个大帅哥即可。

KL散度

KL散度就是相对熵，相对熵就是KL散度
KL散度 = 相对熵，相对熵 = KL散度。
KL 散度：是两个概率分布间差异的非对称性度量。
怎么理解这句话呢？
KL散度其实是用来衡量同一个随机变量的两个不同分布之间的距离。
KL散度的公式如下：
$D_{KL}(p||q) =\sum_{i=1}^{n}p(x_i)log(\frac{p(x_i)}{q(x_i)})$
在这补充一下 条件概率：
条件概率公式如下：
$P(B|A)=\frac{P(AB)}{P(A)}$
理解：就是说，在A发生的条件下呢，AB也同时发生。
上述公式也可写成：
$P(B|A)=\frac{P(A,B)}{P(A)}$

KL散度的特性：
特点1：非对称性。
即D_KL(p||q) 不等于D_KL(q||p)
只有当p 和q的概率分布完全一样时才会相等。
特点2：非负性。
DKL的值永远大于0
只有当p 和q的概率分布完全一样时才会等于0.
看看b站老表老师的例子，笑着理解。哈哈哈
在这里插入图片描述
KL散度公式的变形：

引入交叉熵。

交叉熵公式如下：
$-\sum_{i=1}^{n} p(x_i)logq(x_i)$ 经过简单变形：
=> $\sum_{i=1}^{n} p(x_i)log(\frac{1}{q(x_i)})$
其中 $p(x_i)是真实分布的概率，q(x_i)是预测的概率$
同样看下b站老师的例子，笑着理解吧！

在这里插入图片描述

观测交叉熵的数值可知：
1、预测越准确，交叉熵越小。
2、交叉熵只跟真是标签的预测概率值有关。
所以你就能推断出交叉熵的最简公式：
$Cross_Entropy(p,q)=-logq(c_i)$

交叉熵的二分类公式：

$H(P,Q)=-\sum_{i=1}^{n}p(x_i)log(q(x_i))$
$p(x_1)logq(x_1)+p(x_2)logq(x_2)$
$= - pl o g q + (1 - p) l o g (1 - q)$
$= - (pl o g q - (1 - p) l o g (1 - q))$
怎么推到第四步的呢？
$p(x_1)+p(x_2)=1，我们假设$ $p(x_1) = p，那么p(x_2) = 1-p$
同理：
$q(x_1)+q(x_2)=1，我们假设$ $q(x_1) = q，那么q(x_2) = 1-q$
继续看b站老师的例子，帮助理解。
在这里插入图片描述
继续观摩老师的PPT：