当前位置: 首页 > news >正文

机器学习中的熵(Entropy)是什么?

在机器学习和信息理论中,熵(Entropy)是衡量不确定性和信息量的一个重要概念。熵最初由信息论的奠基人克劳德·香农(Claude Shannon)在1948年提出,用来衡量信息源的信息不确定性。在机器学习中,熵被用于许多场景,例如分类任务中的决策树构建,用来衡量一个属性对分类的贡献。下面详细介绍熵的定义和推导过程。

1. 熵的定义

熵衡量的是一个随机变量的不确定性。对于一个离散的概率分布 ( P ) ,其熵(Entropy)定义为:

H ( X ) = − ∑ i = 1 n P ( x i ) log ⁡ P ( x i ) H(X) = - \sum_{i=1}^{n} P(x_i) \log P(x_i) H(X)=i=1nP(xi)logP(xi)
其中:

  • ( H(X) ) 表示随机变量 ( X ) 的熵;
  • ( x_i ) 表示随机变量 ( X ) 可能取的第 ( i ) 个值;
  • ( P(x_i) ) 是 ( X ) 取值 ( x_i ) 的概率;
  • 对数 ( \log ) 通常以 2 为底(对应单位为“比特”),但也可以使用自然对数(对应单位为“纳特”)。

熵反映的是从信息源中获得的信息的平均量。假如某个事件的概率越低(即它越不确定),一旦发生,就提供了更多的信息,因此熵越大。

2. 熵的推导

熵的推导可以从几个基本信息论概念入手:

a. 自信息量(Self-Information)

自信息量是衡量某个特定事件发生时,它为我们带来的信息量。对于某个事件 ( x_i ) 发生,它的自信息量定义为:

I ( x i ) = − log ⁡ P ( x i ) I(x_i) = -\log P(x_i) I(xi)=logP(xi)

  • 当事件发生的概率 P ( x i ) P(x_i) P(xi) 越小,它的不确定性越高,因此提供的“信息量”越大。
  • P ( x i ) P(x_i) P(xi) 为 1 时,自信息量为 0,因为这种事件是确定的,不带来额外信息。
  • 加上log,可以把非线性的概率转换为线性空间。
b. 熵是期望自信息量

熵的定义可以被理解为所有可能事件自信息量的期望值。对于一个离散随机变量 ( X ),它的熵表示为每个可能事件自信息量的期望:

H ( X ) = E [ I ( X ) ] = ∑ i = 1 n P ( x i ) I ( x i ) = − ∑ i = 1 n P ( x i ) log ⁡ P ( x i ) H(X) = \mathbb{E}[I(X)] = \sum_{i=1}^{n} P(x_i) I(x_i) = - \sum_{i=1}^{n} P(x_i) \log P(x_i) H(X)=E[I(X)]=i=1nP(xi)I(xi)=i=1nP(xi)logP(xi)

因此,熵是每个可能事件的概率与其自信息量乘积的加权和,反映了整个系统的平均不确定性。

3. 熵的性质

熵有以下一些重要性质:

  • 非负性:熵总是大于等于 0。对于确定事件(即 ( P(x_i) = 1 )),熵为 0;对于不确定性较大的分布,熵更高。

  • 均匀分布的熵最大:对于均匀分布,熵最大。例如,对于一个有 ( n ) 种可能事件且每个事件的概率都相等的系统,熵为:

    H ( X ) = log ⁡ n H(X) = \log n H(X)=logn

    这是因为均匀分布下不确定性最大,每个事件发生的概率一样,不提供更多信息。

  • 熵和概率的关系:熵的值取决于概率分布。若一个系统中所有事件的概率都接近 1,熵较小;若系统的事件概率分布接近均匀,熵较大。

4. 熵在机器学习中的应用

总结

熵作为信息论中的核心概念,衡量了系统的不确定性。通过从自信息量推导出的熵公式,我们能够量化一个系统中信息的平均量。在机器学习中,熵广泛用于决策树构造和其他分类任务中,以帮助衡量数据集的纯度或不确定性。

http://www.lryc.cn/news/457232.html

相关文章:

  • JAVA基础:Lock不同的锁形式
  • 【LeetCode每日一题】——679.24 点游戏
  • 【Conda】Conda命令详解:高效更新与环境管理指南
  • 机器学习:回归模型和分类模型的评估方法介绍
  • 担心学术窃取?阿里云加密的AI论文工具帮你锁紧数据!
  • leetcode经典算法题总结
  • 运维工具之ansible
  • 基于 CSS Grid 的简易拖拉拽 Vue3 组件,从代码到NPM发布(1)- 拖拉拽交互
  • 【华为HCIP实战课程六】OSPF邻居关系排错网络子网掩码问题,网络工程师
  • 基础教程 | 用VuePress搭建一个简单的个人博客(附源码)
  • Ubuntu20.04,编译安装BCC
  • # 显卡算力参数对比
  • 掌握RocketMQ4.X消息中间件(一)-RocketMQ基本概念与系统架构
  • 实际开发中,java开发的准备工作
  • SQL进阶技巧:Order by 中 NULLS LAST特性使用?
  • Redis:cpp.redis++类型操作
  • 感冒用药记录
  • JMeter性能测试时,如何做CSV参数化
  • 爬虫获取不同数据类型(如JSON,HTML)的处理方法以及图片相对URL地址的转换
  • Elasticsearch 实战应用
  • 前端数据加载慢的解决方法
  • 探索MultiApp:一款强大的多应用管理工具
  • qt QGraphicsItem详解
  • LVS搭建负载均衡
  • Unity MVC框架演示 1-1 理论分析
  • 基于springboot+vue人脸识别的考勤管理系统(源码+定制+开发)
  • 【api连接ChatGPT的最简单方式】
  • 技术成神之路:设计模式(二十)装饰模式
  • 利用特征点采样一致性改进icp算法点云配准方法
  • LabVIEW惯性导航系统仿真平台