当前位置: 首页 > news >正文

(五)机器学习 - 数据分布

数据分布(Data Distribution)是指数据在不同值或值区间内的分布情况,它描述了数据点在整个数据集中是如何分散或集中的。数据分布可以通过多种方式来分析和表示,包括图形和数值方法。

常见的数据分布特征和描述数据分布的方法:

  1. 对称性

    • 对称分布:数据在均值(平均值)或中位数周围对称分布,即数据的左半部分是右半部分的镜像。正态分布是对称分布的一个典型例子。
    • 偏斜分布:数据不是对称的,可能向右(正偏斜)或向左(负偏斜)延伸。正偏斜意味着数据的尾部在右侧,而负偏斜意味着数据的尾部在左侧。
  2. 集中趋势

    • 均值(Mean):所有数据点的平均值。
    • 中位数(Median):将数据点按大小排序后位于中间位置的值。
    • 众数(Mode):数据集中出现次数最多的值。
  3. 离散程度

    • 方差(Variance):衡量数据点偏离均值的程度,方差越大,数据越分散。
    • 标准差(Standard Deviation):方差的平方根,与原始数据具有相同的单位,用于衡量数据的离散程度。
    • 极差(Range):数据集中最大值和最小值之间的差。
  4. 形状

    • 数据分布的形状可以是多种多样的,包括正态分布、偏斜分布、双峰分布、均匀分布等。
  5. 图形表示

    • 直方图(Histogram):用条形图表示数据在不同区间的频率或数量。
    • 箱线图(Boxplot):显示数据的最小值、第一四分位数(Q1)、中位数、第三四分位数(Q3)和最大值,以及可能的异常值。
    • 散点图(Scatter Plot):显示两个变量之间的关系。
    • 密度图(Density Plot):平滑的曲线,显示数据的分布密度。
  6. 数值表示:

    • 百分位数(Percentiles):数据中低于某个值的百分比。
    • 四分位数(Quartiles):将数据分为四等份,每份包含25%的数据点。

 

例子:

1、Ptython 创建一个包含 250 个介于 0 到 5 之间的随机浮点数的数组: 

import numpyx = numpy.random.uniform(0.0, 5.0, 250)print(x)

 2、使用 Python 模块 Matplotlib 绘制直方图:

import numpy
import matplotlib.pyplot as pltx = numpy.random.uniform(0.0, 5.0, 250)plt.hist(x, 5)
plt.show()

直方图解释:

我们使用上例中的数组绘制 5 条柱状图。

第一栏代表数组中有多少 0 到 1 之间的值。

第二栏代表有多少 1 到 2 之间的数值。

得到的结果是:

52 values are between 0 and 1
48 values are between 1 and 2
49 values are between 2 and 3
51 values are between 3 and 4
50 values are between 4 and 5

 数组值是随机数,不会在您的计算机上显示完全相同的结果。

END. 

http://www.lryc.cn/news/504328.html

相关文章:

  • Flink State面试题和参考答案-(上)
  • 利用开源Stable Diffusion模型实现图像压缩比竞争方法用更低的比特率生成更逼真的图像
  • QT信号与槽机制详解
  • openGauss开源数据库实战二十二
  • BurpSuite解决暴力破解时需要验证码问题
  • WPF Combox使用 Text无法选择正确获取CHange后的Text
  • 【速览】设计模式(更新中)
  • 【stable diffusion部署】Stable Diffusion开源本地化的文生图图生图AI
  • 县城楼市踩踏式降价,或现2字头,率先回归月薪一平方的合理价格
  • 计算机组成原理(七):二进制编码
  • 【GitHub分享】you-get项目
  • 论文概览 |《Sustainable Cities and Society》2024.12 Vol.116
  • 解决node.js的req.body为空的问题
  • Mysql学习笔记之安装
  • 将PDF流使用 canvas 绘制然后转为图片展示在页面上(二)
  • 【深度学习】 零基础介绍卷积神经网络(CNN)
  • Coze概述
  • 康佳Android面试题及参考答案(多张原理图)
  • 2022 年 3 月青少年软编等考 C 语言四级真题解析
  • 关于24年408真题的疑问
  • 【容器】k8s学习笔记基础部分(三万字超详细)
  • dayjs(2kb)和momentjs(70kb)关系详述及项目中如何选择讲解
  • 【Python网络爬虫笔记】11- Xpath精准定位元素
  • 6.python列表
  • Android中bindService和startService启动服务有何区别
  • 超牛免费 机械臂模型、工业机器人模型下载网站集合
  • 引领未来的变革:15种前沿RAG技术及其应用探索
  • Scala泛型应用场景
  • AI监控赋能健身馆与游泳馆全方位守护,提升安全效率
  • Avalonia实战实例二:添加三种状态的Svg图片按钮