当前位置: 首页 > news >正文

Python快速检验数据分布

假设检验的前提是确定数据的分布,本文介绍Python检验数据样本是否服从一定分布。使用方法是柯尔莫可洛夫-斯米洛夫检验(Kolmogorov–Smirnov test,K-S test),K-S检验方法适用于探索连续型随机变量的分布,对于离散分布(二项分布和泊松分布)需要使用其他方法进行检验。

KS检验语法

K-S检验方法能够利用样本数据推断样本来自的总体是否服从某一理论分布,是一种拟合优度的检验方法,这里使用scipy.stats.kstest() 实现单样本检测, scipy.stats.ks_2samp() 实现双样本检测。下面通过两个示例进行说明。

单样本检测

首先生成测试样本数据:

from numpy.random import seed
from numpy.random import poisson#set seed (e.g. make this example reproducible)
seed(0)# generate dataset of 100 values that follow a Poisson distribution with mean=5
data = poisson(5, 100)

下面代码显示如何执行KS检验,检验data数据集是否符合正太分布。

from scipy.stats import kstest# perform Kolmogorov-Smirnov test
kstest(data, 'norm')# 输出结果
# KstestResult(statistic=0.9072498680518208, pvalue=1.0908062873170218e-103)

从输出可以看到,检验统计量为0.9072,对应的p值为1.0908e-103,既然P值小于0.05,我们拒绝原假设,有足够证据说明样本不服从正太分布。因为我们使用poisson() 函数生成数据,样本数据应该服从泊松分布。

除了正太分布,还可以检测分布,如指数分布、伽马分布、韦伯分布、T分布、F分布等。

双样本KS检验

首先我们生成两个不同分布的样本数据:

from numpy.random import seed
from numpy.random import randn
from numpy.random import lognormal#set seed (e.g. make this example reproducible)
seed(0)#generate two datasets
data1 = randn(100)
data2 = lognormal(3, 1, 100)

下面代码执行KS检验,判断两个样本是否来自同一分布:

from scipy.stats import ks_2samp#perform Kolmogorov-Smirnov test
ks_2samp(data1, data2)# 输出结果
# KstestResult(statistic=0.99, pvalue=4.417521386399011e-57)

由输出可知,检验统计量为0.99,对应的p值为4.4175e-57。由于p值小于0.05,我们拒绝原假设。我们有足够的证据表明,这两个样本数据集不是来自同一个分布。

这个结果也不应该令人惊讶,因为我们使用标准正态分布为第一个样本生成值,使用对数正态分布为第二个样本生成值。

总结

本文介绍了如何利用python进行数据分布检验。参考内容:How to Perform a Kolmogorov-Smirnov Test in Python - Statology,官网文档:scipy.stats.kstest — SciPy v1.11.2 Manual,通过官方文档可以进一步学习其他参数的,实现更多数据检验能力。

http://www.lryc.cn/news/137568.html

相关文章:

  • uniapp微信小程序点击右上角菜单分享功能权限配置
  • 【OpenVINOSharp】在英特尔® 开发者套件爱克斯开发板使用OpenVinoSharp部署Yolov8模型
  • Django的模型层
  • idea 新建servlet 访问提示404 WebServlet注解找不到包 报错
  • 【EA-ISET协会】Elsevier|2区智慧农业类SCIEI, 进展顺,3个月左右录用~
  • Class类getName获取类名方法详细说明
  • 凉而不冷 柔而不弱 三菱重工海尔舒适风科技助您整夜安眠
  • YOLOv5基础知识入门(7)— NMS(非极大值抑制)原理解析
  • Gpt微信小程序搭建的前后端流程 - 后端基础框架的搭建(三)
  • jstat(JVM Statistics Monitoring Tool):虚拟机统计信息监视工具
  • 【ARM】Day6 cotex-A7核UART总线实验
  • HTTPS代理搭建技巧分享
  • 第四章:树形结构的关联式容器(map+set)
  • SpringBoot +Vue3 简单的前后端交互
  • 【Android】Mobile-Security-Framework-MobSF Manifest 静态扫描规则
  • 【C++】初谈迭代器
  • PL端案例开发手册
  • 华为OD-整数对最小和
  • Ubuntu 22LTS 配置静态IP
  • 【Python】Python爬虫:网络数据的提取利器
  • 20.图的遍历
  • ARM DIY(一)电源、SD卡座、SOC 调试
  • 数学建模知识之小白入门篇
  • 【日常积累】Linux下ftp服务安装
  • 确定了,TikTok将于9月12日正式关闭美国半闭环
  • ATFX汇评:英国7月零售销售年率大降,GBPUSD仍未升破1.3000
  • CTFhub-sqli注入-Referer注入
  • 【案例】登录注册
  • Unity 物体的运动之跟随鼠标
  • C++基础Ⅱ变量