当前位置: 首页 > news >正文

统计学 类别比变量的判断

文章目录

类别比变量的判断

一个类别变量的拟合优度检验

只研究一个类别变量的时候,可以用 χ2\chi^2χ2 检验来判断各类别频数与某一期望频数是否一致。

  • 观察频数:观察到的各类别实际的频数
  • 期望频数:期望中各类别的频数
    注意:这里频数不是比例
    拟合优度检验:也称一致性检验,用于检验观察频数和期望频数是否一致,使用的统计量为 Pearson χ2\chi^2χ2

χ2=∑(fo−fe)2fe\chi^2=\sum\frac{(f_{o}-f_{e})^{2}}{f_{e}} χ2=fe(fofe)2

其中 χ2\chi^2χ2 服从自由度为 k−1k-1k1χ2\chi^2χ2 分布,kkk 为类别数目。
提出假设

  • H0H_{0}H0 :观察频数与期望频数无显著差异(无明显偏好)
  • H1H_{1}H1 :观察频数与期望频数有显著差异(有明显偏好)
    两类问题
  • 期望频数相等:每个类别的期望频数是相等的,比如我们要检验消费者对某些类别的产品是否有明显偏好
  • 期望频数不等:每个类别的期望频数不等,比如我们要检验某个地区对某项政策的评价是否和全国人民对该政策的平均评价一致
    计算完 χ2\chi^2χ2 后,也是用 PPP 值检验(取右尾概率)

两个类别变量的独立性检验

列联表与 χ2\chi^2χ2 独立性检验

列联表:两个或多个类别变量,每个类别变量包含许多类别,则将不同类别变量交叉分类的频数写成分布表,称为列联表
提出假设:(以下都是两个类别变量的情况)

  • H0H_{0}H0 :两个变量独立(无关)
  • H1H_{1}H1 :两个变量不独立(相关)
    两个变量 χ2\chi^2χ2 独立性检验的统计量为:(自由度为 (r−1)(c−1)(r-1)(c-1)(r1)(c1)

χ2=∑∑(fo−fe)2fe\chi^2=\sum\sum\frac{(f_{o}-f_{e})^{2}}{f_{e}} χ2=∑∑fe(fofe)2

观察频数就是我们统计出来的值;单元格 ijijij 期望频数的计算方法为:
fe=RTin×CTjn×nf_{e}=\frac{RT_{i}}{n}\times\frac{CT_{j}}{n}\times n fe=nRTi×nCTj×n
其中:

  • RTiRT_{i}RTi 为第 iii 行的频数之和,RTin\frac{RT_{i}}{n}nRTi 即为第 iii 行的类别所观察到的比例
  • CTjCT_{j}CTj 为第 jjj 行的频数之和,CTjn\frac{CT_{j}}{n}nCTj 即为第 jjj 列的类别所观察到的比例

应用 χ2\chi^2χ2 检验应该注意的问题

应用 χ2\chi^2χ2 检验时,要求样本量足够大,特别是每个单元格的期望频数不能太小。否则期望频数在分母,太小的话会导致 χ2\chi^2χ2 变大,PPP 值变小,从而拒绝原假设。因此,应用 χ2\chi^2χ2 检验时对单元格的期望频数有以下要求:

  • 如果仅有两个单元格,单元格的最小期望频数不应小于 5;
  • 单元格两个以上时,期望频数小于 5 的单元格不能超过 20%;如果出现这种情况,可以通过合并类别的方式处理。

两个类别变量的相关度检验

如果前边独立性检验拒绝了 H0H_{0}H0 ,也就是说这两个变量不独立,此时可以进一步测度它们的关联程度,常使用 φ\varphiφ 系数、Cramer’s VVV 系数和列联系数作为检验统计量。

φ\varphiφ 系数

φ\varphiφ 系数主要用于 2×22\times22×2 列联表的相关性测量:
φ=χ2n\varphi=\sqrt{ \frac{\chi^2}{n} } φ=nχ2
对于 2×22\times22×2 列联表,φ\varphiφ 取值为 0∼10\sim 101 ,越接近 1 表示两个变量的相关性越强;
当列联表变大时,φ\varphiφ 的值会随着变大,此时不好解释 φ\varphiφ 的含义。

Cramer’s VVV 系数

Cramer’s VVV 系数由 Cramer 提出,计算公式为:
V=χ2n×min⁡((r−1),(c−1))V=\sqrt{ \frac{\chi^{2}}{n\times \min{((r-1),\,(c-1))}} } V=n×min((r1),(c1))χ2
其中 rrrccc 分别为行数和列数;当行数或列数为 222 时,Cramer’s VVV 系数就等于 φ\varphiφ 系数。
Cramer’s VVV 系数的取值总是在 0∼10\sim 101

  • 当两个变量独立时,V=0V=0V=0
  • 当两个变量完全相关时,V=1V=1V=1

列联系数

列联系数主要用于大于 2×22\times22×2 的列联表,用 CCC 表示,计算公式为:
C=χ2χ2+nC=\sqrt{ \frac{\chi^{2}}{\chi^{2}+n} } C=χ2+nχ2
当两个变量独立时,C=0C=0C=0 ;但两个变量完全相关时,CCC 也不等于 111 ,因此对列联系数的解释就不够方便。

总结

类别变量的检验方法
一个类别变量
两个类别变量
拟合优度检验
期望频数相等
期望频数不等
独立性检验
相关性测量
列联表
卡方检验
不拒绝H0
拒绝H0
phi系数
Cramer's V系数
列联系数
http://www.lryc.cn/news/26583.html

相关文章:

  • 2.基于Label studio的训练数据标注指南:(智能文档)文档抽取任务、PDF、表格、图片抽取标注等
  • 如何在openKylin操作系统上搭建Qt开发环境
  • T_SQL和SQL的区别
  • 用Python自己写一个分词器,python实现分词功能,隐马尔科夫模型预测问题之维特比算法(Viterbi Algorithm)的Python实现
  • 刷题笔记2 | 977.有序数组的平方 ,209.长度最小的子数组 ,59.螺旋矩阵II ,总结
  • python 支付宝营销活动现金红包开发接入流程-含接口调用加签
  • Python操作Windows
  • Aptos SDK交互笔记(一)
  • 汽车 12V 和 24V 电池输入保护推荐
  • 龙蜥LoongArch架构研发全揭秘,龙芯开辟龙腾计划技术合作新范式
  • 剑指 Offer 16. 数值的整数次方
  • 在苹果电脑 mac 上安装原神(playCover)
  • 数据结构考研习题精选
  • linux常用命令介绍 04 篇——uniq命令使用介绍(Linux重复数据的统计处理)
  • 网站打不开数据库错误等常见问题解决方法
  • 爬虫实战进阶版【1】——某眼专业版实时票房接口破解
  • 大话数据结构-普里姆算法(Prim)和克鲁斯卡尔算法(Kruskal)
  • UNet-肝脏肿瘤图像语义分割
  • 三周爆赚千万 电竞选手在无聊猿游戏赢麻了
  • BERT学习
  • 大话数据结构-图的深度优先遍历和广度优先遍历
  • c语言指针怎么理解 第一部分
  • 计算机网络安全基础知识2:http超文本传输协议,请求request消息的get和post,响应response消息的格式,响应状态码
  • Pytest自动化框架~权威教程03-原有TestSuite的执行方法
  • web自动化 基于python+Selenium+PHP+Ftp实现的轻量级web自动化测试框架
  • 【MyBatis】源码学习 05 - 关于 xml 文件解析的分析
  • 代码随想录算法训练营第二天| 977. 有序数组的平方、209. 长度最小子数组、59.螺旋矩阵II
  • Ethercat系列(10)用QT实现SOEM主站
  • 论文投稿指南——中文核心期刊推荐(科学、科学研究)
  • jQuery属性操作prop()、attr()和data()