当前位置: 首页 > news >正文

【统计的思想】假设检验(二)

假设检验是根据人为设定的显著水平,对被测对象的总体质量特性进行统计推断的方法。

如果我们通过假设检验否定了零假设,只是说明在设定的显著水平下,零假设成立的概率比较小,并不是说零假设就肯定不成立。如果零假设事实上是成立的,我们就犯了弃真错误,也就是第一类错误。这种错误出现的可能性,叫做弃真概率。

如果我们通过假设检验接受了零假设,也只是因为测试结果和期望的差异并不显著,并不足以推翻零假设,并不是说零假设就肯定成立。如果零假设事实上并不成立,我们就犯了取伪错误,也就是第二类错误。这种错误出现的可能性,叫做取伪概率。

显然,如果减小显著水平,就更不容易推翻零假设,所以弃真概率会变小,但相应的取伪概率就会变大;而增大显著水平的话,就更容易推翻零假设,取伪概率会变小,但弃真概率就会变大。

那怎么才能同时减小弃真概率和取伪概率呢?一般要在减小显著水平的同时,增加样本量。来看一个例子。

很多人以为结核病已经绝迹了,实际上并不是。2023年世卫组织发布的报告说,结核病发病率高达万分之5.2,仍然是世界上最常见的传染病之一。结核病的传统药物治愈率是60%。最近有一家药厂研制了一种新药,随机找了50名患者做临床试验,治愈率达到了70%。那么,我们能不能下结论说,这种新药的药效比传统药物更好呢?

我们来做假设检验:

  1. 建立零假设。假设新药的药效跟传统药没有差别,治愈率还是60%;

  2. 设定显著水平。取α=0.01;

  3. 计算测试结果的发生概率。如果新药的治愈率是60%,就是说每个人被治愈的可能性都是60%,那么50人里有70%的人、也就是35人被治愈的概率是多少呢?可以用二项分布来计算,算出来的概率是0.04;

  4. 统计推断。由于测试结果的发生概率比显著水平0.01要大,所以我们会接受零假设,结论是新药跟传统药没有显著差别。

但是如果我们扩大临床试验的规模,把人数增加到120人,样本治愈率还是70%,用同样的方法算下来,概率是0.006,就比显著水平0.01要小了,于是零假设就被推翻了,结论就会变成“新药的药效要明显好于传统药物”。

这两个结论,哪一个更靠谱呢?很明显是后者。因为样本量越大, 样本就越能代表总体,抽样误差就越小。把样本量增大到120之后,发现假设检验的结论变了,说明之前样本量是50的时候,我们犯了取伪错误。

所以我们说,要想同时减小弃真概率和取伪概率,一般就需要增加样本量。这跟统计抽样测试里的结论是类似的。当然样本量越大,测试成本也越高。

在统计抽样测试中,我们可以借助操作特性曲线,来描述测试设计方案背后的生产方风险和使用方风险,给测试结论做一个必要的补充。这是统计抽样测试缓解测试可信性问题的常规思路。

操作特性曲线

海旭老师,公众号:重新认识测试设计【统计的思想】统计抽样测试(二)

其实还有一个办法,可以达到类似的效果,就是用假设检验。

还是来看例子:假设待测批的批量是5000,要求不合格率不超过25%,抽取了305件样品做检验,有92件不合格,样本的不合格率是30.2%。那么,待测批是不是一个合格批呢?按统计抽样测试的判断,结论应该是不合格,但这个结论不一定靠谱,有可能犯弃真错误,所以需要用操作特性曲线来补充说明。

如果用假设检验,应该怎么做呢?在前面的文章中,我们已经介绍过抽样分布的一组基本规律:

① 样本量越大,样本均值越趋近于服从正态分布;

② 样本均值的数学期望与总体的数学期望相同;

③ 样本均值的方差等于总体方差除以样本量。

抽样分布的基本规律

海旭老师,公众号:重新认识测试设计【统计的思想】假设检验(一)

如果我们把不合格的样本记作1,合格的样本记作0,那样本均值就等同于样本不合格率。这样,上述基本规律就能应用于统计抽样测试了,即:

① 当样本量n很大的时候,样本不合格率近似服从正态分布;

② 样本不合格率的数学期望,等于整批的不合格率p;

③ 样本不合格率的方差,等于p(1-p)/n。因为整批服从伯努利分布,方差是p(1-p)。

基于此,我们就可以做假设检验了:

  1. 建立零假设。假设整批的不合格率是25%,是一个合格批;

  2. 设定显著水平。这里取α=0.05;

  3. 计算测试结果发生的概率。既然样本不合格率服从正态分布,均值是25%,方差是:\sigma_{\hat{p}}=\sqrt{\frac{p(1-p)}{n}}=0.0248

    那么样本不合格率达到30.2%以上的概率,就是:P(T)=1-\Phi\left( \frac{0.302-0.25}{0.0248} \right)=0.0179

  4. 统计推断。测试结果发生的概率比显著水平小,所以否定零假设。

最终的测试结论是,在显著水平0.05的概率意义下,待测批不合格。可以看到,假设检验是从显著水平的角度来补充测试结论的,同样能缓解测试可信性问题。

http://www.lryc.cn/news/527619.html

相关文章:

  • KNN算法学习实践
  • 数据可视化的图表
  • 动手学深度学习-卷积神经网络-3填充和步幅
  • 【JS|第28期】new Event():前端事件处理的利器
  • Spring Boot 中的事件发布与监听:深入理解 ApplicationEventPublisher(附Demo)
  • 【Spring】Spring启示录
  • ospf动态路由配置,cost路径调整,ospf认证实验
  • 在Rust应用中访问.ini格式的配置文件
  • 批量处理多个模型的预测任务
  • Java 编程初体验
  • element-plus 的table section如何实现单选
  • 【JavaEE进阶】图书管理系统 - 壹
  • 牛客周赛 Round 77 题解
  • Mybatis配置文件详解
  • 《深度揭秘:TPU张量计算架构如何重塑深度学习运算》
  • Java基础知识总结(二十二)--List接口
  • [STM32 - 野火] - - - 固件库学习笔记 - - -十二.基本定时器
  • 算法随笔_27:最大宽度坡
  • 无公网IP 外网访问本地部署 llamafile 大语言模型
  • 使用PC版本剪映制作照片MV
  • 搭建 docxify 静态博客教程
  • 汽车OEMs一般出于什么目的来自定义Autosar CP一些内容
  • Vue.js Vuex 模块化管理
  • 分布式光纤应变监测是一种高精度、分布式的监测技术
  • 用Devc++与easyx一步一步做游戏[启动界面部分]-解决hover闪烁问题及优化
  • mysql 学习3 SQL语句--整体概述。SQL通用语法;DDL创建数据库,查看当前数据库是那个,删除数据库,使用数据库;查看当前数据库有哪些表
  • 【数据结构】_链表经典算法OJ:分割链表(力扣—中等)
  • k8s支持自定义field-selector spec.hostNetwork过滤
  • ICSE‘25 LLM Assistance for Memory Safety
  • 《十七》浏览器基础