当前位置：首页 > news >正文

【统计的思想】假设检验（二）

news 2025/8/10 6:04:46

假设检验是根据人为设定的显著水平，对被测对象的总体质量特性进行统计推断的方法。

如果我们通过假设检验否定了零假设，只是说明在设定的显著水平下，零假设成立的概率比较小，并不是说零假设就肯定不成立。如果零假设事实上是成立的，我们就犯了弃真错误，也就是第一类错误。这种错误出现的可能性，叫做弃真概率。

如果我们通过假设检验接受了零假设，也只是因为测试结果和期望的差异并不显著，并不足以推翻零假设，并不是说零假设就肯定成立。如果零假设事实上并不成立，我们就犯了取伪错误，也就是第二类错误。这种错误出现的可能性，叫做取伪概率。

显然，如果减小显著水平，就更不容易推翻零假设，所以弃真概率会变小，但相应的取伪概率就会变大；而增大显著水平的话，就更容易推翻零假设，取伪概率会变小，但弃真概率就会变大。

那怎么才能同时减小弃真概率和取伪概率呢？一般要在减小显著水平的同时，增加样本量。来看一个例子。

很多人以为结核病已经绝迹了，实际上并不是。2023年世卫组织发布的报告说，结核病发病率高达万分之5.2，仍然是世界上最常见的传染病之一。结核病的传统药物治愈率是60%。最近有一家药厂研制了一种新药，随机找了50名患者做临床试验，治愈率达到了70%。那么，我们能不能下结论说，这种新药的药效比传统药物更好呢？

我们来做假设检验：

建立零假设。假设新药的药效跟传统药没有差别，治愈率还是60%；
设定显著水平。取α=0.01；
计算测试结果的发生概率。如果新药的治愈率是60%，就是说每个人被治愈的可能性都是60%，那么50人里有70%的人、也就是35人被治愈的概率是多少呢？可以用二项分布来计算，算出来的概率是0.04；
统计推断。由于测试结果的发生概率比显著水平0.01要大，所以我们会接受零假设，结论是新药跟传统药没有显著差别。

但是如果我们扩大临床试验的规模，把人数增加到120人，样本治愈率还是70%，用同样的方法算下来，概率是0.006，就比显著水平0.01要小了，于是零假设就被推翻了，结论就会变成“新药的药效要明显好于传统药物”。

这两个结论，哪一个更靠谱呢？很明显是后者。因为样本量越大，样本就越能代表总体，抽样误差就越小。把样本量增大到120之后，发现假设检验的结论变了，说明之前样本量是50的时候，我们犯了取伪错误。

所以我们说，要想同时减小弃真概率和取伪概率，一般就需要增加样本量。这跟统计抽样测试里的结论是类似的。当然样本量越大，测试成本也越高。

在统计抽样测试中，我们可以借助操作特性曲线，来描述测试设计方案背后的生产方风险和使用方风险，给测试结论做一个必要的补充。这是统计抽样测试缓解测试可信性问题的常规思路。

操作特性曲线

海旭老师，公众号：重新认识测试设计【统计的思想】统计抽样测试（二）

其实还有一个办法，可以达到类似的效果，就是用假设检验。

还是来看例子：假设待测批的批量是5000，要求不合格率不超过25%，抽取了305件样品做检验，有92件不合格，样本的不合格率是30.2%。那么，待测批是不是一个合格批呢？按统计抽样测试的判断，结论应该是不合格，但这个结论不一定靠谱，有可能犯弃真错误，所以需要用操作特性曲线来补充说明。

如果用假设检验，应该怎么做呢？在前面的文章中，我们已经介绍过抽样分布的一组基本规律：

① 样本量越大，样本均值越趋近于服从正态分布；

② 样本均值的数学期望与总体的数学期望相同；

③ 样本均值的方差等于总体方差除以样本量。

抽样分布的基本规律

海旭老师，公众号：重新认识测试设计【统计的思想】假设检验（一）

如果我们把不合格的样本记作1，合格的样本记作0，那样本均值就等同于样本不合格率。这样，上述基本规律就能应用于统计抽样测试了，即：

① 当样本量n很大的时候，样本不合格率近似服从正态分布；

② 样本不合格率的数学期望，等于整批的不合格率p；

③ 样本不合格率的方差，等于p(1-p)/n。因为整批服从伯努利分布，方差是p(1-p)。

基于此，我们就可以做假设检验了：

建立零假设。假设整批的不合格率是25%，是一个合格批；
设定显著水平。这里取α=0.05；
计算测试结果发生的概率。既然样本不合格率服从正态分布，均值是25%，方差是： $\sigma_{\hat{p}}=\sqrt{\frac{p(1-p)}{n}}=0.0248$

那么样本不合格率达到30.2%以上的概率，就是： $P(T)=1-\Phi\left( \frac{0.302-0.25}{0.0248} \right)=0.0179$
统计推断。测试结果发生的概率比显著水平小，所以否定零假设。