当前位置：首页 > news >正文

应用统计部分常用公式总结

news 2025/8/19 6:07:18

常见分布函数

常用公式

分位数： $P{X>xα}=α,P{X≤xα}=1−αP\{X>x_\alpha\}=\alpha, P\{X\le x_\alpha\}=1-\alpha$
$E(Xi)=E(X)=E(X‾)=μE(X_i)=E(X)=E(\overline X)=\mu$
$E(X2)=E2(X)+D(X)=μ2+σ2E(X^2)=E^2(X)+D(X)=\mu^2+\sigma^2$
$D(X‾)=1nD(X)=σ2nD(\overline X)=\frac{1}{n}D(X)=\frac{\sigma^2}{n}$
若 $X∼N(0,σ2)X\sim N(0,\sigma^2)$ 则： $E(Xn)={0,n=1,3,5…σn(n−1)(n−3)…1,n=2,4,6…E(X^n)=\begin{cases}0,&n=1,3,5\dots\\\sigma^n(n-1)(n-3)\dots1,&n=2,4,6\dots\end{cases}$
$n$ 足够大时（ $n > 45$ ）， $Xα≈n+2nZα,tα(n)≈ZαX_\alpha\approx n+\sqrt{2n}Z_\alpha,\quad t_\alpha(n)\approx Z_\alpha$

离散分布

二项分布

$X∼B(n,p)X\sim B(n,p)$ 则：
1. $P(X=x)=C_n^xp^x(1-p)^{n-x}$
2. $E (X) = n p$
3. $D (X) = n p (1 - p)$
泊松分布

$X∼P(λ)X\sim P(\lambda)$ 则：
1. $P(X=x)=λxe−λx!,x=0,1,2,…P(X=x)=\frac{\lambda^xe^{-\lambda}}{x!},\quad x=0,1,2,\dots$
2. $E(X)=D(X)=λE(X)=D(X)=\lambda$

连续分布

分布	简介	$E (X)$	$D (X)$
伽马分布 p9	指数分布和卡方分布的推广形式	$αλ\frac{\alpha}{\lambda}$	$αλ2\frac{\alpha}{\lambda^2}$
卡方分布	标准正态分布的平方和	$n$	$2 n$
t分布	$标准正态χ2(n)/n\frac{标准正态}{\sqrt{\chi^2(n)/n}}$	\	\
F分布	卡方分布的比	\	\

均匀分布

$X∼U(a,b)X\sim U(a,b)$ 则：
1. $E(X)=a+b2E(X)=\frac{a+b}{2}$
2. $D(X)=(b−a)212D(X)=\frac{(b-a)^2}{12}$
泊松分布

$X∼P(λ)X\sim P(\lambda)$
1. $P(X=x)=λxx!e−λx=1,2,3,…P(X=x)=\frac{\lambda^{x}}{x!}e^{-\lambda}\quad x=1,2,3,\dots$
2. $E(X)=D(X)=λE(X)=D(X)=\lambda$
指数分布

$X∼E(λ)∼Γ(1,λ)X\sim E(\lambda)\sim\Gamma(1,\lambda)$
1. $f(x)={λe−λx,x>00,x≤0f(x)=\begin{cases}\lambda e^{-\lambda x},&x>0\\0,&x\le0\end{cases}$
2. $E(X)=1λE(X)=\frac{1}{\lambda}$
3. $D(X)=1λ2D(X)=\frac1{\lambda^2}$
伽马分布

$X∼Γ(α,λ)X\sim\Gamma(\alpha,\lambda)$
1. $f(x)={xα−1Γ(α)λαe−λx,x>00,x≤0,α>0,λ>0f(x)=\begin{cases}\frac{ x^{\alpha-1}}{\Gamma(\alpha)} \lambda^\alpha e^{-\lambda x},&x>0\\0,&x\le0\end{cases},\ \alpha>0, \lambda >0$
  
  其中， $Γ(α)=∫0+∞xα−1e−xdx\Gamma(\alpha)=\int_0^{+\infty}x^{\alpha-1}e^{-x}dx$
2. $E(X)=αλ,E(X2)=α(α+1)λ2E(X)=\frac{\alpha}{\lambda},\ E(X^2)=\frac{\alpha(\alpha+1)}{\lambda^2}$
3. $D(X)=αλ2D(X)=\frac{\alpha}{\lambda^2}$
4. 若 $Y∼Γ(α′,λ)Y\sim\Gamma(\alpha',\lambda)$ 则 $X+Y∼Γ(α+α′,λ)X+Y\sim\Gamma(\alpha+\alpha', \lambda)$
5. $α=1\alpha=1$ 则伽马分布退化为指数分布
卡方分布

$Xi∼N(0,1)X_i\sim N(0,1)$ 则：
$χ2=∑i=1nXi∼χ2(n)\chi^2=\sum\limits_{i=1}^nX_i\sim\chi^2(n)$ （标准正态分布的和）
性质、定理：
1. $E(χ2)=n,D(χ2)=2nE(\chi^2)=n, D(\chi^2)=2n$
2. $X∼χ(n1),Y∼χ(n2)⇒X+Y∼χ2(n1+n2)X\sim\chi(n_1),Y\sim\chi(n_2)\Rightarrow X+Y\sim\chi^2(n_1+n_2)$
3. $X∼E(λ)⇒2λX∼χ2(2)X\sim E(\lambda)\Rightarrow 2\lambda X\sim\chi^2(2)$ p10
t分布

$X∼N(0,1),Y∼χ2(n)X\sim N(0,1), Y\sim\chi^2(n)$ ，则：
$T=XY/nT=\frac{X}{\sqrt{Y/n}}$ （标准正态分布比根号卡方分布）
F分布

$X∼χ2(m),Y∼χ2(n)X\sim\chi^2(m), Y\sim\chi^2(n)$ 则：
$F=X/mY/n∼F(m,n)F=\frac{X/m}{Y/n}\sim F(m,n)$ （卡方分布的比）
性质：
1. $F∼F(m,n)⇒1F∼F(n,m)F\sim F(m,n)\Rightarrow \frac{1}{F}\sim F(n,m)$
2. $Fα(m,n)=1F1−α(n,m)F_{\alpha}(m,n)=\frac{1}{F_{1-\alpha}(n,m)}$

抽样分布定理

$X∼N(μ,σ2)X\sim N(\mu,\sigma^2)$ ，则
1. $X‾∼N(μ,σ2n)\overline X\sim N(\mu,\frac{\sigma^2}{n})$
2. $(n−1)S2σ2∼χ2(n−1)\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)$
3. $X‾Sn∼t(n−1)\frac{\overline X}{\frac{S}{\sqrt n}}\sim t(n-1)$
4. 样本均值和样本方差独立
$X∼N(μ1,σ12),Y∼N(μ2,σ22)X\sim N(\mu_1,\sigma^2_1), Y\sim N(\mu_2, \sigma_2^2)$ ，则
1. $(X‾−Y‾)−(μ1−μ2)σ12m+σ22n∼N(0,1)\frac{(\overline X-\overline Y)-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}}}\sim N(0,1)$
2. $SX2σ12/SY2σY2∼F(m−1,n−1)\frac{S_X^2}{\sigma_1^2}/\frac{S_Y^2}{\sigma_Y^2}\sim F(m-1,n-1)$
$σ1=σ2\sigma_1=\sigma_2$ 时，有：

$(X‾−Y‾)−(μ1−μ2)Sw1m+1n∼t(m+n−2)\frac{(\overline X-\overline Y)-(\mu_1-\mu_2)}{S_w\sqrt{\frac{1}{m}+\frac{1}{n}}}\sim t(m+n-2)$

其中 $Sw2=(m−1)SX2+(n−1)SY2m+n−2S_w^2=\frac{(m-1)S_X^2+(n-1)S_Y^2}{m+n-2}$

参数估计

估计的优良性

Fisher信息量： $I(θ)=E[∂∂θln⁡f(X;θ)]2I(\theta)=E[\frac{\partial}{\partial\theta}\ln f(X;\theta)]^2$
效率： $e(θ^)=1nI(θ)D(θ^)e(\hat\theta)=\frac{1}{nI(\theta)D(\hat\theta)}$

$e(θ^)=1⇒θ^e(\hat\theta)=1\Rightarrow\hat\theta$ 为有效估计量（克拉美-逻下界， $D(θ^)=1nI(θ)D(\hat\theta)=\frac{1}{nI(\theta)}$ ）

区间估计

已知总体 $X∼N(μ,σ2)X\sim N(\mu,\sigma^2)$ ，求 $1−α1-\alpha$ 置信区间

已知 $σ2=σ02\sigma^2=\sigma_0^2$ ，估计 $μ\mu$

$(X‾−σ0nZα/2,X‾+σ0nZα/2)(\overline X-\frac{\sigma_0}{\sqrt n}Z_{\alpha/2},\overline X+\frac{\sigma_0}{\sqrt n}Z_{\alpha/2})$

总体方差未知，估计 $μ\mu$

$(X‾−Sntα/2(n−1),X‾+Sntα/2(n−1))(\overline X-\frac{S}{\sqrt n}t_{\alpha/2}(n-1),\overline X+\frac{S}{\sqrt n}t_{\alpha/2}(n-1))$

$μ\mu$ 未知，估计 $σ2\sigma^2$

$((n−1)S2χα/22(n−1),(n−1)S2χ1−α/22(n−1))(\frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)}, \frac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)})$

方差分析

单因素方差检验

$H0:μ1=μ2=⋯=μkH_0:\mu_1=\mu_2=\dots=\mu_k$ （不同水平对因素没有显著影响。该因素有k个水平，即k个类别）
$SSA=∑i=1kni(Xi‾−X‾)2\text{SSA}=\sum\limits_{i=1}^kn_i(\overline{X_i}-\overline X)^2$ （组间误差/组间平方和，每组均值减总均值的平方乘以组数量）

$SSE=∑i=1k∑j=1nj(Xij−Xi‾)2\text{SSE}=\sum\limits_{i=1}^k\sum\limits_{j=1}^{n_j}(X_{ij}-\overline{X_i})^2$ （组内误差/组内平方和，组内每一个值减该组均值求平方）
$SST=∑i=1k∑j=1nj(Xij−X‾)2\text{SST}=\sum\limits_{i=1}^k\sum\limits_{j=1}^{n_j}(X_{ij}-\overline{X})^2$ （总平方和）
$SST=SSA+SSE\text{SST}=\text{SSA}+\text{SSE}$
检验量： $F=SSA/(k−1)SSE/(N−k)∼F(k−1,N−k)F=\frac{\text{SSA}/(k-1)}{\text{SSE}/(N-k)}\sim F(k-1, N-k)$ （N是样本总数）

方差分析表

方差来源	平方和	自由度	样本方差	F值
组间	$SSA\text{SSA}$	$k - 1$	$MSA=SSAk−1\text{MSA}=\frac{\text{SSA}}{k-1}$	$F=MSAMSEF=\frac{\text{MSA}}{\text{MSE}}$
组内	$SSE\text{SSE}$	$N - k$	$MSE=SSEN−k\text{MSE}=\frac{\text{SSE}}{N-k}$
总和	$SST\text{SST}$	$N - 1$

$MSE\text{MSE}$ 组内方差、均方差、均方

多重比较——最小显著差异法（LSD）

用于检验究竟是哪两个水平有显著差异

$H0:μi=μjH_0:\mu_i=\mu_j$
$LSD=tα/2(n−k)⋅MSE⋅(1ni+1nj)\text{LSD}=t_{\alpha/2}(n-k)·\sqrt{\text{MSE}·(\frac{1}{n_i}+\frac{1}{n_j})}$ （总共 $k$ 个水平，现在检验水平 $i$ 和水平 $j$ ）

若 $∣x‾i−x‾j∣>LSD|\overline x_i-\overline x_j|>\text{LSD}$ 则拒绝 $H_0$

MSE计算方法见方差分析表

一元线性回归

$β^1=n∑i=1nxiyi−∑i=1nxi∑i=1nyin∑i=1nxi2−(∑i=1nxi)2=∑i=1n(xi−x‾)(yi−y‾)∑i=1n(xi−x‾)2\hat\beta_1=\frac{n\sum\limits_{i=1}^nx_iy_i-\sum\limits_{i=1}^nx_i\sum\limits_{i=1}^ny_i}{n\sum\limits_{i=1}^nx^2_i-(\sum\limits_{i=1}^nx_i)^2}=\frac{\sum\limits_{i=1}^n(x_i-\overline x)(y_i-\overline y)}{\sum\limits_{i=1}^n(x_i-\overline x)^2}$

$β^0=y‾−β^1x‾\hat\beta_0=\overline y-\hat\beta_1\overline x$
$β^1\hat\beta_1$ 的显著性检验
1. $H0:β^1=0H_0: \hat\beta_1=0$ （两变量间的线性关系不显著）
2. 检验统计量 $F=SSR/1SSE/(n−2)=MSRMSEF=\frac{\text{SSR}/1}{\text{SSE}/(n-2)}=\frac{\text{MSR}}{\text{MSE}}$

落入拒绝域 $⇒\Rightarrow$ 线性关系显著

$SSR=∑(y^i−y‾)2\text{SSR}=\sum(\hat y_i-\overline y)^2$ （回归平方和）

$SSE=∑(y^i−yi)2\text{SSE}=\sum(\hat y_i-y_i)^2$ （残差平方和）
$SST=∑(yi−y‾)2\text{SST}=\sum(y_i-\overline y)^2$ （总平方和/离差平方和）
$R2=SSRSST=1−SSESSTR^2=\frac{\text{SSR}}{\text{SST}}=1-\frac{\text{SSE}}{\text{SST}}$ （判定系数/拟合优度）
$se=SSEn−2=MSEs_e=\sqrt{\frac{\text{SSE}}{n-2}}=\sqrt{\text{MSE}}$ （估计标准误差，《统计学》p250）
相关系数
1. 公式
  
  $r=∑i=1n(Xi−X‾)(Yi−Y‾)∑i=1n(Xi−X‾)2⋅∑i=1n(Yi−Y‾)2=∑i=1nXiYi−nX‾⋅Y‾(∑i=1nXi2−nX‾2)⋅(∑i=1nYi2−nY‾2)r=\frac{\sum\limits_{i=1}^n(X_i-\overline X)(Y_i-\overline Y)}{\sqrt{\sum\limits_{i=1}^n(X_i-\overline X)^2·\sum\limits_{i=1}^n(Y_i-\overline Y)^2}}=\frac{\sum\limits_{i=1}^nX_iY_i-n\overline X·\overline Y}{\sqrt{(\sum\limits_{i=1}^nX_i^2-n\overline X^2)·(\sum\limits_{i=1}^nY_i^2-n\overline Y^2)}}$
2. 显著性检验 $⇒\Rightarrow$ 《统计学》p240
  1. $H0:ρ=0H_0: \rho=0$ （总体相关系数为0）
  2. $t=∣r∣n−21−r2∼t(n−2)t=|r|\sqrt\frac{n-2}{1-r^2}\sim t(n-2)$
回归方程区间估计（统计学 p256）
$y^±tα/2(n−2)⋅se⋅1n+(x0−x‾)2∑i=1n(xi−x‾)2\hat y\pm t_{\alpha/2}(n-2)·s_e·\sqrt{\frac{1}{n}+\frac{(x_0-\overline x)^2}{\sum\limits_{i=1}^n(x_i-\overline x)^2}}$

时间序列

增长率
1. 环比： $Gi=Yi−Yi−1Yi−1G_i=\frac{Y_i-Y_{i-1}}{Y_{i-1}}$
2. 定基： $Gi=Yi−Y0Y0G_i=\frac{Y_i-Y_0}{Y_0}$
3. 平均： $G‾=YnY0−1\overline G=\sqrt{\frac{Y_n}{Y_0}}-1$

平稳序列

简单平均

$Ft+1=1t∑i=1tYiF_{t+1}=\frac{1}{t}\sum\limits_{i=1}^tY_i$
移动平均

$Ft+1=Y‾=1k∑i=0k−1Yt−iF_{t+1}=\overline Y=\frac{1}{k}\sum\limits_{i=0}^{k-1}Y_{t-i}$
指数平滑

$Ft+1=αYt+(1−α)Ft,F1=Y1F_{t+1}=\alpha Y_t+(1-\alpha)F_t,\quad F_1=Y_1$