应用统计部分常用公式总结
常见分布函数
常用公式
- 分位数:P{X>xα}=α,P{X≤xα}=1−αP\{X>x_\alpha\}=\alpha, P\{X\le x_\alpha\}=1-\alphaP{X>xα}=α,P{X≤xα}=1−α
- E(Xi)=E(X)=E(X‾)=μE(X_i)=E(X)=E(\overline X)=\muE(Xi)=E(X)=E(X)=μ
- E(X2)=E2(X)+D(X)=μ2+σ2E(X^2)=E^2(X)+D(X)=\mu^2+\sigma^2E(X2)=E2(X)+D(X)=μ2+σ2
- D(X‾)=1nD(X)=σ2nD(\overline X)=\frac{1}{n}D(X)=\frac{\sigma^2}{n}D(X)=n1D(X)=nσ2
- 若X∼N(0,σ2)X\sim N(0,\sigma^2)X∼N(0,σ2)则:E(Xn)={0,n=1,3,5…σn(n−1)(n−3)…1,n=2,4,6…E(X^n)=\begin{cases}0,&n=1,3,5\dots\\\sigma^n(n-1)(n-3)\dots1,&n=2,4,6\dots\end{cases}E(Xn)={0,σn(n−1)(n−3)…1,n=1,3,5…n=2,4,6…
- nnn足够大时(n>45n>45n>45),Xα≈n+2nZα,tα(n)≈ZαX_\alpha\approx n+\sqrt{2n}Z_\alpha,\quad t_\alpha(n)\approx Z_\alphaXα≈n+2nZα,tα(n)≈Zα
离散分布
-
二项分布
X∼B(n,p)X\sim B(n,p)X∼B(n,p)则:
- P(X=x)=Cnxpx(1−p)n−xP(X=x)=C_n^xp^x(1-p)^{n-x}P(X=x)=Cnxpx(1−p)n−x
- E(X)=npE(X)=npE(X)=np
- D(X)=np(1−p)D(X)=np(1-p)D(X)=np(1−p)
-
泊松分布
X∼P(λ)X\sim P(\lambda)X∼P(λ)则:
- P(X=x)=λxe−λx!,x=0,1,2,…P(X=x)=\frac{\lambda^xe^{-\lambda}}{x!},\quad x=0,1,2,\dotsP(X=x)=x!λxe−λ,x=0,1,2,…
- E(X)=D(X)=λE(X)=D(X)=\lambdaE(X)=D(X)=λ
连续分布
分布 | 简介 | E(X)E(X)E(X) | D(X)D(X)D(X) |
---|---|---|---|
伽马分布 p9 | 指数分布和卡方分布的推广形式 | αλ\frac{\alpha}{\lambda}λα | αλ2\frac{\alpha}{\lambda^2}λ2α |
卡方分布 | 标准正态分布的平方和 | nnn | 2n2n2n |
t分布 | 标准正态χ2(n)/n\frac{标准正态}{\sqrt{\chi^2(n)/n}}χ2(n)/n标准正态 | \ | \ |
F分布 | 卡方分布的比 | \ | \ |
-
均匀分布
X∼U(a,b)X\sim U(a,b)X∼U(a,b)则:
- E(X)=a+b2E(X)=\frac{a+b}{2}E(X)=2a+b
- D(X)=(b−a)212D(X)=\frac{(b-a)^2}{12}D(X)=12(b−a)2
-
泊松分布
X∼P(λ)X\sim P(\lambda)X∼P(λ)
- P(X=x)=λxx!e−λx=1,2,3,…P(X=x)=\frac{\lambda^{x}}{x!}e^{-\lambda}\quad x=1,2,3,\dotsP(X=x)=x!λxe−λx=1,2,3,…
- E(X)=D(X)=λE(X)=D(X)=\lambdaE(X)=D(X)=λ
-
指数分布
X∼E(λ)∼Γ(1,λ)X\sim E(\lambda)\sim\Gamma(1,\lambda)X∼E(λ)∼Γ(1,λ)
- f(x)={λe−λx,x>00,x≤0f(x)=\begin{cases}\lambda e^{-\lambda x},&x>0\\0,&x\le0\end{cases}f(x)={λe−λx,0,x>0x≤0
- E(X)=1λE(X)=\frac{1}{\lambda}E(X)=λ1
- D(X)=1λ2D(X)=\frac1{\lambda^2}D(X)=λ21
-
伽马分布
X∼Γ(α,λ)X\sim\Gamma(\alpha,\lambda)X∼Γ(α,λ)
-
f(x)={xα−1Γ(α)λαe−λx,x>00,x≤0,α>0,λ>0f(x)=\begin{cases}\frac{ x^{\alpha-1}}{\Gamma(\alpha)} \lambda^\alpha e^{-\lambda x},&x>0\\0,&x\le0\end{cases},\ \alpha>0, \lambda >0f(x)={Γ(α)xα−1λαe−λx,0,x>0x≤0, α>0,λ>0
其中,Γ(α)=∫0+∞xα−1e−xdx\Gamma(\alpha)=\int_0^{+\infty}x^{\alpha-1}e^{-x}dxΓ(α)=∫0+∞xα−1e−xdx
-
E(X)=αλ,E(X2)=α(α+1)λ2E(X)=\frac{\alpha}{\lambda},\ E(X^2)=\frac{\alpha(\alpha+1)}{\lambda^2}E(X)=λα, E(X2)=λ2α(α+1)
-
D(X)=αλ2D(X)=\frac{\alpha}{\lambda^2}D(X)=λ2α
-
若Y∼Γ(α′,λ)Y\sim\Gamma(\alpha',\lambda)Y∼Γ(α′,λ)则X+Y∼Γ(α+α′,λ)X+Y\sim\Gamma(\alpha+\alpha', \lambda)X+Y∼Γ(α+α′,λ)
-
α=1\alpha=1α=1则伽马分布退化为指数分布
-
-
卡方分布
Xi∼N(0,1)X_i\sim N(0,1)Xi∼N(0,1)则:
χ2=∑i=1nXi∼χ2(n)\chi^2=\sum\limits_{i=1}^nX_i\sim\chi^2(n)χ2=i=1∑nXi∼χ2(n)(标准正态分布的和)
性质、定理:- E(χ2)=n,D(χ2)=2nE(\chi^2)=n, D(\chi^2)=2nE(χ2)=n,D(χ2)=2n
- X∼χ(n1),Y∼χ(n2)⇒X+Y∼χ2(n1+n2)X\sim\chi(n_1),Y\sim\chi(n_2)\Rightarrow X+Y\sim\chi^2(n_1+n_2)X∼χ(n1),Y∼χ(n2)⇒X+Y∼χ2(n1+n2)
- X∼E(λ)⇒2λX∼χ2(2)X\sim E(\lambda)\Rightarrow 2\lambda X\sim\chi^2(2)X∼E(λ)⇒2λX∼χ2(2) p10
-
t分布
X∼N(0,1),Y∼χ2(n)X\sim N(0,1), Y\sim\chi^2(n)X∼N(0,1),Y∼χ2(n),则:
T=XY/nT=\frac{X}{\sqrt{Y/n}}T=Y/nX(标准正态分布比根号卡方分布) -
F分布
X∼χ2(m),Y∼χ2(n)X\sim\chi^2(m), Y\sim\chi^2(n)X∼χ2(m),Y∼χ2(n)则:
F=X/mY/n∼F(m,n)F=\frac{X/m}{Y/n}\sim F(m,n)F=Y/nX/m∼F(m,n)(卡方分布的比)
性质:- F∼F(m,n)⇒1F∼F(n,m)F\sim F(m,n)\Rightarrow \frac{1}{F}\sim F(n,m)F∼F(m,n)⇒F1∼F(n,m)
- Fα(m,n)=1F1−α(n,m)F_{\alpha}(m,n)=\frac{1}{F_{1-\alpha}(n,m)}Fα(m,n)=F1−α(n,m)1
抽样分布定理
-
X∼N(μ,σ2)X\sim N(\mu,\sigma^2)X∼N(μ,σ2),则
- X‾∼N(μ,σ2n)\overline X\sim N(\mu,\frac{\sigma^2}{n})X∼N(μ,nσ2)
- (n−1)S2σ2∼χ2(n−1)\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)σ2(n−1)S2∼χ2(n−1)
- X‾Sn∼t(n−1)\frac{\overline X}{\frac{S}{\sqrt n}}\sim t(n-1)nSX∼t(n−1)
- 样本均值和样本方差独立
-
X∼N(μ1,σ12),Y∼N(μ2,σ22)X\sim N(\mu_1,\sigma^2_1), Y\sim N(\mu_2, \sigma_2^2)X∼N(μ1,σ12),Y∼N(μ2,σ22),则
- (X‾−Y‾)−(μ1−μ2)σ12m+σ22n∼N(0,1)\frac{(\overline X-\overline Y)-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}}}\sim N(0,1)mσ12+nσ22(X−Y)−(μ1−μ2)∼N(0,1)
- SX2σ12/SY2σY2∼F(m−1,n−1)\frac{S_X^2}{\sigma_1^2}/\frac{S_Y^2}{\sigma_Y^2}\sim F(m-1,n-1)σ12SX2/σY2SY2∼F(m−1,n−1)
σ1=σ2\sigma_1=\sigma_2σ1=σ2时,有:
(X‾−Y‾)−(μ1−μ2)Sw1m+1n∼t(m+n−2)\frac{(\overline X-\overline Y)-(\mu_1-\mu_2)}{S_w\sqrt{\frac{1}{m}+\frac{1}{n}}}\sim t(m+n-2)Swm1+n1(X−Y)−(μ1−μ2)∼t(m+n−2)
其中Sw2=(m−1)SX2+(n−1)SY2m+n−2S_w^2=\frac{(m-1)S_X^2+(n-1)S_Y^2}{m+n-2}Sw2=m+n−2(m−1)SX2+(n−1)SY2
参数估计
估计的优良性
- Fisher信息量:I(θ)=E[∂∂θlnf(X;θ)]2I(\theta)=E[\frac{\partial}{\partial\theta}\ln f(X;\theta)]^2I(θ)=E[∂θ∂lnf(X;θ)]2
- 效率:e(θ^)=1nI(θ)D(θ^)e(\hat\theta)=\frac{1}{nI(\theta)D(\hat\theta)}e(θ^)=nI(θ)D(θ^)1
e(θ^)=1⇒θ^e(\hat\theta)=1\Rightarrow\hat\thetae(θ^)=1⇒θ^为有效估计量(克拉美-逻下界,D(θ^)=1nI(θ)D(\hat\theta)=\frac{1}{nI(\theta)}D(θ^)=nI(θ)1)
区间估计
已知总体X∼N(μ,σ2)X\sim N(\mu,\sigma^2)X∼N(μ,σ2),求1−α1-\alpha1−α置信区间
- 已知σ2=σ02\sigma^2=\sigma_0^2σ2=σ02,估计μ\muμ
(X‾−σ0nZα/2,X‾+σ0nZα/2)(\overline X-\frac{\sigma_0}{\sqrt n}Z_{\alpha/2},\overline X+\frac{\sigma_0}{\sqrt n}Z_{\alpha/2})(X−nσ0Zα/2,X+nσ0Zα/2)
- 总体方差未知,估计μ\muμ
(X‾−Sntα/2(n−1),X‾+Sntα/2(n−1))(\overline X-\frac{S}{\sqrt n}t_{\alpha/2}(n-1),\overline X+\frac{S}{\sqrt n}t_{\alpha/2}(n-1))(X−nStα/2(n−1),X+nStα/2(n−1))
- μ\muμ未知,估计σ2\sigma^2σ2
((n−1)S2χα/22(n−1),(n−1)S2χ1−α/22(n−1))(\frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)}, \frac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)})(χα/22(n−1)(n−1)S2,χ1−α/22(n−1)(n−1)S2)
方差分析
单因素方差检验
-
H0:μ1=μ2=⋯=μkH_0:\mu_1=\mu_2=\dots=\mu_kH0:μ1=μ2=⋯=μk(不同水平对因素没有显著影响。该因素有k个水平,即k个类别)
-
SSA=∑i=1kni(Xi‾−X‾)2\text{SSA}=\sum\limits_{i=1}^kn_i(\overline{X_i}-\overline X)^2SSA=i=1∑kni(Xi−X)2(组间误差/组间平方和,每组均值减总均值的平方乘以组数量)
SSE=∑i=1k∑j=1nj(Xij−Xi‾)2\text{SSE}=\sum\limits_{i=1}^k\sum\limits_{j=1}^{n_j}(X_{ij}-\overline{X_i})^2SSE=i=1∑kj=1∑nj(Xij−Xi)2(组内误差/组内平方和,组内每一个值减该组均值求平方)
SST=∑i=1k∑j=1nj(Xij−X‾)2\text{SST}=\sum\limits_{i=1}^k\sum\limits_{j=1}^{n_j}(X_{ij}-\overline{X})^2SST=i=1∑kj=1∑nj(Xij−X)2(总平方和)
SST=SSA+SSE\text{SST}=\text{SSA}+\text{SSE}SST=SSA+SSE
检验量:F=SSA/(k−1)SSE/(N−k)∼F(k−1,N−k)F=\frac{\text{SSA}/(k-1)}{\text{SSE}/(N-k)}\sim F(k-1, N-k)F=SSE/(N−k)SSA/(k−1)∼F(k−1,N−k)(N是样本总数) -
方差分析表
方差来源 平方和 自由度 样本方差 F值 组间 SSA\text{SSA}SSA k−1k-1k−1 MSA=SSAk−1\text{MSA}=\frac{\text{SSA}}{k-1}MSA=k−1SSA F=MSAMSEF=\frac{\text{MSA}}{\text{MSE}}F=MSEMSA 组内 SSE\text{SSE}SSE N−kN-kN−k MSE=SSEN−k\text{MSE}=\frac{\text{SSE}}{N-k}MSE=N−kSSE 总和 SST\text{SST}SST N−1N-1N−1 -
MSE\text{MSE}MSE组内方差、均方差、均方
多重比较——最小显著差异法(LSD)
用于检验究竟是哪两个水平有显著差异
-
H0:μi=μjH_0:\mu_i=\mu_jH0:μi=μj
-
LSD=tα/2(n−k)⋅MSE⋅(1ni+1nj)\text{LSD}=t_{\alpha/2}(n-k)·\sqrt{\text{MSE}·(\frac{1}{n_i}+\frac{1}{n_j})}LSD=tα/2(n−k)⋅MSE⋅(ni1+nj1)(总共kkk个水平,现在检验水平iii和水平jjj)
若∣x‾i−x‾j∣>LSD|\overline x_i-\overline x_j|>\text{LSD}∣xi−xj∣>LSD则拒绝H0H_0H0
MSE计算方法见方差分析表
一元线性回归
-
β^1=n∑i=1nxiyi−∑i=1nxi∑i=1nyin∑i=1nxi2−(∑i=1nxi)2=∑i=1n(xi−x‾)(yi−y‾)∑i=1n(xi−x‾)2\hat\beta_1=\frac{n\sum\limits_{i=1}^nx_iy_i-\sum\limits_{i=1}^nx_i\sum\limits_{i=1}^ny_i}{n\sum\limits_{i=1}^nx^2_i-(\sum\limits_{i=1}^nx_i)^2}=\frac{\sum\limits_{i=1}^n(x_i-\overline x)(y_i-\overline y)}{\sum\limits_{i=1}^n(x_i-\overline x)^2}β^1=ni=1∑nxi2−(i=1∑nxi)2ni=1∑nxiyi−i=1∑nxii=1∑nyi=i=1∑n(xi−x)2i=1∑n(xi−x)(yi−y)
β^0=y‾−β^1x‾\hat\beta_0=\overline y-\hat\beta_1\overline xβ^0=y−β^1x
-
β^1\hat\beta_1β^1的显著性检验
- H0:β^1=0H_0: \hat\beta_1=0H0:β^1=0(两变量间的线性关系不显著)
- 检验统计量F=SSR/1SSE/(n−2)=MSRMSEF=\frac{\text{SSR}/1}{\text{SSE}/(n-2)}=\frac{\text{MSR}}{\text{MSE}}F=SSE/(n−2)SSR/1=MSEMSR
落入拒绝域⇒\Rightarrow⇒线性关系显著
-
SSR=∑(y^i−y‾)2\text{SSR}=\sum(\hat y_i-\overline y)^2SSR=∑(y^i−y)2(回归平方和)
SSE=∑(y^i−yi)2\text{SSE}=\sum(\hat y_i-y_i)^2SSE=∑(y^i−yi)2(残差平方和)
SST=∑(yi−y‾)2\text{SST}=\sum(y_i-\overline y)^2SST=∑(yi−y)2(总平方和/离差平方和) -
R2=SSRSST=1−SSESSTR^2=\frac{\text{SSR}}{\text{SST}}=1-\frac{\text{SSE}}{\text{SST}}R2=SSTSSR=1−SSTSSE(判定系数/拟合优度)
-
se=SSEn−2=MSEs_e=\sqrt{\frac{\text{SSE}}{n-2}}=\sqrt{\text{MSE}}se=n−2SSE=MSE(估计标准误差,《统计学》p250)
-
相关系数
-
公式
r=∑i=1n(Xi−X‾)(Yi−Y‾)∑i=1n(Xi−X‾)2⋅∑i=1n(Yi−Y‾)2=∑i=1nXiYi−nX‾⋅Y‾(∑i=1nXi2−nX‾2)⋅(∑i=1nYi2−nY‾2)r=\frac{\sum\limits_{i=1}^n(X_i-\overline X)(Y_i-\overline Y)}{\sqrt{\sum\limits_{i=1}^n(X_i-\overline X)^2·\sum\limits_{i=1}^n(Y_i-\overline Y)^2}}=\frac{\sum\limits_{i=1}^nX_iY_i-n\overline X·\overline Y}{\sqrt{(\sum\limits_{i=1}^nX_i^2-n\overline X^2)·(\sum\limits_{i=1}^nY_i^2-n\overline Y^2)}}r=i=1∑n(Xi−X)2⋅i=1∑n(Yi−Y)2i=1∑n(Xi−X)(Yi−Y)=(i=1∑nXi2−nX2)⋅(i=1∑nYi2−nY2)i=1∑nXiYi−nX⋅Y
-
显著性检验⇒\Rightarrow⇒《统计学》p240
- H0:ρ=0H_0: \rho=0H0:ρ=0(总体相关系数为0)
- t=∣r∣n−21−r2∼t(n−2)t=|r|\sqrt\frac{n-2}{1-r^2}\sim t(n-2)t=∣r∣1−r2n−2∼t(n−2)
-
-
回归方程区间估计(统计学 p256)
y^±tα/2(n−2)⋅se⋅1n+(x0−x‾)2∑i=1n(xi−x‾)2\hat y\pm t_{\alpha/2}(n-2)·s_e·\sqrt{\frac{1}{n}+\frac{(x_0-\overline x)^2}{\sum\limits_{i=1}^n(x_i-\overline x)^2}}y^±tα/2(n−2)⋅se⋅n1+i=1∑n(xi−x)2(x0−x)2
时间序列
- 增长率
- 环比:Gi=Yi−Yi−1Yi−1G_i=\frac{Y_i-Y_{i-1}}{Y_{i-1}}Gi=Yi−1Yi−Yi−1
- 定基:Gi=Yi−Y0Y0G_i=\frac{Y_i-Y_0}{Y_0}Gi=Y0Yi−Y0
- 平均:G‾=YnY0−1\overline G=\sqrt{\frac{Y_n}{Y_0}}-1G=Y0Yn−1
平稳序列
-
简单平均
Ft+1=1t∑i=1tYiF_{t+1}=\frac{1}{t}\sum\limits_{i=1}^tY_iFt+1=t1i=1∑tYi
-
移动平均
Ft+1=Y‾=1k∑i=0k−1Yt−iF_{t+1}=\overline Y=\frac{1}{k}\sum\limits_{i=0}^{k-1}Y_{t-i}Ft+1=Y=k1i=0∑k−1Yt−i
-
指数平滑
Ft+1=αYt+(1−α)Ft,F1=Y1F_{t+1}=\alpha Y_t+(1-\alpha)F_t,\quad F_1=Y_1Ft+1=αYt+(1−α)Ft,F1=Y1