当前位置: 首页 > news >正文

【LinearAlgebra】Chapter 12 - Linear Algebra in Probability Statistics

在这里插入图片描述

文章目录

Chapter 12 - Linear Algebra in Probability & Statistics

我们从本章的三个基本词汇开始:均值(mean)方差(variance)概率(probability)。在写公式之前,让我先粗略地解释一下它们的含义:

平均值指平均值或期望值
方差 σ 2 \sigma^2 σ2 衡量与平均值 m m m 的平均平方距离
n n n 种不同结果的概率都是正数 p 1 , ⋯ , p n p_1, \cdots, p_n p1,,pn 相加为 1 1 1


当然,平均数很容易理解。我们从这里开始。但是现在我们有两种不同的情况,你们必须弄清楚。一方面,我们可以从完成的试验中得到结果(样本值)。另一方面,我们可能从未来的试验中得到预期的结果(期望值)。让我举几个例子:

样本值 随机抽取 5 5 5 名新生,年龄分别为 18 、 17 、 18 、 19 、 17 18、17、18、19、17 1817181917
样本均值 1 5 ( 18 + 17 + 18 + 19 + 17 ) = 17.8 \frac{1}{5}(18 + 17 + 18 + 19 + 17) = 17.8 51(18+17+18+19+17)=17.8
概率 大一新生的年龄分别是 17 17 17 岁( 20 % 20\% 20%)、 18 18 18 岁( 50 % 50\% 50%)、 19 19 19 岁( 30 % 30\% 30%)。
随机选择一个大一新生的预期年龄 E [ x ] = ( 0.2 ) 17 + ( 0.5 ) 18 + ( 0.3 ) 19 = 18.1 \text{E}[x] = (0.2) 17 + (0.5) 18 + (0.3) 19 = 18.1 E[x]=(0.2)17+(0.5)18+(0.3)19=18.1

17.8 17.8 17.8 18.1 18.1 18.1 都是正确的平均值。样本均值 N N N 个采样点 x 1 , ⋯ , x N x_1, \cdots, x_N x1,,xN 从一个完成的试验开始。它们的平均值是 N N N 个观测样本的平均值:

样本均值 m = μ = 1 N ( x 1 + x 2 + ⋯ + x N ) (1) m = \mu = \frac{1}{N} (x_1 + x_2 + \cdots + x_N) \tag{1} m=μ=N1(x1+x2++xN)(1)

x x x 的期望值开始于年龄 x 1 , ⋯ , x n x_1, \cdots, x_n x1,,xn 的概率 p 1 , ⋯ , x n p_1, \cdots, x_n p1,,xn

期望值 m = E [ x ] = p 1 x 1 + p 2 x 2 + ⋯ + p n x n (2) m = \text{E}[x] = p_1 x_1 + p_2 x_2 + \cdots + p_n x_n \tag{2} m=E[x]=p1x1+p2x2++pnxn(2)

这就是 p ⋅ x p \cdot x px。注意 m = E [ x ] m = \text{E}[x] m=E[x] 告诉了我们期望什么, m = μ m= μ m=μ 告诉我们得到什么。


通过取很多样本(比如说一个很大的 N N N),样本结果将接近概率。“大数定律(Law of Large Numbers)”认为,随着样本量 N N N 的增加,样本均值以 1 1 1 的概率收敛于其期望值 E [ x ] \text{E}[x] E[x]。一枚均匀硬币出现背面的概率为 p 0 = 1 2 p_0=\frac{1}{2} p0=21,出现正面的概率为 p 1 = 1 2 p_1=\frac{1}{2} p1=21。然后 E [ x ] = ( 1 2 ) 0 + ( 1 2 ) 1 \text{E} [x] = (\frac{1}{2}) 0 + (\frac{1}{2}) 1 E[x]=(21)0+(21)1 N N N 次抛硬币中正面出现的比例是样本均值,接近期望 E [ x ] = 1 2 \text{E}[x] =\frac{1}{2} E[x]=21

这并不意味着如果我们看到的反面多于正面,那么下一个样本很可能是正面。几率仍然是 50 % 50\% 50%。前 100 100 100 次或 1000 1000 1000 次投掷确实会影响样本均值。但是 1000 1000 1000 次抛硬币不会影响它的极限——因为你要除以 N → ∞ N \rightarrow \infty N


Variance (around athe mean) 方差(接近均值)

方差 σ 2 \sigma^2 σ2 表示到期望均值 E [ x ] \text{E}[x] E[x] 的期望距离(平方)。样本方差 S 2 S^2 S2 表示离样本均值的实际距离(平方)。平方根是标准差 σ σ σ S S S

样本方差 S 2 = 1 N − 1 [ ( x 1 − m ) 2 + ⋯ + ( x N − m ) 2 ] (3) S^2 = \frac{1}{N-1} [(x_1-m)^2 + \cdots + (x_N-m)^2] \tag{3} S2=N11[(x1m)2++(xNm)2](3)

样本年龄 x = 18 , 17 , 18 , 19 , 17 x=18,17,18,19,17 x=18,17,18,19,17 有均值 m = 17.8 m = 17.8 m=17.8。样本有方差 0.7 0.7 0.7

S 2 = 1 5 − 1 [ ( . 2 ) 2 + ( − . 8 ) 2 + ( . 2 ) 2 + ( 1.2 ) 2 + ( − . 8 ) 2 ] = 1 4 ( 2.8 ) = 0.7 S^2 = \frac{1}{5-1} [(.2)^2 + (-.8)^2 + (.2)^2 + (1.2)^2 + (-.8)^2] = \frac{1}{4}(2.8) = 0.7 S2=511[(.2)2+(.8)2+(.2)2+(1.2)2+(.8)2]=41(2.8)=0.7

当我们计算平方时,负号消失了。请注意!统计学家除以 N − 1 = 4 N - 1 = 4 N1=4(而不是 N = 5 N = 5 N=5),因此 S 2 S^2 S2 σ 2 \sigma^2 σ2 的无偏估计。样本均值中已经包含了一个自由度。

一个重要的恒等式来自于将每个 ( x − m ) 2 (x-m)^2 (xm)2 分成 x 2 − 2 m x + m 2 x^2- 2mx + m^2 x22mx+m2

sum of  ( x i − m ) 2 = ( sum of  x i 2 ) + 2 m ( sum of  x i ) + ( sum of  m 2 ) = ( sum of  x i 2 ) + 2 m ( N m ) + N m 2 sum of  ( x i − m ) 2 = ( sum of  x i 2 ) − N m 2 (4) \begin{aligned} \text{sum of } (x_i - m)^2 &= (\text{sum of } x_i^2) + 2m(\text{sum of } x_i) + (\text{sum of } m^2) \\ &= (\text{sum of } x_i^2) + 2m(Nm) + N m^2 \\ \text{sum of } (x_i - m)^2 &= (\text{sum of } x_i^2) - N m^2 \end{aligned} \tag{4} sum of (xim)2sum of (xim)2=(sum of xi2)+2m(sum of xi)+(sum of m2)=(sum of xi2)+2m(Nm)+Nm2=(sum of xi2)Nm2(4)

这是一个通过添加 x 1 2 + ⋯ + x N 2 x_1^2 + \cdots + x_N^2 x12++xN2 来找寻 ( x 1 − m ) 2 + ⋯ + ( x N − m ) (x_1-m)^2+\cdots+(x_N-m) (x1m)2++(xNm) 的等价方式。


现在从概率 p i p_i pi (绝不会是负值)开始,而不再是样本。我们找到期望值而不是样本值。方差 σ 2 \sigma^2 σ2 是统计学中的关键数字。

方差 σ 2 = E [ ( x − m ) 2 ] = p 1 ( x 1 − m ) 2 + ⋯ + p n ( x n − m ) 2 (5) \sigma^2 = \text{E} [(x-m)^2] = p_1 (x_1-m)^2 + \cdots + p_n (x_n-m)^2 \tag{5} σ2=E[(xm)2]=p1(x1m)2++pn(xnm)2(5)

我们对期望值 m = E [ x ] m = \text{E}[x] m=E[x] 的距离进行平方。我们没有样本,只期望。我们知道概率,但我们不知道实验结果。


Continuous Probability Distributions 连续概率分布

到目前为止,我们有 n n n 种可能的结果 x 1 , ⋯ , x n x_1,\cdots,x_n x1,,xn。如果样本年龄为 17 、 18 、 19 17、18、19 171819 岁时,只有 n = 3 n = 3 n=3。如果我们用天而不是年来衡量年龄,那么就会有一千种可能的年龄(太多了)。最好允许 17 17 17 20 20 20 岁之间的每个数字——一个可能年龄的连续体。那么年龄 x 1 , x 2 , x 3 x_1, x_2, x_3 x1,x2,x3 岁的概率 p 1 , p 2 , p 3 p_1, p_2, p_3 p1,p2,p3 必须移动到概率分布(probability distribution) p ( x ) p(x) p(x) 17 ≤ x ≤ 20 17 \le x \le 20 17x20 的连续范围内。

解释概率分布的最好方法是举两个例子。它们是均匀分布(uniform distribution)正态分布(normal distribution)。均匀分布很容易。正态分布非常重要。


均匀分布

假设年龄均匀分布在 17.0 17.0 17.0 20.0 20.0 20.0 之间。这些数字之间的所有年龄都是“同等可能的”。当然,任何一个确切的年龄都没有机会。你得到 x = 17.1 x = 17.1 x=17.1 x = 17 + 2 x=17+ \sqrt{2} x=17+2 的概率为零。你可以真实地提供(假设我们的均匀分布)一个新生年龄小于 x x x 的概率 F ( x ) F(x) F(x)

年龄小于 x = 17 x=17 x=17 的概率为 F ( 17 ) = 0 F(17)=0 F(17)=0 x ≤ 17 x\le 17 x17 永远不会发生
年龄小于 x = 20 x=20 x=20 的概率为 F ( 20 ) = 1 F(20)=1 F(20)=1 x ≤ 20 x\le 20 x20 会发生
年龄小于 x x x 的概率为 F ( x ) = 1 3 ( x − 17 ) F(x)=\frac{1}{3}(x-17) F(x)=31(x17) F F F 0 0 0 1 1 1

公式 F ( x ) = 1 3 ( x − 17 ) F(x) = \frac{1}{3}(x-17) F(x)=31(x17) 给出在 x = 17 x= 17 x=17 F = 0 F = 0 F=0;那么 x < 17 x < 17 x<17 就不会发生。它给出在 x = 20 x= 20 x=20 F ( x ) = 1 F(x)=1 F(x)=1;那么 x ≤ 20 x \le 20 x20 是肯定的。在 17 17 17 20 20 20 之间,这个均匀模型的累积分布(cumulative distribution) F ( x ) F(x) F(x) 的图呈线性增长。


画出 F ( x ) F(x) F(x) 的图和它的导数 p ( x ) = p(x) = p(x)= 概率密度函数(probability density function)。

在这里插入图片描述

你可以说 p ( x ) d x p(x) \text{d}x p(x)dx 是样本落在 x x x x + d x x+\text{d}x x+dx 之间的概率。这是极其真实的(infinitesimally true): p ( x ) d x p(x) \text{d}x p(x)dx 等于 F ( x + d x ) − F ( x ) F(x+\text{d}x) - F(x) F(x+dx)F(x)。以下是完整描述:

F = integral of  p Probability of a ≤ x ≤ b = ∫ a b p ( x ) d x = F ( b ) − F ( a ) (6) F = \text{integral of } p \quad \text{ Probability of} a \le x \le b = \int_{a}^{b} p(x) \text{d}x = F(b) - F(a) \tag{6} F=integral of p Probability ofaxb=abp(x)dx=F(b)F(a)(6)

F ( b ) F(b) F(b) x ≤ b x \le b xb 的概率。我减去 F ( a ) F(a) F(a) 使 x ≥ a x \ge a xa 保持不变。这样有 a ≤ x ≤ b a \le x \le b axb


Mean and Variance of p ( x ) p(x) p(x) p ( x ) p(x) p(x) 的均值和方差

一个概率分布的均值 m m m 和方差 σ 2 \sigma^2 σ2 是多少?之前我们添加了 p i x i p_i x_i pixi 来获得均值(期望均值)。对于一个连续分布我们对 x p ( x ) x p(x) xp(x) 积分:

均值 m = E [ x ] = ∫ x p ( x ) d x = ∫ x = 17 20 ( x ) ( 1 3 ) d x = 18.5 m = \text{E}[x] = \int x p(x) \text{d} x = \int_{x=17}^{20} (x) (\frac{1}{3}) \text{d}x = 18.5 m=E[x]=xp(x)dx=x=1720(x)(31)dx=18.5

对于均匀分布,均值 m m m 介于 17 17 17 20 20 20 之间。那么随机值 x x x 低于中点 m = 18.5 m = 18.5 m=18.5 的概率为 F ( m ) = 1 2 F(m) = \frac{1}{2} F(m)=21


Normal Distribution: Bell-shaped Curve

N Coin Flips and N → ∞ N \rightarrow \infty N

Monte Carlo Estimation Methods

Review: Three Formulas for the Mean and the Variance


12.2 Covariance Matrices and Joint Probabilities

12.3 Multivariate Gaussian and Weighted Least Squares

\begin{aligned} \end{aligned}

Ref

  1. Introduction to Linear Algebra - GILBERT STRANG
  2. 为什么分母从n变成n-1之后,就从【有偏估计】变成了【无偏估计】?

http://www.lryc.cn/news/108124.html

相关文章:

  • webshell详解
  • 数据结构 | 搜索和排序——搜索
  • 【python】对象
  • k8s概念-污点与容忍
  • “从零开始学习Spring Boot:构建高效、可扩展的Java应用程序“
  • 通向架构师的道路之tomcat集群
  • 结构体,枚举,联合大小的计算规则
  • Vue2 第十七节 Vue中的Ajax
  • ES6 - 字符串新增的一些常用方法
  • 最新SQLMap安装与入门技术
  • Java 使用 Google Guava 实现接口限流
  • 帮助中心的价值是什么?怎样才能在线搭建官网网站帮助中心?
  • Kubernetes——理论基础
  • 【VUE3】
  • 《金融数据保护治理白皮书》发布(137页)
  • 上海亚商投顾:沪指震荡微涨 金融、地产午后大幅走强
  • Linux文件管理知识:查找文件
  • 【TypeScript】安装的坑!
  • spring boot 2.x 使用 jpa 映射 json mysql列数据映射乱码
  • 创建Helm脚本
  • 2.05 购物车后台刷新并显示
  • 2023年第四届“华数杯”数学建模思路 - 案例:异常检测
  • inline的盒子设置transform不生效
  • 自然语言处理学习笔记(四)————词典分词
  • jsoncpp库和nlohmann-json库实现JSON与字符串类型转换
  • 20230803 函数传参引用
  • IDEA SpringBoot项目引入外部jar并打包
  • ModaHub魔搭社区——阿里云通义千问宣布开源!70亿参数模型上线魔搭社区,免费可商用
  • Jenkins 自动化部署实例讲解,另附安装教程!
  • arcgis字段计算器