【小白学机器学习24】 用例子来比较:无偏估计和有偏估计
目录
1 关于无偏估计
1.1 无偏估计的定义
2 原始数据
2.1 假设我们是上帝,我们能创造一个总体/母体 population
2.2 按尽量随机取样的原则去取1个随机样本 sample1
3 一个关于无偏估计的理解
3.1 接着上面的总体和样本 sample1
3.2 左边的计算,期望是有偏的
3.3 右边的计算,期望是无偏的
3.4 差别和原因:
3.5 反思
4 思考:应该有其他办法保证 样本的均值无偏
4.1最大似然估计法:
4.2 样本方差 与无偏估计
1 关于无偏估计
1.1 无偏估计的定义
- 估计量的数学期望等于被估计参数的真实值,则称此估计量为被估计参数的无偏估计,即具有无偏性
无偏估计是用样本统计量来估计总体参数时的一种无偏推断。估计量的数学期望等于被估计参数的真实值,则称此估计量为被估计参数的无偏估计,即具有无偏性,是一种用于评价估计量优良性的准则。无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值。无偏估计常被应用于测验分数统计中。
下面是我自己搞的一个简单推理过程
2 原始数据
2.1 假设我们是上帝,我们能创造一个总体/母体 population
设计一个总体:在min~ max 产生一堆随机值
具体落地:
- 设计一个只包含int的整体。
- 在excel用公式RANDBETWEEN(E$1,E$2), min=10,max=20 生成了2000个数,作为总体
- 其中 mean=14.8805
- 注意EXCEL的随机公式每次保存都重算,所以先粘贴一列随机数保持不变。
2.2 按尽量随机取样的原则去取1个随机样本 sample1
随机取样,需要每个元素有平等的机会,而不是随便取样!
随机取样方法
- 样本的取法1:从总体里按等距的方法,取10个序号,拿出对应的数字,INDEX(B:B,MATCH(N4,A:A,0))
- 样本的取法2:从总体里取10个出来,random(1,2000) 序号应该也可以
- 样本的取法3: 写一个min max随机的单独的函数, 好像也可以吧,不过像是从更理想的总体,10-20均匀分布的总体里取得,我这个2000个数据得总体,每个整数必然不是完全等概率分布得
错误方法
- 随便取前10个数,这样的。。。。
3 一个关于无偏估计的理解
3.1 接着上面的总体和样本 sample1
- 取所有可能的数值(基本事件)
- 要计算期望/平均值,就需要知道概率
- 概率的计算有2种方式
- 方式1:一般我们不知道整体,只能假设整体是平均分布的,按等概率算
- 方式2:假设我们知道总体情况, 按我设计的2000个总体里不同数字出现的真实频度,作为真实的概率
3.2 左边的计算,期望是有偏的
- 计算期望
- 取每个基本事件:每个可能出现的数字int
- 一般我们不知道整体,只能假设整体是平均分布的,按等概率算,得到样本期望15
- 但是总体期望14.8805,两者有差异
3.3 右边的计算,期望是无偏的
- 计算期望
- 取每个基本事件:每个可能出现的数字int
- 假设我们知道总体情况, 按我设计的2000个总体里不同数字出现的真实频度,作为真实的概率,得到样本期望14.8805
- 但是总体期望14.8805,两者一样,无偏
3.4 差别和原因:
- 这样看来,无偏估计是很难的,需要知道真实的整体。
- 但是我这里的例子特殊,因为,样本是我这个假装的上帝设计的。并不是真正的现实中,那种不可完全认识的总体!
- 所以无偏估计,就要求,能完全模拟整体,越像整体,估计越是无偏的!
3.5 反思
- 但是一般情况下,我们假设真实的整体符合概率规律,如等概率更科学,比例子里的2000整体更科学。因为现实里我们永远不知道真实的总体到底多大,具体的概率分布细节。只可能知道样本的情况。这个有点上帝视角了。
- 如果知道了总体(即使是人为,人造的命题,比如本例),就用总体的概率, 分布去计算,样本的误差才会无偏
4 思考:应该有其他办法保证 样本的均值无偏
4.1最大似然估计法:
- 最大似然估计法是基于似然函数的性质来求解无偏估计量的。
- 似然函数是指在给定样本的情况下,总体参数取某个特定值时的概率密度函数。
- 最大似然估计法的基本思想是:在所有可能的总体参数值中,选择使得似然函数值最大的那个值作为总体参数的估计值
网上搜了下没看懂
4.2 样本方差 与无偏估计
样本方差要 /(n-1) 而不是/n ,就是为了获得无偏估计
- 主要取决于我们是否知道总体均数
- 如果知道总体均数,那么就除以n;
- 如果不知道总体均数,而只能用样本均数代替,那么就除以n-1。
Pearson相关系数
- Pearson相关系数是用来衡量两个变量之间线性相关程度的统计量。
- X和Y是两个变量,ρ是相关系数,cov是协方差,σ是标准差: