当前位置: 首页 > news >正文

【小白学机器学习24】 用例子来比较:无偏估计和有偏估计

目录

1 关于无偏估计

1.1 无偏估计的定义

2 原始数据

2.1 假设我们是上帝,我们能创造一个总体/母体 population

2.2 按尽量随机取样的原则去取1个随机样本 sample1

3 一个关于无偏估计的理解

3.1 接着上面的总体和样本 sample1

3.2 左边的计算,期望是有偏的

3.3 右边的计算,期望是无偏的

3.4 差别和原因:

3.5 反思

4 思考:应该有其他办法保证 样本的均值无偏

4.1最大似然估计法:

4.2 样本方差 与无偏估计


1 关于无偏估计

1.1 无偏估计的定义

  • 估计量的数学期望等于被估计参数的真实值,则称此估计量为被估计参数的无偏估计,即具有无偏性

无偏估计是用样本统计量来估计总体参数时的一种无偏推断。估计量的数学期望等于被估计参数的真实值,则称此估计量为被估计参数的无偏估计,即具有无偏性,是一种用于评价估计量优良性的准则。无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值。无偏估计常被应用于测验分数统计中。

下面是我自己搞的一个简单推理过程

2 原始数据

2.1 假设我们是上帝,我们能创造一个总体/母体 population

设计一个总体:在min~ max 产生一堆随机值

具体落地:

  • 设计一个只包含int的整体。
  • 在excel用公式RANDBETWEEN(E$1,E$2), min=10,max=20 生成了2000个数,作为总体
  • 其中 mean=14.8805
  • 注意EXCEL的随机公式每次保存都重算,所以先粘贴一列随机数保持不变。

2.2 按尽量随机取样的原则去取1个随机样本 sample1

随机取样,需要每个元素有平等的机会,而不是随便取样!

随机取样方法

  • 样本的取法1:从总体里按等距的方法,取10个序号,拿出对应的数字,INDEX(B:B,MATCH(N4,A:A,0))
  • 样本的取法2:从总体里取10个出来,random(1,2000) 序号应该也可以
  • 样本的取法3: 写一个min max随机的单独的函数, 好像也可以吧,不过像是从更理想的总体,10-20均匀分布的总体里取得,我这个2000个数据得总体,每个整数必然不是完全等概率分布得        

错误方法

  • 随便取前10个数,这样的。。。。

          
3 一个关于无偏估计的理解

3.1 接着上面的总体和样本 sample1

  • 取所有可能的数值(基本事件)
  • 要计算期望/平均值,就需要知道概率
  • 概率的计算有2种方式
  1. 方式1:一般我们不知道整体,只能假设整体是平均分布的,按等概率算
  2. 方式2:假设我们知道总体情况, 按我设计的2000个总体里不同数字出现的真实频度,作为真实的概率

3.2 左边的计算,期望是有偏的

  • 计算期望
  • 取每个基本事件:每个可能出现的数字int
  • 一般我们不知道整体,只能假设整体是平均分布的,按等概率算,得到样本期望15
  • 但是总体期望14.8805,两者有差异

3.3 右边的计算,期望是无偏的

  • 计算期望
  • 取每个基本事件:每个可能出现的数字int
  • 假设我们知道总体情况, 按我设计的2000个总体里不同数字出现的真实频度,作为真实的概率,得到样本期望14.8805
  • 但是总体期望14.8805,两者一样,无偏

3.4 差别和原因:

  • 这样看来,无偏估计是很难的,需要知道真实的整体。
  • 但是我这里的例子特殊,因为,样本是我这个假装的上帝设计的。并不是真正的现实中,那种不可完全认识的总体!
  • 所以无偏估计,就要求,能完全模拟整体,越像整体,估计越是无偏的!

3.5 反思

  • 但是一般情况下,我们假设真实的整体符合概率规律,如等概率更科学,比例子里的2000整体更科学。因为现实里我们永远不知道真实的总体到底多大,具体的概率分布细节。只可能知道样本的情况。这个有点上帝视角了。
  • 如果知道了总体(即使是人为,人造的命题,比如本例),就用总体的概率, 分布去计算,样本的误差才会无偏

4 思考:应该有其他办法保证 样本的均值无偏

4.1最大似然估计法:

  • 最大似然估计法是基于似然函数的性质来求解无偏估计量的。
  • 似然函数是指在给定样本的情况下,总体参数取某个特定值时的概率密度函数。
  • 最大似然估计法的基本思想是:在所有可能的总体参数值中,选择使得似然函数值最大的那个值作为总体参数的估计值
     

网上搜了下没看懂

4.2 样本方差 与无偏估计

样本方差要 /(n-1) 而不是/n ,就是为了获得无偏估计

  • 主要取决于我们是否知道总体均数
  • 如果知道总体均数,那么就除以n;
  • 如果不知道总体均数,而只能用样本均数代替,那么就除以n-1。

Pearson相关系数

  • Pearson相关系数是用来衡量两个变量之间线性相关程度的统计量。
  • X和Y是两个变量,ρ是相关系数,cov是协方差,σ是标准差:

http://www.lryc.cn/news/469013.html

相关文章:

  • C++在实际项目中的应用第二节:C++与网络编程
  • 依赖关系是危险的
  • ipguard与Ping32如何加密数据防止泄露?让企业信息更安全
  • gitlab 的备份与回复
  • 创建型模式-----建造者模式
  • 威胁 Windows 和 Linux 系统的新型跨平台勒索软件:Cicada3301
  • Go 语言基础教程:7.Switch 语句
  • mysql原理、部署mysql主从+读写分离、监控mysql主从脚本
  • 模型选择拟合
  • 文案语音图片视频管理分析系统-视频矩阵
  • ArcGIS计算落入面图层中的线的长度或面的面积
  • ctfshow-web入门-web172
  • Keep健身TV版 3.3.0 | 针对智能电视的健身塑形软件
  • 推荐一些关于计算机网络和 TCP/IP 协议的书籍
  • 生成式AI浪潮下的商业机遇与经济展望 —— 与互联网时代的比较
  • Go 标准库
  • AUTOSAR_EXP_ARAComAPI的6章笔记(5)
  • Photoshop中的混合模式公式详解
  • Vue 自定义指令 Directive 的高级使用与最佳实践
  • 万字图文实战:从0到1构建 UniApp + Vue3 + TypeScript 移动端跨平台开源脚手架
  • 在WebStorm遇到Error: error:0308010C:digital envelope routines::unsupported报错时的解决方案
  • 数据库产品中SQL注入防护功能应该包含哪些功能
  • Ribbon客户端负载均衡策略测试及其改进
  • linux网络编程5——Posix API和网络协议栈,使用TCP实现P2P通信
  • 低代码平台中的功能驱动开发:模块化与领域设计
  • HTTP和HTTPS基本概念,主要区别,应用场景
  • node.js使用Sequelize ORM操作数据库
  • STM32-Modbus协议(一文通)
  • 100. 不同方向的投影视图
  • Appium中的api(三)