当前位置：首页 > news >正文

【小白学机器学习24】用例子来比较：无偏估计和有偏估计

news 2025/6/27 11:29:26

目录

1 关于无偏估计

1.1 无偏估计的定义

2 原始数据

2.1 假设我们是上帝，我们能创造一个总体/母体 population

2.2 按尽量随机取样的原则去取1个随机样本 sample1

3 一个关于无偏估计的理解

3.1 接着上面的总体和样本 sample1

3.2 左边的计算，期望是有偏的

3.3 右边的计算，期望是无偏的

3.4 差别和原因：

3.5 反思

4 思考：应该有其他办法保证样本的均值无偏

4.1最大似然估计法：

4.2 样本方差与无偏估计

1 关于无偏估计

1.1 无偏估计的定义

估计量的数学期望等于被估计参数的真实值，则称此估计量为被估计参数的无偏估计，即具有无偏性

无偏估计是用样本统计量来估计总体参数时的一种无偏推断。估计量的数学期望等于被估计参数的真实值，则称此估计量为被估计参数的无偏估计，即具有无偏性，是一种用于评价估计量优良性的准则。无偏估计的意义是：在多次重复下，它们的平均数接近所估计的参数真值。无偏估计常被应用于测验分数统计中。

下面是我自己搞的一个简单推理过程

2 原始数据

2.1 假设我们是上帝，我们能创造一个总体/母体 population

设计一个总体：在min~ max 产生一堆随机值

具体落地：

设计一个只包含int的整体。
在excel用公式RANDBETWEEN(E$1,E$2)， min=10,max=20 生成了2000个数，作为总体
其中 mean=14.8805
注意EXCEL的随机公式每次保存都重算，所以先粘贴一列随机数保持不变。

2.2 按尽量随机取样的原则去取1个随机样本 sample1

随机取样，需要每个元素有平等的机会，而不是随便取样！

随机取样方法

样本的取法1：从总体里按等距的方法，取10个序号，拿出对应的数字，INDEX(B:B,MATCH(N4,A:A,0))
样本的取法2：从总体里取10个出来，random(1,2000) 序号应该也可以
样本的取法3：写一个min max随机的单独的函数，好像也可以吧，不过像是从更理想的总体，10-20均匀分布的总体里取得，我这个2000个数据得总体，每个整数必然不是完全等概率分布得

错误方法

随便取前10个数，这样的。。。。

3 一个关于无偏估计的理解

3.1 接着上面的总体和样本 sample1

取所有可能的数值（基本事件）
要计算期望/平均值，就需要知道概率
概率的计算有2种方式

方式1：一般我们不知道整体，只能假设整体是平均分布的，按等概率算
方式2：假设我们知道总体情况，按我设计的2000个总体里不同数字出现的真实频度，作为真实的概率

3.2 左边的计算，期望是有偏的

计算期望
取每个基本事件：每个可能出现的数字int
一般我们不知道整体，只能假设整体是平均分布的，按等概率算，得到样本期望15
但是总体期望14.8805，两者有差异

3.3 右边的计算，期望是无偏的

计算期望
取每个基本事件：每个可能出现的数字int
假设我们知道总体情况，按我设计的2000个总体里不同数字出现的真实频度，作为真实的概率，得到样本期望14.8805
但是总体期望14.8805，两者一样，无偏

3.4 差别和原因：

这样看来，无偏估计是很难的，需要知道真实的整体。
但是我这里的例子特殊，因为，样本是我这个假装的上帝设计的。并不是真正的现实中，那种不可完全认识的总体！
所以无偏估计，就要求，能完全模拟整体，越像整体，估计越是无偏的！

3.5 反思

但是一般情况下，我们假设真实的整体符合概率规律，如等概率更科学，比例子里的2000整体更科学。因为现实里我们永远不知道真实的总体到底多大，具体的概率分布细节。只可能知道样本的情况。这个有点上帝视角了。
如果知道了总体（即使是人为，人造的命题，比如本例），就用总体的概率, 分布去计算，样本的误差才会无偏

4 思考：应该有其他办法保证样本的均值无偏

4.1最大似然估计法：

最大似然估计法是基于似然函数的性质来求解无偏估计量的。
似然函数是指在给定样本的情况下，总体参数取某个特定值时的概率密度函数。
最大似然估计法的基本思想是：在所有可能的总体参数值中，选择使得似然函数值最大的那个值作为总体参数的估计值

网上搜了下没看懂

4.2 样本方差与无偏估计

样本方差要 /(n-1) 而不是/n ，就是为了获得无偏估计

主要取决于我们是否知道总体均数
如果知道总体均数，那么就除以n；
如果不知道总体均数，而只能用样本均数代替，那么就除以n-1。

Pearson相关系数

Pearson相关系数是用来衡量两个变量之间线性相关程度的统计量。
X和Y是两个变量，ρ是相关系数，cov是协方差，σ是标准差：

http://www.lryc.cn/news/469013.html

相关文章：

C++在实际项目中的应用第二节：C++与网络编程

依赖关系是危险的

ipguard与Ping32如何加密数据防止泄露？让企业信息更安全

gitlab 的备份与回复

创建型模式-----建造者模式

威胁 Windows 和 Linux 系统的新型跨平台勒索软件：Cicada3301

Go 语言基础教程：7.Switch 语句

mysql原理、部署mysql主从+读写分离、监控mysql主从脚本

模型选择拟合

文案语音图片视频管理分析系统-视频矩阵

ArcGIS计算落入面图层中的线的长度或面的面积

ctfshow-web入门-web172

Keep健身TV版 3.3.0 | 针对智能电视的健身塑形软件

推荐一些关于计算机网络和 TCP/IP 协议的书籍

生成式AI浪潮下的商业机遇与经济展望 —— 与互联网时代的比较

AUTOSAR_EXP_ARAComAPI的6章笔记（5）

Photoshop中的混合模式公式详解

Vue 自定义指令 Directive 的高级使用与最佳实践

万字图文实战：从0到1构建 UniApp + Vue3 + TypeScript 移动端跨平台开源脚手架

在WebStorm遇到Error: error:0308010C:digital envelope routines::unsupported报错时的解决方案

数据库产品中SQL注入防护功能应该包含哪些功能

Ribbon客户端负载均衡策略测试及其改进

linux网络编程5——Posix API和网络协议栈，使用TCP实现P2P通信

低代码平台中的功能驱动开发：模块化与领域设计

HTTP和HTTPS基本概念，主要区别，应用场景

node.js使用Sequelize ORM操作数据库

STM32-Modbus协议(一文通)

100. 不同方向的投影视图

Appium中的api（三）