当前位置: 首页 > news >正文

【小白学机器学习31】 大数定律,中心极限定理,标准正态分布与概率的使用

目录

1 正态分布相关的2个相关定理

1.1 大数定律:(证明了)分布的稳定性

1.2 中心极限定理:(证明了)分布的收敛性

2 使用标准差和概率的2种思路

2.1 标准正态分布的曲线

2.2 两种使用方式

2.3 第1种:按整数倍标准差δ 作为标准使用

2.3.1   比如3δ原则 /6西格玛管理

2.3.2 还有LCL, UCL管理

2.2 第2种:按比较整的概率如95%对应的标准差使用

3 应用举例1

4 应用举例2:造成误差的原因不是样本数占总体的比例,而是样本的绝对数量!


关于正态分布,具体应用

1 正态分布相关的2个相关定理

1.1 大数定律:(证明了)分布的稳定性

  • 大量试验结果稳定性
  • 频率的稳定性,
  • 伯努利大数定律:样本数多n变大,某个事件发生的频度 =单次试验内发生的概率
  • 泊松大数定律:   样本数多n变大,样本平均值估计 =总体平均值

1.2 中心极限定理:(证明了)分布的收敛性

  • 分布的收敛性
  • 随机变量(如多次取样的均值)会逐渐符合某一分布:正态分布
  • 二项分布的极限分布是正态分布
  • 无论一组变量独立同分布,不管本身符合什么分布,但是有u和 δ^2。这组变量的样本平均数(多次抽样的平均数分分布)就服从 u和 δ^2/N的正态分布

2 使用标准差和概率的2种思路

2.1 标准正态分布的曲线

  • 标准正态分布曲线,曲线下的面积可以表示概率
  • 曲线上的每个点,都是Xi值的标准值
  • 标准值=xi-u/sd

2.2 两种使用方式

  • 我们根据不同的需要,确定了我们使用 2δ 还是2.58δ
  • 如果有可能,我们使用其他标准的δ 都有可能,关键是根据需求来
  1. 当我们需要以整数δ为标准来看概率时,选择 δ,2δ,3δ等
  2. 当我们需要以比较整的概率时比如95%,99%时,比如做假设检验的适合,选择 1.96δ,2.58δ等

2.3 第1种:按整数倍标准差δ 作为标准使用

按照 -3δ,-2δ,-1δ,1δ,2δ,3δ 这样的整数倍δ来划分区间

  • 3δ,49.8%,99.99%
  • 2.58δ,49.5%,99%
  • 2δ,47.7%,95.45%
  • 1.96δ,47.5%,95%
  • δ,34.1%,68.5%
  • -δ,34.1%,68.5%
  • -1.96δ,47.5%,95%
  • -2δ,47.7%,95.45%
  • -2.58δ,49.5%,99%
  • -3δ,49.8%,99.99%

2.3.1   比如3δ原则 /6西格玛管理

  • 标准正态分布与概率,3δ原则
  • 不同的标准差δ对应不同的概率
  • 按照几倍δ,去找对应的概率,68.5%,95.45%,99.99%等


2.3.2 还有LCL, UCL管理

  • LCL“Low control limit  一般对应-3δ
  • UCL:UP control limit    一般对应+3δ

2.2 第2种:按比较整的概率如95%对应的标准差使用

按概率 90% 95% 99%等比较整的概率去划分标准正态分布的区间

  • 3δ,49.8%,99.99%
  • 2.58δ,49.5%,99%
  • 2δ,47.7%,95.45%
  • 1.96δ,47.5%,95%
  • δ,34.1%,68.5%
  • -δ,34.1%,68.5%
  • -1.96δ,47.5%,95%
  • -2δ,47.7%,95.45%
  • -2.58δ,49.5%,99%
  • -3δ,49.8%,99.99%


 

3 应用举例1

  • 使用样本均值 + 总体的标准差,去估计 总体均值的范围
  • 使用样本均值 + 总体的标准差(样本标准差),去估计 总体均值的范围

我们如果只有1个样本,少数样本,虽然不能直接推算总体样本,但是可以这么估计范围。
比如在95%区间内
总体均值-1.96*标准差/sqrt(n) <= 样本平均值<=总体均值-1.96*标准差/sqrt(n)
因此
总体平均值<=样本平均值+1.96*标准差/sqrt(n)
总体平均值>=样本平均值-1.96*标准差/sqrt(n)

当样本数量n一直增大后
总体平均值<=样本平均值+1.96*标准差/sqrt(n)=样本平均值+0
总体平均值>=样本平均值-1.96*标准差/sqrt(n) =样本平均值-0
总体平均值=样本平均值

如果范围从95%→99%后,形象的看为什么置信区间变大了
总体平均值<=样本平均值+2.58 *标准差/sqrt(n)
总体平均值>=样本平均值-2.58 *标准差/sqrt(n)
范围变大,95%-99%,也就是置信区间变大了。而拒绝的空间α就很小了。

这个计算实际存在理论上的问题。但是实际上我们容易得到样本均值,但很难得到总体标准差,而如果用样本的标准差去替代总体的,也是个办法,因为样本方差的分母从N改为(N-1)=总体方差,所以还是可以行得通的,但是肯定是有误差的。

4 应用举例2:造成误差的原因​​​​​​​不是样本数占总体的比例,而是样本的绝对数量!

  • 一个更奇怪的公式
  • 95%时
  • 样本p-1.96*sqrt((N-n)/(N-1)*p*(1-p)/n) <总体P< 样本p+1.96*sqrt((N-n)/(N-1)*p*(1-p)/n)
  • 而(N-n)/(N-1) 样本数量n比较小时,趋近于1,故意忽略
  • 样本p-1.96*sqrt(p*(1-p)/n) <总体P< 样本p+1.96*sqrt(p*(1-p)/n)

  • 造成误差的原因
  • 不是样本数占总体的比例,而是样本的绝对数量!
  • 反常识!

http://www.lryc.cn/news/476417.html

相关文章:

  • Go语言基础语法
  • CSS层叠/CSS变量和!important的使用
  • 提升工作效率的小众神器
  • 【Python+Pycharm】2024-Python安装配置教程
  • systemverilog中clocking的用法
  • 【Python开发】大模型应用开发项目整理
  • Redis 的使⽤和原理
  • 前端学Java
  • VR游戏:多人社交将是VR的下一个风口
  • Docker与虚拟机(VM)的不同
  • Pr 视频效果:透视
  • C 语言标准库 - <limit.h>
  • Python | Leetcode Python题解之第519题随机翻转矩阵
  • 大数据新视界 -- 大数据大厂之提升 Impala 查询效率:索引优化的秘籍大揭秘(上)(3/30)
  • 【AI工作流】FastGPT - 深入解析FastGPT工作流编排:从基础到高级应用的全面指南
  • VS+Qt解决提升控件后,包含头文件格式不对问题处理
  • opencv - py_imgproc - py_filtering filtering 过滤-卷积平滑
  • 精华帖分享|缠论系列 -笔
  • Java项目实战II基于Spring Boot的文理医院预约挂号系统的设计与实现(开发文档+数据库+源码)
  • NumPy Ndarray学习
  • Browserslist 配置
  • vue2中的v-bind相当于原生js的什么
  • c语言-scanf函数的用法
  • AI带货主播插件开发之商品推荐模块!
  • 使用Nginx作为反向代理和负载均衡器
  • 【数据结构二叉树】C非递归算法实现二叉树的先序、中序、后序遍历
  • 解决网盘资源搜索难题的利器——全面解析哎哟喂啊盘搜及其优秀推荐平台
  • 草料二维码:低成本高效率的访客管理解决方案
  • qt管理系统框架(好看界面、漂亮界面、好看的界面、漂亮的界面)
  • 在VSCode中读取Markdown文件