当前位置：首页 > news >正文

【小白学机器学习31】大数定律，中心极限定理，标准正态分布与概率的使用

news 2025/8/20 6:58:39

目录

1 正态分布相关的2个相关定理

1.1 大数定律：(证明了)分布的稳定性

1.2 中心极限定理：(证明了)分布的收敛性

2 使用标准差和概率的2种思路

2.1 标准正态分布的曲线

2.2 两种使用方式

2.3 第1种：按整数倍标准差δ 作为标准使用

2.3.1 比如3δ原则 /6西格玛管理

2.3.2 还有LCL, UCL管理

2.2 第2种：按比较整的概率如95%对应的标准差使用

3 应用举例1

4 应用举例2：造成误差的原因不是样本数占总体的比例，而是样本的绝对数量！

关于正态分布，具体应用

1 正态分布相关的2个相关定理

1.1 大数定律：(证明了)分布的稳定性

大量试验结果稳定性
频率的稳定性，
伯努利大数定律：样本数多n变大，某个事件发生的频度 =单次试验内发生的概率
泊松大数定律：样本数多n变大，样本平均值估计 =总体平均值

1.2 中心极限定理：(证明了)分布的收敛性

分布的收敛性
随机变量（如多次取样的均值）会逐渐符合某一分布：正态分布
二项分布的极限分布是正态分布
无论一组变量独立同分布，不管本身符合什么分布，但是有u和 δ^2。这组变量的样本平均数(多次抽样的平均数分分布)就服从 u和 δ^2/N的正态分布

2 使用标准差和概率的2种思路

2.1 标准正态分布的曲线

标准正态分布曲线，曲线下的面积可以表示概率
曲线上的每个点，都是Xi值的标准值
标准值=xi-u/sd

2.2 两种使用方式

我们根据不同的需要，确定了我们使用 2δ 还是2.58δ
如果有可能，我们使用其他标准的δ 都有可能，关键是根据需求来

当我们需要以整数δ为标准来看概率时，选择 δ，2δ，3δ等
当我们需要以比较整的概率时比如95%，99%时，比如做假设检验的适合，选择 1.96δ，2.58δ等

2.3 第1种：按整数倍标准差δ 作为标准使用

按照 -3δ，-2δ，-1δ，1δ，2δ，3δ 这样的整数倍δ来划分区间

3δ，49.8%，99.99%
2.58δ，49.5%，99%
2δ，47.7%，95.45%
1.96δ，47.5%，95%
δ，34.1%，68.5%
-δ，34.1%，68.5%
-1.96δ，47.5%，95%
-2δ，47.7%，95.45%
-2.58δ，49.5%，99%
-3δ，49.8%，99.99%

2.3.1 比如3δ原则 /6西格玛管理

标准正态分布与概率，3δ原则
不同的标准差δ对应不同的概率
按照几倍δ，去找对应的概率，68.5%，95.45%，99.99%等

2.3.2 还有LCL, UCL管理

LCL“Low control limit 一般对应-3δ
UCL：UP control limit 一般对应+3δ

2.2 第2种：按比较整的概率如95%对应的标准差使用

按概率 90% 95% 99%等比较整的概率去划分标准正态分布的区间

3δ，49.8%，99.99%
2.58δ，49.5%，99%
2δ，47.7%，95.45%
1.96δ，47.5%，95%
δ，34.1%，68.5%
-δ，34.1%，68.5%
-1.96δ，47.5%，95%
-2δ，47.7%，95.45%
-2.58δ，49.5%，99%
-3δ，49.8%，99.99%

3 应用举例1

使用样本均值 + 总体的标准差，去估计总体均值的范围
使用样本均值 + 总体的标准差（样本标准差），去估计总体均值的范围

我们如果只有1个样本，少数样本，虽然不能直接推算总体样本，但是可以这么估计范围。
比如在95%区间内
总体均值-1.96*标准差/sqrt(n) <= 样本平均值<=总体均值-1.96*标准差/sqrt(n)
因此
总体平均值<=样本平均值+1.96*标准差/sqrt(n)
总体平均值>=样本平均值-1.96*标准差/sqrt(n)

当样本数量n一直增大后
总体平均值<=样本平均值+1.96*标准差/sqrt(n)=样本平均值+0
总体平均值>=样本平均值-1.96*标准差/sqrt(n) =样本平均值-0
总体平均值=样本平均值

如果范围从95%→99%后，形象的看为什么置信区间变大了
总体平均值<=样本平均值+2.58 *标准差/sqrt(n)
总体平均值>=样本平均值-2.58 *标准差/sqrt(n)
范围变大，95%-99%，也就是置信区间变大了。而拒绝的空间α就很小了。

这个计算实际存在理论上的问题。但是实际上我们容易得到样本均值，但很难得到总体标准差，而如果用样本的标准差去替代总体的，也是个办法，因为样本方差的分母从N改为(N-1)=总体方差，所以还是可以行得通的，但是肯定是有误差的。

4 应用举例2：造成误差的原因不是样本数占总体的比例，而是样本的绝对数量！

一个更奇怪的公式
95%时
样本p-1.96*sqrt((N-n)/(N-1)*p*(1-p)/n) <总体P< 样本p+1.96*sqrt((N-n)/(N-1)*p*(1-p)/n)
而(N-n)/(N-1) 样本数量n比较小时，趋近于1，故意忽略
样本p-1.96*sqrt(p*(1-p)/n) <总体P< 样本p+1.96*sqrt(p*(1-p)/n)

造成误差的原因
不是样本数占总体的比例，而是样本的绝对数量！
反常识！

http://www.lryc.cn/news/476417.html

相关文章：

Go语言基础语法

CSS层叠/CSS变量和!important的使用

提升工作效率的小众神器

【Python+Pycharm】2024-Python安装配置教程

systemverilog中clocking的用法

【Python开发】大模型应用开发项目整理

Redis 的使⽤和原理

VR游戏：多人社交将是VR的下一个风口

Docker与虚拟机（VM）的不同

Pr 视频效果：透视

C 语言标准库 - ＜limit.h＞

Python | Leetcode Python题解之第519题随机翻转矩阵

大数据新视界 -- 大数据大厂之提升 Impala 查询效率：索引优化的秘籍大揭秘（上）（3/30）

【AI工作流】FastGPT - 深入解析FastGPT工作流编排：从基础到高级应用的全面指南

VS+Qt解决提升控件后，包含头文件格式不对问题处理

opencv - py_imgproc - py_filtering filtering 过滤-卷积平滑

精华帖分享｜缠论系列 -笔

Java项目实战II基于Spring Boot的文理医院预约挂号系统的设计与实现（开发文档+数据库+源码）

NumPy Ndarray学习

Browserslist 配置

vue2中的v-bind相当于原生js的什么

c语言-scanf函数的用法

AI带货主播插件开发之商品推荐模块!

使用Nginx作为反向代理和负载均衡器

【数据结构二叉树】C非递归算法实现二叉树的先序、中序、后序遍历

解决网盘资源搜索难题的利器——全面解析哎哟喂啊盘搜及其优秀推荐平台

草料二维码：低成本高效率的访客管理解决方案

qt管理系统框架（好看界面、漂亮界面、好看的界面、漂亮的界面）

在VSCode中读取Markdown文件