当前位置: 首页 > news >正文

非参数密度函数估计(1)

一、说明

非参数密度估计是一种估计随机变量概率密度函数的方法,无需假设分布的特定函数形式与需要选择特定分布(如正态分布或指数分布)的参数方法不同, 非参数方法直接从数据中估计密度,这使得它们更灵活但可能更复杂。

二、基本原理

   设X1,...,XnX_1,...,X_nX1...Xn是从分布P中抽取的样本,其密度为p。非参数密度估计的目标是在尽可能少地假设p的情况下估计p。我们用p^\hat{p}p^表示估计量。估计量通常依赖于调节参数h,谨慎选择h至关重要。为了强调对h的依赖性,有时我们写作p^h\hat{p}_hp^h。一个非常简单的非参数分布估计量就是经验分布:
Pn=1n∑i=1nδXiP_n = \frac{1}{n} \sum_{i=1}^{n}δ_{X_i}Pn=n1i=1nδXi
(关于经验分布参看:https://yamagota.blog.csdn.net/article/details/148089446?spm=1001.2014.3001.5502)

   但经验分布并不适合用来估计底层分布。它通过将所有概率质量集中在给定的训练点 {Xi} 上,对训练数据“过拟合”,甚至在非常接近的点上也没有任何质量。此外,它也没有密度。
   因此,通常在非参数密度估计中,我们指的是做一些更多的事情,特别是通过“平滑”经验分布 Pn\mathbb{P}_nPn。出于这个原因,非参数密度估计也经常被称为平滑。
∑ggl=1n\sum gg{l=1}{n}ggl=1n
∏i=1n∑i=1n\prod_{i=1}^n {\displaystyle \sum _{i=1}^{n}}i=1ni=1n
图1的左上图显示了密度

p(x)=12φ(x;0,1)+110∑i=04φ(x;(j/2)−1;1/10)p(x) = \frac{1}{2} φ(x; 0, 1) + \frac{1}{10} \sum _{i=0}^{4} φ(x; (j/2) -1;1/10)p(x)=21φ(x;0,1)+101i=04φ(x;(j/2)1;1/10)

其中φ(x; μ, σ)表示均值为μ,标准差为σ的正态密度。Marron和Wand(1992)称这种密度为爪形,但我们称之为巴特·辛普森密度(Bart Simpson density)。

   基于从p中抽取的1000个样本,我们计算了一个核密度估计器,将在后面描述。该估计器依赖于一个称为带宽的调节参数。右上图基于一个小带宽h,导致欠平滑。右下图基于一个大带宽h,导致过平滑。左下图基于一个选择以最小化估计风险的带宽h,这导致了一个更合理的密度估计。
在这里插入图片描述
图1:来自示例1的巴特·辛普森密度。左上:真实密度。其他图表是基于n=1000次抽样的核估计。左下:通过交叉验证选择的带宽h=0.05。右上:带宽h=10。右下:带宽10h。

二、非参数密度估计应用

密度估计可用于采样新点(参见此类采样在图像和文本领域涌现的创意应用,这些应用甚至可能令人担忧),更广泛地说,它为下游概率推理提供了数据的紧凑摘要。它还可以特别用于回归、分类和聚类。假设p(xy)是对p(xy)的估计。

  • 回归: 然后我们可以计算以下回归函数的估计值:
    在这里插入图片描述
  • 分类: 在进行分类时,回忆贝叶斯最优分类器。
    在这里插入图片描述
    其中π1 = P(Y = 1),π0 = P(Y = 0),p1(x) = p(x|y = 1) 和 p0(x) = p(x|y = 0)。将π1和π0的样本估计值以及p1和p0的概率密度估计值代入,可以得到贝叶斯分类器的估计值。许多你熟悉的分类器都可以用这种方式重新表达。
  • 聚类。在进行聚类时,我们寻找高密度区域,基于密度的估计。在讨论聚类时,我们将进一步探讨这一点。
  • 异常值检测。密度估计有时也用于寻找不寻常的观测值或离群点。这些是pb(Xi)非常小的观测值。
  • 两样本假设检验。密度估计可用于两样本测试。给定X1,...,Xn∼pX_1,...,X_n∼pX1...XnpY1,...,Ym∼qY_1,...,Y_m∼qY1...Ymq,我们可以使用D(p^,q^)D(\hat{p},\hat{q})D(p^q^)来测试H0:p=qH0:p=qH0p=q,其中D是一个发散度量作为检验统计量。

3 损失函数(Loss Functions)

最常用的损失函数是L2损失
在这里插入图片描述
其风险在于:
在这里插入图片描述
L2损失的一个关键优势是风险具有非常数学上方便的分解:
在这里插入图片描述
偏执项
在这里插入图片描述
方差项
在这里插入图片描述
估计器pb通常涉及以某种方式“平滑”经验分布。主要挑战在于确定要进行多少平滑处理。当数据过度平滑时,偏差项较大而方差较小。当数据不足平滑时,情况则相反。这被称为偏差-方差权衡。最小化风险对应于平衡偏差和方差。
德沃耶和吉尔菲(1985年)强烈主张使用L1范数
在这里插入图片描述
将损失替换为L2。L1损失具有以下良好的解释。如果P和Q是定义总变差度量的分布
在这里插入图片描述
其中上确界是针对所有可测集而言的。现在如果P和Q有密度p和q,那么
在这里插入图片描述
因此,如果 |p−q| < δ,那么我们知道对于所有A,|P(A)−Q(A)| < δ/2。此外,L1范数是变换不变的。假设T是一个一一光滑函数。设Y = T(X)。设p和q为X的概率密度函数,令pe和qe为Y对应的概率密度函数。
在这里插入图片描述
因此,距离不受变换的影响。在某种意义上,L1损失比L2损失更适合密度估计。但它更难处理。目前,我们将专注于L2损失。但以后我们可能会讨论L1损失。

另一种损失函数是Kullback-Leibler损失∫p(x)log(p(x)/q(x))dx∫p(x)log(p(x)/q(x))dxp(x)log(p(x)/q(x))dx。这并不是一个适合用于非参数密度估计的良好损失函数。原因是Kullback-Leibler损失完全被密度比的尾部所主导。
在一类密度函数P上的最小最大风险是
在这里插入图片描述
并且,如果一个估计器的风险等于最小最大风险,则称其为最小最大估计器。我们说pb是速率最优的如果
在这里插入图片描述
通常,最小最大速率的形式为n(−C/(C+d))n^{(-C/(C+d))}n(C/(C+d)),其中 C > 0。

(未完待续。。。。)

http://www.lryc.cn/news/599627.html

相关文章:

  • 职坐标解析:人工智能产业现状
  • C#(数据类型)
  • Swagger详解API 文档
  • C#(基本语法)
  • C语言中奇技淫巧04-仅对指定函数启用编译优化
  • 恋爱时间倒计时网页设计与实现方案
  • C#观察者模式示例代码
  • Idefics2:构建视觉-语言模型时,什么是重要的
  • ‌通向数字孪生的大门:掌握RVT到3DTiles的关键转换流程
  • 【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 主页-评论用户时间占比环形饼状图实现
  • 经验累积分布函数VS累积分布函数
  • Vue nextTick
  • 基于多模型AI训练与验证系统开发
  • 移动端设备能部署的llm
  • MC_GearInPos电子齿轮
  • Pytest tmp_path 实战指南:测试中的临时目录管理
  • 基于单片机的数字电压表设计
  • MyBatis-Plus 指南
  • 光耦合器:新能源世界的“绿色信使“
  • 全面解析MySQL(3)——CRUD进阶与数据库约束:构建健壮数据系统的基石
  • Krpano 工具如何调节全景图片切割之后的分辨率
  • 代码随想录算法训练营第三十一天
  • 卡尔曼滤波器噪声方差设置对性能影响的仿真研究
  • MATLAB 设置默认启动路径为上次关闭路径的方法
  • 【优选算法】链表
  • 从 SQL Server 到 KingbaseES V9R4C12,一次“无痛”迁移与深度兼容体验实录
  • UG创建的实体橘黄色实体怎么改颜色?
  • 每日算法-数组合并
  • [RPA] Excel中的字典处理
  • ubuntu22.04.4锁定内核应对海光服务器升级内核无法启动问题