当前位置: 首页 > news >正文

【王木头】最大似然估计、最大后验估计

目录

一、最大似然估计(MLE)

二、最大后验估计(MAP)

三、MLE 和 MAP 的本质区别

四、当先验是均匀分布时,MLE 和 MAP 等价

五、总结


本文理论参考王木头的视频:

贝叶斯解释“L1和L2正则化”,本质上是最大后验估计。如何深入理解贝叶斯公式?_哔哩哔哩_bilibiliicon-default.png?t=O83Ahttps://www.bilibili.com/video/BV1fR4y177jP/?spm_id_from=333.999.0.0&vd_source=ecbdfcacb078d0e3626e61248866cdc7

一、最大似然估计(MLE)

先读文章,里面有最大似然估计的例子和分析。

【王木头·从感知机到神经网络】-CSDN博客icon-default.png?t=O83Ahttps://blog.csdn.net/m0_56997192/article/details/142876334?spm=1001.2014.3001.5502在最大似然估计中,有两个不严谨的地方:

1、在上文抛硬币的例子中,已有结果X,求某先验 \theta _{i} 的概率 P( \theta _{i}|X) ,在计算时我们把P( \theta _{i}|X) 假设为了 P(X|\theta _{i}) ,实际上P( \theta _{i}|X)\neq P(X|\theta _{i}),但我们最大似然确认为他们相等了,我们想要求的是已确定某个结果,哪个先验的情况下概率最大;但我们实际求的是某个先验时发生事件的概率的最大值,

即目的是求      max \ P( \theta _{i}|X)

但实际求的是   max \ P(X| \theta _{i})P(X| \theta _{i})被称为似然值或似然函数,记为L( \theta _{i}|X)

似然函数为:L_{X}(\theta )=L(\theta |X)=P(X|\theta )

最大似然估计为:\theta =arg\ \underset{\theta }{max}L(\theta |X)=arg\ \underset{\theta }{max}P(X|\theta )

想到这,我似乎想到了”似然“两个字的起名原因,我们要解决问题,就要求出P( \theta _{i}|X),但P( \theta _{i}|X)无法直接求出,所以我们选用了一个与 P( \theta _{i}|X)  “ 相似 ” 的 P(X|\theta _{i}),所以P(X|\theta _{i})叫做似然值,“ 相似 ”的对象是 P( \theta _{i}|X)

2、另一个王木头提到的是:

最大似然估计为:\theta =arg\ \underset{\theta }{max}L(\theta |X)=arg\ \underset{\theta }{max}P(X|\theta )中的 \theta 是永远无法确定的,但我们把概率最大的 \theta 跳出来人为规定他就是系统本来就有的属性,这个点我不理解,不过我感觉没什么用。

二、最大后验估计(MAP)

在最大似然估计中,有一个不严谨的地方是让 P( \theta _{i}|X)= P(X|\theta _{i}),实际上他们是不相等的,我们要求的是 P( \theta _{i}|X) 但最大似然估计中求的是最大的 P(X|\theta _{i}) ,最大后验估计解决了这个不严谨的问题。即由贝叶斯公式:

将不能计算的 P( \theta|X) 转化为   

                                                ​​​​​​​        ​​​​​​​        p(\theta | X) = \frac{p(X | \theta) p(\theta)}{p(X)}

其中:

  • p(X | \theta) 是似然函数;
  • p(\theta) 是先验分布;
  • pp(X) 是边际似然(可以视为常数,与优化无关)。

因此,MAP估计的目标可以等价于最大化 p(X | \theta) p(\theta)

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        \hat{\theta}_{\text{MAP}} = \arg\max_{\theta} p(X|\theta) p(\theta)

在对数形式下,MAP可以写成:

        ​​​​​​​        ​​​​​​​        \hat{\theta}_{\text{MAP}} = \arg\max_{\theta} \left( \log p(X|\theta) + \log p(\theta) \right)

最大后验估计MAP的特点:

  • 考虑先验信息:MAP结合了观测数据和参数的先验知识。先验信息通过 p(\theta) 反映了我们对参数可能取值的先验信念。
  • 贝叶斯统计:MAP是贝叶斯估计方法的一种,将参数视为随机变量,通过观测数据更新我们对参数的信念。
  • 适用于小样本数据:MAP可以在样本较少的情况下引入先验信息,提供稳定的估计。

三、MLE 和 MAP 的本质区别

从本质上来说,MLE 和 MAP 的主要区别在于:

  • 先验的使用

    • MLE 只基于数据的似然函数进行参数估计,不考虑任何先验信息。
    • MAP 则通过先验分布 p(\theta) 将先验信息纳入估计中,因此 MAP 是贝叶斯估计的一种。
  • 适用场景的差异

    • MLE 在大样本情况下表现很好,因为在大样本极限下,观测数据对估计的影响远大于先验。
    • MAP 更适合小样本或需要引入先验信息的情况,因为先验可以在样本较少时提供稳定性,避免估计过于依赖有限的观测数据。
  • 计算的差异

    • MLE 的目标是最大化似然函数 p(X|\theta)
    • MAP 的目标是最大化后验概率 p(\theta|X),相当于最大化 p(X|\theta) p(\theta)

四、当先验是均匀分布时,MLE 和 MAP 等价

值得注意的是,如果先验分布 p(\theta) 是均匀的(即假设所有参数值的先验概率相同),则 p(\theta) 是一个常数,这样 MAP 的目标函数就变为:

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        \hat{\theta}_{\text{MAP}} = \arg\max_{\theta} p(X|\theta) \times 常数

在这种情况下,最大化  (p(X|\theta) \times 常数)    等价于最大化 p(X|\theta),因此 MAP 和 MLE 会得到相同的结果。

这意味着,在没有先验或先验均匀的情况下,MAP 退化为 MLE。因此,MAP 可以被视为 MLE 的一种推广,它允许我们在估计中融入先验信息。

五、总结

本质区别在于:

  • 最大似然估计MLE  只依赖数据的似然,不使用先验,是一种频率派的估计方法
  • 最大后验估计MAP  同时考虑数据的似然和参数的先验信息,是一种贝叶斯派的估计方法

总结公式

  • 最大似然估计MLE\hat{\theta}_{\text{MLE}} = \arg\max_{\theta} p(X|\theta)
  • 最大后验估计MAP\hat{\theta}_{\text{MAP}} = \arg\max_{\theta} p(X|\theta) p(\theta)

在有先验信息的情况下,MAP 能够更好地利用先验信息对估计进行约束,而 MLE 则完全依赖观测数据。

http://www.lryc.cn/news/481351.html

相关文章:

  • 智谱AI视频生成模型CogVideoX v1.5开源 支持5/10秒视频生成
  • 算法(第一周)
  • Linux服务器进程的控制与进程之间的关系
  • 机器学习Housing数据集
  • 随着最新的补丁更新,Windows 再次变得容易受到攻击
  • 【Python】爬虫通过验证码
  • dc-aichat(一款支持ChatGPT+智谱AI+讯飞星火+书生浦语大模型+Kimi.ai+MoonshotAI+豆包AI等大模型的AIGC源码)
  • 检索增强生成
  • 操作系统--进程
  • abap 可配置通用报表字段级日志监控
  • OpenCV视觉分析之目标跟踪(11)计算两个图像之间的最佳变换矩阵函数findTransformECC的使用
  • PGMP-串串0203 项目集管理绩效域战略一致性
  • HiveMetastore 的架构简析
  • 【WRF模拟】全过程总结:WPS预处理及WRF运行
  • linux基础理解和使用 iptables 防火墙
  • 【系统架构设计师】2024年下半年真题论文: 论软件维护及其应用(包括参考素材)
  • 【数学二】线性代数-矩阵-初等变换、初等矩阵
  • MinerU容器构建教程
  • BFS 解决拓扑排序
  • MySQL 程序设计课程复习大纲
  • C++ : STL容器(适配器)之stack、queue剖析
  • nuxt3安装pinia报错500[vite-node] [ERR_LOAD_URL]问题解决
  • 青少年编程能力等级测评CPA试卷(2)Python编程(一级)
  • wordpress判断page页与非page页
  • JavaScript 库-qs的使用
  • Leetcode 两数之和 Ⅱ - 输入有序数组
  • 多处理器一致协议(MSI)协议详细介绍
  • SSH实验5密钥登录Linuxroot用户(免密登录)
  • 2024 网鼎杯 - 青龙组 Web WP
  • ORACLE 闪回技术简介