当前位置: 首页 > news >正文

PRML笔记2-关于回归参数w的先验的理解

  接上篇,现在考虑给w\boldsymbol{w}w加入先验,考虑最简单的假设,也就是w\boldsymbol{w}w服从均值为0,协方差矩阵为α−1I\alpha^{-1}\boldsymbol{I}α1I的高斯分布。
p(w∣α)=N(w∣0,α−1I)=(α2π)(M+1)/2exp⁡{−α2wTw}\begin{aligned} p(\boldsymbol{w}|\alpha)&=\mathcal{N}(\boldsymbol{w}|0,\alpha^{-1}\boldsymbol{I})\\ &=(\frac{\alpha}{2\pi})^{(M+1)/2}\exp\{-\frac{\alpha}{2}\boldsymbol{w}^T\boldsymbol{w}\} \end{aligned} p(wα)=N(w∣0,α1I)=(2πα)(M+1)/2exp{2αwTw}我们一步一步看一下给定(x,t,α,β)(\boldsymbol{x},\boldsymbol{t},\alpha,\beta)(x,t,α,β)后,参数w\boldsymbol{w}w的概率
p(w∣t)=p(t∣w)p(w)p(t)p(w∣t,x,α,β)=p(t∣w,x,α,β)p(w∣x,α,β)p(t∣x,α,β)\begin{aligned} p(\boldsymbol{w}|\boldsymbol{t})&=\frac{p(\boldsymbol{t}|\boldsymbol{w})p(\boldsymbol{w})}{p(\boldsymbol{t})}\\ p(\boldsymbol{w}|\boldsymbol{t},\boldsymbol{x},\alpha,\beta)&=\frac{p(\boldsymbol{t}|\boldsymbol{w},\boldsymbol{x},\alpha,\beta)p(\boldsymbol{w}|\boldsymbol{x},\alpha,\beta)}{p(\boldsymbol{t}|\boldsymbol{x},\alpha,\beta)} \end{aligned} p(wt)p(wt,x,α,β)=p(t)p(tw)p(w)=p(tx,α,β)p(tw,x,α,β)p(wx,α,β)
由于α\alphaαttt独立,因此上式似然函数p(t∣w,x,α,β)=p(t∣w,x,β)p(\boldsymbol{t}|\boldsymbol{w},\boldsymbol{x},\alpha,\beta)=p(\boldsymbol{t}|\boldsymbol{w},\boldsymbol{x},\beta)p(tw,x,α,β)=p(tw,x,β),而w\boldsymbol{w}w的先验我们已经有了假设,因此得到书上的结果(此处个人理解):
p(w∣x,t,α,β)∝p(t∣x,w,β)p(w∣α)p(\boldsymbol{w}|\boldsymbol{x},\boldsymbol{t},\alpha,\beta)\propto p(\boldsymbol{t}|\boldsymbol{x},\boldsymbol{w},\beta)p(\boldsymbol{w}|\alpha) p(wx,t,α,β)p(tx,w,β)p(wα)
现在成了,我们最大化后验概率求w\boldsymbol{w}w,变成了最大化似然函数p(t∣x,w,β)p(\boldsymbol{t}|\boldsymbol{x},\boldsymbol{w},\beta)p(tx,w,β)和先验概率p(w∣α)p(\boldsymbol{w}|\alpha)p(wα)乘积的值。由于p(t∣x,w,β)=∏n=1NN(tn∣y(xn,w),β−1)=∏n=1N1(2π)12β−12exp(tn−y(xn,w))2−2β−1p(\boldsymbol{t}|\boldsymbol{x},\boldsymbol{w},\beta)=\prod_{n=1}^N\mathcal{N}(t_n|y(x_n,\boldsymbol{w}),\beta^{-1})=\prod_{n=1}^N\frac{1}{(2\pi)^{\frac{1}{2}}\beta^{-\frac{1}{2}}}exp{\frac{(t_n-y(x_n,\boldsymbol{w}))^2}{-2\beta^{-1}}}p(tx,w,β)=n=1NN(tny(xn,w),β1)=n=1N(2π)21β211exp2β1(tny(xn,w))2
p(w∣α)=N(w∣0,α−1I)=(α2π)(M+1)/2exp⁡{−α2wTw}\begin{aligned} p(\boldsymbol{w}|\alpha)&=\mathcal{N}(\boldsymbol{w}|0,\alpha^{-1}\boldsymbol{I})\\ &=(\frac{\alpha}{2\pi})^{(M+1)/2}\exp\{-\frac{\alpha}{2}\boldsymbol{w}^T\boldsymbol{w}\} \end{aligned} p(wα)=N(w∣0,α1I)=(2πα)(M+1)/2exp{2αwTw}
因此
p(t∣x,w,β)p(w∣α)=[∏n=1N1(2π)12β−12exp(tn−y(xn,w))2−2β−1](α2π)(M+1)/2exp⁡{−α2wTw}\begin{aligned} p(\boldsymbol{t}|\boldsymbol{x},\boldsymbol{w},\beta)p(\boldsymbol{w}|\alpha)& =\left[\prod_{n=1}^N\frac{1}{(2\pi)^{\frac{1}{2}}\beta^{-\frac{1}{2}}}exp{\frac{(t_n-y(x_n,\boldsymbol{w}))^2}{-2\beta^{-1}}}\right] \left(\frac{\alpha}{2\pi}\right)^{(M+1)/2}\exp\{-\frac{\alpha}{2}\boldsymbol{w}^T\boldsymbol{w}\} \end{aligned} p(tx,w,β)p(wα)=[n=1N(2π)21β211exp2β1(tny(xn,w))2](2πα)(M+1)/2exp{2αwTw}两边取ln可得
ln⁡p(t∣x,w,β)p(w∣α)=−β2∑n=1N{y(xn,w)−tn}2+N2ln⁡β−N2ln⁡(2π)+M+12ln⁡α−M+12ln⁡2π−α2wTw\begin{aligned} \ln{p}(\boldsymbol{t}|\boldsymbol{x},\boldsymbol{w},\beta)p(\boldsymbol{w}|\alpha) &=-\frac{\beta}{2}\sum_{n=1}^N\{y(x_n,\boldsymbol{w})-t_n\}^2+\frac{N}{2}\ln{\beta}-\frac{N}{2}\ln{(2\pi)} +\frac{M+1}{2}\ln{\alpha}-\frac{M+1}{2}\ln{2\pi}-\frac{\alpha}{2}\boldsymbol{w}^T\boldsymbol{w} \end{aligned} lnp(tx,w,β)p(wα)=2βn=1N{y(xn,w)tn}2+2Nlnβ2Nln(2π)+2M+1lnα2M+1ln2π2αwTw我们现在要找的是最可能的w\boldsymbol{w}w的值,因此只考虑与w\boldsymbol{w}w有关的部门,去掉常数可得:
ln⁡p(t∣x,w,β)p(w∣α)=−β2∑n=1N{y(xn,w)−tn}2−α2wTw\begin{aligned} \ln{p}(\boldsymbol{t}|\boldsymbol{x},\boldsymbol{w},\beta)p(\boldsymbol{w}|\alpha)&=-\frac{\beta}{2}\sum_{n=1}^N\{y(x_n,\boldsymbol{w})-t_n\}^2-\frac{\alpha}{2}\boldsymbol{w}^T\boldsymbol{w} \end{aligned} lnp(tx,w,β)p(wα)=2βn=1N{y(xn,w)tn}22αwTw这就相当于最小化
β2∑n=1N{y(xn,w)−tn}2+α2wTw\frac{\beta}{2}\sum_{n=1}^N\{y(x_n,\boldsymbol{w})-t_n\}^2+\frac{\alpha}{2}\boldsymbol{w}^T\boldsymbol{w} 2βn=1N{y(xn,w)tn}2+2αwTw

http://www.lryc.cn/news/14310.html

相关文章:

  • Selenium原理
  • Disconf、Apollo和Nacos分布式配置框架差异对比
  • 高新技术企业认定条件条件 高企认定要求
  • 华为OD机试 - 新学校选址(JavaScript) | 机试题+算法思路+考点+代码解析 【2023】
  • 二进制部署K8S
  • 高效获知Activity的生命周期
  • 分析现货黄金价格一般有什么方法
  • Spring中的拦截器
  • 【Linux操作系统】【综合实验四 Linux的编译环境及线程编程】
  • Switch 如何使用NSCB 转换XCI NSP NSZ教程
  • JVM12 字节码指令集
  • centos之python安装与多版本python之间的共存
  • SpringBoot学习笔记(一)
  • 美国原装KEYSIGHT E4981A(安捷伦) E4981A电容计
  • K8S的基础概念
  • 【数据结构】——环形队列
  • windows 安装Qt
  • spring cloud gateway集成sentinel并扩展支持restful api进行url粒度的流量治理
  • wafw00f工具
  • 论文阅读笔记-DiffusionInst: Diffusion Model for Instance Segmentation
  • 解决CondaUpgradeError网上的方法都不奏效(回退版本、upgrade/update都不行)的问题和CondaValueError
  • 基于某业务单登陆场景并发测试实战
  • JVM内存模型
  • 三、NetworkX工具包实战3——特征工程【CS224W】(Datawhale组队学习)
  • 分布式之Raft共识算法分析
  • 数据库——范式
  • Geospatial Data Science(2):Geospatial Data in Python
  • 16.hadoop系列之MapReduce之MapTask与ReduceTask及Shuffle工作机制
  • java 面试过程中遇到的几个问题记录20230220
  • 面试题:【数据库三】索引简述