当前位置：首页 > news >正文

PRML笔记2-关于回归参数w的先验的理解

news 2025/9/8 12:28:28

接上篇，现在考虑给 $w\boldsymbol{w}$ 加入先验，考虑最简单的假设，也就是 $w\boldsymbol{w}$ 服从均值为0，协方差矩阵为 $α−1I\alpha^{-1}\boldsymbol{I}$ 的高斯分布。
$p(w∣α)=N(w∣0,α−1I)=(α2π)(M+1)/2exp⁡{−α2wTw}\begin{aligned} p(\boldsymbol{w}|\alpha)&=\mathcal{N}(\boldsymbol{w}|0,\alpha^{-1}\boldsymbol{I})\\ &=(\frac{\alpha}{2\pi})^{(M+1)/2}\exp\{-\frac{\alpha}{2}\boldsymbol{w}^T\boldsymbol{w}\} \end{aligned}$ 我们一步一步看一下给定 $(x,t,α,β)(\boldsymbol{x},\boldsymbol{t},\alpha,\beta)$ 后，参数 $w\boldsymbol{w}$ 的概率
$p(w∣t)=p(t∣w)p(w)p(t)p(w∣t,x,α,β)=p(t∣w,x,α,β)p(w∣x,α,β)p(t∣x,α,β)\begin{aligned} p(\boldsymbol{w}|\boldsymbol{t})&=\frac{p(\boldsymbol{t}|\boldsymbol{w})p(\boldsymbol{w})}{p(\boldsymbol{t})}\\ p(\boldsymbol{w}|\boldsymbol{t},\boldsymbol{x},\alpha,\beta)&=\frac{p(\boldsymbol{t}|\boldsymbol{w},\boldsymbol{x},\alpha,\beta)p(\boldsymbol{w}|\boldsymbol{x},\alpha,\beta)}{p(\boldsymbol{t}|\boldsymbol{x},\alpha,\beta)} \end{aligned}$
由于 $α\alpha$ 和 $t$ 独立，因此上式似然函数 $p(t∣w,x,α,β)=p(t∣w,x,β)p(\boldsymbol{t}|\boldsymbol{w},\boldsymbol{x},\alpha,\beta)=p(\boldsymbol{t}|\boldsymbol{w},\boldsymbol{x},\beta)$ ，而 $w\boldsymbol{w}$ 的先验我们已经有了假设，因此得到书上的结果（此处个人理解）：
$p(w∣x,t,α,β)∝p(t∣x,w,β)p(w∣α)p(\boldsymbol{w}|\boldsymbol{x},\boldsymbol{t},\alpha,\beta)\propto p(\boldsymbol{t}|\boldsymbol{x},\boldsymbol{w},\beta)p(\boldsymbol{w}|\alpha)$
现在成了，我们最大化后验概率求 $w\boldsymbol{w}$ ，变成了最大化似然函数 $p(t∣x,w,β)p(\boldsymbol{t}|\boldsymbol{x},\boldsymbol{w},\beta)$ 和先验概率 $p(w∣α)p(\boldsymbol{w}|\alpha)$ 乘积的值。由于 $p(t∣x,w,β)=∏n=1NN(tn∣y(xn,w),β−1)=∏n=1N1(2π)12β−12exp(tn−y(xn,w))2−2β−1p(\boldsymbol{t}|\boldsymbol{x},\boldsymbol{w},\beta)=\prod_{n=1}^N\mathcal{N}(t_n|y(x_n,\boldsymbol{w}),\beta^{-1})=\prod_{n=1}^N\frac{1}{(2\pi)^{\frac{1}{2}}\beta^{-\frac{1}{2}}}exp{\frac{(t_n-y(x_n,\boldsymbol{w}))^2}{-2\beta^{-1}}}$
$p(w∣α)=N(w∣0,α−1I)=(α2π)(M+1)/2exp⁡{−α2wTw}\begin{aligned} p(\boldsymbol{w}|\alpha)&=\mathcal{N}(\boldsymbol{w}|0,\alpha^{-1}\boldsymbol{I})\\ &=(\frac{\alpha}{2\pi})^{(M+1)/2}\exp\{-\frac{\alpha}{2}\boldsymbol{w}^T\boldsymbol{w}\} \end{aligned}$
因此
$p(t∣x,w,β)p(w∣α)=[∏n=1N1(2π)12β−12exp(tn−y(xn,w))2−2β−1](α2π)(M+1)/2exp⁡{−α2wTw}\begin{aligned} p(\boldsymbol{t}|\boldsymbol{x},\boldsymbol{w},\beta)p(\boldsymbol{w}|\alpha)& =\left[\prod_{n=1}^N\frac{1}{(2\pi)^{\frac{1}{2}}\beta^{-\frac{1}{2}}}exp{\frac{(t_n-y(x_n,\boldsymbol{w}))^2}{-2\beta^{-1}}}\right] \left(\frac{\alpha}{2\pi}\right)^{(M+1)/2}\exp\{-\frac{\alpha}{2}\boldsymbol{w}^T\boldsymbol{w}\} \end{aligned}$ 两边取ln可得
$ln⁡p(t∣x,w,β)p(w∣α)=−β2∑n=1N{y(xn,w)−tn}2+N2ln⁡β−N2ln⁡(2π)+M+12ln⁡α−M+12ln⁡2π−α2wTw\begin{aligned} \ln{p}(\boldsymbol{t}|\boldsymbol{x},\boldsymbol{w},\beta)p(\boldsymbol{w}|\alpha) &=-\frac{\beta}{2}\sum_{n=1}^N\{y(x_n,\boldsymbol{w})-t_n\}^2+\frac{N}{2}\ln{\beta}-\frac{N}{2}\ln{(2\pi)} +\frac{M+1}{2}\ln{\alpha}-\frac{M+1}{2}\ln{2\pi}-\frac{\alpha}{2}\boldsymbol{w}^T\boldsymbol{w} \end{aligned}$ 我们现在要找的是最可能的 $w\boldsymbol{w}$ 的值，因此只考虑与 $w\boldsymbol{w}$ 有关的部门，去掉常数可得：
$ln⁡p(t∣x,w,β)p(w∣α)=−β2∑n=1N{y(xn,w)−tn}2−α2wTw\begin{aligned} \ln{p}(\boldsymbol{t}|\boldsymbol{x},\boldsymbol{w},\beta)p(\boldsymbol{w}|\alpha)&=-\frac{\beta}{2}\sum_{n=1}^N\{y(x_n,\boldsymbol{w})-t_n\}^2-\frac{\alpha}{2}\boldsymbol{w}^T\boldsymbol{w} \end{aligned}$ 这就相当于最小化
$β2∑n=1N{y(xn,w)−tn}2+α2wTw\frac{\beta}{2}\sum_{n=1}^N\{y(x_n,\boldsymbol{w})-t_n\}^2+\frac{\alpha}{2}\boldsymbol{w}^T\boldsymbol{w}$