当前位置：首页 > news >正文

深入理解深度学习——正则化（Regularization）：稀疏表示

news 2025/8/21 22:10:59

另一种策略是惩罚神经网络中的激活单元，稀疏化激活单元。这种策略间接地对模型参数施加了复杂惩罚。我们已经在《深入理解深度学习——正则化（Regularization）：参数范数惩罚》中讨论过 $L^1$ 惩罚如何诱导稀疏的参数，即许多参数为零（或接近于零）。另一方面，表示的稀疏描述了许多元素是零（或接近零）的表示。表示的正则化可以使用参数正则化中同种类型的机制实现。表示的范数惩罚正则化是通过向损失函数 $J$ 添加对表示的范数惩罚来实现的。我们将这个惩罚记作 $\Omega(h)$ 。和之前一样，我们将正则化后的损失函数记作 $\tilde{J}$ ：
$\tilde{J}(\theta; X, y) = J(\theta; X, y) + \alpha\Omega(h),$

其中 $\alpha\in[0, \infty]$ 权衡范数惩罚项的相对贡献，越大的 $\alpha$ 对应越多的正则化。正如对参数的 $L^1$ 惩罚诱导参数稀疏性，对表示元素的 $L^1$ 惩罚诱导稀疏的表示：
$\Omega(h)=||h||_1=\sum_ih_u$

当然 $L^1$ 惩罚是使表示稀疏的方法之一。其他方法还包括从表示上的Student-t先验导出的惩罚和KL散度惩罚，这些方法对于将表示中的元素约束于单位区间上特别有用。Lee et al.(2008) 和Goodfellow et al. (2009) 都提供了正则化几个样本平均激活的例子。

还有一些其他方法通过激活值的硬性约束来获得表示稀疏。例如，正交匹配追踪（Orthogonal Matching Pursuit）通过解决以下约束优化问题将输入值 $x$ 编码成表示 $h$ ：
$arg\min_{h,||h||_0<k}||x - Wh||^2$

其中 $h||_0$ 是 $h$ 中非零项的个数。当 $W$ 被约束为正交时，我们可以高效地解决这个问题。这种方法通常被称为OMP-k，通过 $k$ 指定允许的非零特征数量。Coates and Ng证明OMP-1可以成为深度架构中非常有效的特征提取器。含有隐藏单元的模型在本质上都能变得稀疏。

参考文献：
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.

查看全文

http://www.lryc.cn/news/91569.html