当前位置: 首页 > news >正文

深入理解深度学习——正则化(Regularization):稀疏表示

分类目录:《深入理解深度学习》总目录


另一种策略是惩罚神经网络中的激活单元,稀疏化激活单元。这种策略间接地对模型参数施加了复杂惩罚。我们已经在《深入理解深度学习——正则化(Regularization):参数范数惩罚》中讨论过 L 1 L^1 L1惩罚如何诱导稀疏的参数,即许多参数为零(或接近于零)。另一方面,表示的稀疏描述了许多元素是零(或接近零)的表示。表示的正则化可以使用参数正则化中同种类型的机制实现。表示的范数惩罚正则化是通过向损失函数 J J J添加对表示的范数惩罚来实现的。我们将这个惩罚记作 Ω ( h ) \Omega(h) Ω(h)。和之前一样,我们将正则化后的损失函数记作 J ~ \tilde{J} J~
J ~ ( θ ; X , y ) = J ( θ ; X , y ) + α Ω ( h ) , \tilde{J}(\theta; X, y) = J(\theta; X, y) + \alpha\Omega(h), J~(θ;X,y)=J(θ;X,y)+αΩ(h),

其中 α ∈ [ 0 , ∞ ] \alpha\in[0, \infty] α[0,]权衡范数惩罚项的相对贡献,越大的 α \alpha α对应越多的正则化。正如对参数的 L 1 L^1 L1惩罚诱导参数稀疏性,对表示元素的 L 1 L^1 L1惩罚诱导稀疏的表示:
Ω ( h ) = ∣ ∣ h ∣ ∣ 1 = ∑ i h u \Omega(h)=||h||_1=\sum_ih_u Ω(h)=∣∣h1=ihu

当然 L 1 L^1 L1惩罚是使表示稀疏的方法之一。其他方法还包括从表示上的Student-t先验导出的惩罚和KL散度惩罚,这些方法对于将表示中的元素约束于单位区间上特别有用。Lee et al.(2008) 和Goodfellow et al. (2009) 都提供了正则化几个样本平均激活的例子。

还有一些其他方法通过激活值的硬性约束来获得表示稀疏。例如,正交匹配追踪(Orthogonal Matching Pursuit)通过解决以下约束优化问题将输入值 x x x编码成表示 h h h
arg ⁡ min ⁡ h , ∣ ∣ h ∣ ∣ 0 < k ∣ ∣ x − W h ∣ ∣ 2 \arg\min_{h,||h||_0<k}||x - Wh||^2 argh,∣∣h0<kmin∣∣xWh2

其中 ∣ ∣ h ∣ ∣ 0 ||h||_0 ∣∣h0 h h h中非零项的个数。当 W W W被约束为正交时,我们可以高效地解决这个问题。这种方法通常被称为OMP-k,通过 k k k指定允许的非零特征数量。Coates and Ng证明OMP-1可以成为深度架构中非常有效的特征提取器。含有隐藏单元的模型在本质上都能变得稀疏。

参考文献:
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.

http://www.lryc.cn/news/91569.html

相关文章:

  • 【Android】分别用JAVA和Kotlin实现横向扫描的动画效果
  • 长尾词挖掘,如何选择精准的长尾词优化?
  • Python相关环境变量配置和模拟手机app登录
  • c++ 11标准模板(STL) std::map(九)
  • 深入探索chatGPT插件:SceneXplain,Wolfram,和AppyPieAIAppBuilder
  • 华为OD机试真题B卷 Java 实现【停车场车辆统计】,附详细解题思路
  • 第二章:MySQL环境搭建
  • 生产环境之负载均衡LVS+keepalived方案(2)_LVS介绍
  • 【parsel】------- PYTHON爬虫基础4
  • MySQL数据库从入门到精通学习第8天(表数据的查询)
  • 什么是IPAM?如何使用IPAM来管理IP地址和DHCP?
  • PCIE学习
  • 商业智力,Social焕新|数说故事重磅发布“SocialGPT”,国内首个专注Social领域的商业大模型
  • STM32HAL库RS485-ModBus协议控制伺服电机
  • 【医学图像】图像分割系列.3 (uncertainty)
  • Java有线程安全的set吗?
  • 《HelloGitHub》第 86 期
  • LDGRB-01 3BSE013177R1 将数字输入和继电器输出结合
  • 手动计算校正年龄、性别后的标准化死亡率 (SMR)
  • Java组合模式:构建多层次公司组织架构
  • Langchain-ChatGLM:基于本地知识库问答
  • 设计模式十 适配器模式
  • 1.6 初探JdbcTemplate操作
  • 为什么要用线程池?
  • c语言的预处理和编译
  • 网络安全必学 SQL 注入
  • Docker基础知识详解
  • 腾讯、阿里入选首批“双柜台证券”,港股市场迎盛夏升温?
  • CentOS7 使用Docker 安装MySQL
  • 注解和反射复习