当前位置: 首页 > news >正文

SwiGLU激活函数

SwiGLU激活函数已经成为LLM的标配了。它是GLU的变体,公式如下:
SwiGLU ⁡ ( x , W , V , b , c , β ) = Swish ⁡ β ( x W + b ) ⊗ ( x V + c ) \operatorname{SwiGLU}(x, W, V, b, c, \beta)=\operatorname{Swish}_\beta(x W+b) \otimes(x V+c) SwiGLU(x,W,V,b,c,β)=Swishβ(xW+b)(xV+c)

Swish

S w i s h β ⁡ ( x ) = x ⊗ σ ( β x ) \operatorname{Swish_\beta}(x)=x \otimes \sigma(\beta x) Swishβ(x)=xσ(βx)
在nlp和cv任务上,Swish性能都和GELU接近,稍微略高点。但Swish公式更简洁优雅。

GELU早期被BERT、RoBERTa、ALBERT采用。

GLU

GLU ⁡ ( x , W , V , b , c ) = σ ( x W + b ) ⊗ ( x V + c ) \operatorname{GLU}(x, W, V, b, c)=\sigma(x W+b) \otimes(x V+c) GLU(x,W,V,b,c)=σ(xW+b)(xV+c)
单纯从公式看,GLU是一个神经网络层。左右两个线性变换层,左边再接一个门控机制来控制信息流通多少。

SwiGLU

将Swish作为左侧激活函数就得到了SwiGLU。代码如下:

F.silu(self.w1(x)) * self.w2(x)

在 GLU Variants Improve Transformer 论文中,作者比较了各种GLU变体的激活函数,SwiGLU在各项任务上表现出众。但作者并未给出解释原因,只能说后验是这样,那就选它呗,所以成了LLM的标配。

各激活函数示意图

act


参考

  • GLU Variants Improve Transformer
  • SWISH: A SELF-GATED ACTIVATION FUNCTION
  • 超越ReLU却鲜为人知,3年后被挖掘:BERT、GPT-2等都在用的激活函数
  • 大模型基础|激活函数|从ReLU 到SwiGLU
http://www.lryc.cn/news/343971.html

相关文章:

  • MySQL慢查询优化
  • 开源数据可视化大屏对接表单数据实践!
  • 08.图形化界面字体问题处理
  • 【代码随想录算法训练营第37期 第二天 | LeetCode977.有序数组的平方、209.长度最小的子数组、59.螺旋矩阵II】
  • Java:Servlet详解
  • Oracle存储过程怎么定义类并继承
  • 14_Scala面向对象编程_属性
  • 什么是网页反作弊
  • MAVEN打包JAR启动执行manifest
  • JavaEE 多线程详细讲解(1)
  • 数据分析从入门到精通 1.numpy剑客修炼
  • 【iOS】KVO
  • python json字符串怎么用format方法填充参数值报KeyError
  • C++新手村指南:入门基础
  • 智慧旅游推动旅游服务智慧化转型:借助智能科技的力量,实现旅游资源的精准匹配和高效利用,为游客提供更加便捷、舒适的旅游环境
  • Hikyuu-PF-银行股轮动交易策略实现
  • 【氮化镓】GaN功率器件在转换器设计中的挑战
  • DOTA-Gly-Asp-Tyr-Met-Gly-Trp-Met-Asp-Phe-NH2,1306310-00-8,是一种重要的多肽化合物
  • CopyClip for Mac - 高效复制粘贴,轻松管理剪贴板
  • [windows系统安装/重装系统][step-1]U盘启动盘制作,微软官方纯净系统镜像下载
  • AI换脸原理(4)——人脸对齐(关键点检测)参考文献2DFAN:代码解析
  • Sarcasm detection论文解析 |使用 BERT 进行中间任务迁移学习的刺检测
  • docker系列9:容器卷挂载(下)
  • QT ERROR: Unknown module(s) in QT: xlsx怎么办
  • npm install 卡在reify:rxjs: timing reifyNode的解决办法
  • VScode 无法连接云服务器
  • Kafka 面试题(二)
  • Spring Cloud Kubernetes 本地开发环境调试
  • 基于二维CS-SCHT变换和扩频方法的彩色图像水印嵌入和提取算法matlab仿真
  • 设计模式——行为型模式——策略模式(含实际业务使用示例、可拷贝直接运行)