当前位置: 首页 > news >正文

论文阅读——RetNet

transformer的问题:计算量大,占用内存大,不好部署。

所以大家在找能解决办法,既能和transformer表现一样好,又能在推理阶段计算复杂度很低。

这些方法大概分类三类:一是代替transformer非线性注意力机制的线性注意力,二是牺牲并行训练,但是推理效率高的循环模型,三是寻找一种其他机制代替注意力机制。但是都不成功。

RetNet整体结构:

X是每层的输入序列,LN是LayerNorm

MSR:multi-scale retention

RetNet是L个单独模块堆叠,每个模块包含MSR和FFN两部分。

考虑循环模型序列建模问题,可以表示为:

其中,Sn是隐层,Vn是输入。

By absorbing A into WQ and WK,把方程写为:

γ简化为标量:

retention layer定义为:

http://www.lryc.cn/news/232549.html

相关文章:

  • 【Proteus仿真】【51单片机】锂电池管理系统
  • 【工具使用-VScode】设置 VSCode 的自动保存功能
  • 常用Git命令记录
  • Go语言常用库
  • 二叉树(进阶)
  • Flink之OperatorState
  • Python集成学习和随机森林算法
  • 代码随想录算法训练营第二十四天| 77 组合
  • el-dialog element-ui弹窗
  • 计算机网络的发展
  • 官宣!Wayland正式支持基于IntelliJ的IDE
  • 大模型在数据分析场景下的能力评测|进阶篇
  • 服务注册发现 springcloud netflix eureka
  • Spring cloud负载均衡@LoadBalanced LoadBalancerClient
  • 6.运行mysql容器-理解容器数据卷
  • golang学习笔记——查找质数
  • C++ 基础二
  • 鼎盛合 | 宠物智能投食机方案设计开发
  • ERR_PNPM_INVALID_WORKSPACE_CONFIGURATION packages field missing or empty
  • ubuntu 23.04从源码编译安装rocm运行tensorflow-rocm
  • echarts 图表文字大小自适应 字体大小自适应
  • 【项目】云备份系统基础功能实现
  • 【Shell脚本13】Shell 文件包含
  • 2023.11.15 关于 Spring Boot 配置文件
  • 2023年第九届数维杯国际大学生数学建模挑战赛A题
  • IDEA写mybatis程序,java.io.IOException:Could not find resource mybatis-config.xml
  • 1软件管理
  • flutter 绘制右上角圆角三角形标签
  • C/C++输出整数部分 2021年12月电子学会青少年软件编程(C/C++)等级考试一级真题答案解析
  • 通过20天预测7天