当前位置: 首页 > news >正文

sparse transformer 常见稀疏注意力

参考:
https://zhuanlan.zhihu.com/p/259591644

主要就是降低transformer自注意力模块的复杂度
复杂度主要就是 Q · K^T影响的,稀疏注意力就是在Q点乘K的转置这模块做文章
在这里插入图片描述

下列式一些sparse transformer稀疏注意力方法

a、transformer原始的 , Q · K^T,其中 K^T 表示 K 的转置
b、每个token与前后三个做自注意力计算
c、膨胀注意力(dilated attention):每个token与前后三个做自注意力计算,但这三个有间隔,就是比如第一个token看右面3,5,7
d、全局token是第一二个token看所有的token,3及后面的token只看· K^T 矩阵的1、2token;sliding划窗见b
在这里插入图片描述

a、全局token是第一二个token看所有的token,3及后面的token只看· K^T 矩阵的1、2token
b、划窗
c、见上面c
d、random
e、Q矩阵的123token 看 · K^T123token;Q矩阵的456token 看 · K^T456token 。。。。
在这里插入图片描述

http://www.lryc.cn/news/310270.html

相关文章:

  • 力扣 第 125 场双周赛 解题报告 | 珂学家 | 树形DP + 组合数学
  • 基于springboot+vue的人格障碍诊断系统
  • Go-知识struct
  • SpringMVC 学习(十一)之数据校验
  • 软考55-上午题-【数据库】-数据库设计步骤1
  • 速盾:使用cdn后速度慢是怎么回事?
  • 考研复试类比社团招新,无所谓“公平”,导师选谁都是他的权力
  • 阿里面试,有点焦虑。。
  • 24计算机考研调剂 | 石家庄铁道大学
  • 勇敢尝鲜之Springboot3大坑-集成Mybatisplus报错:ddlApplicationRunner
  • linux高级编程:线程(二)、进程间的通信方式
  • Unity 佳能SDK 及数据获取
  • Unity(第二十三部)导航
  • 根据建表sql语句生成go的struct代码工具
  • Qt 自定义长条进度条(类似播放器进度条)
  • 休息日的思考与额外题——双指针、原地哈希day28
  • 数据修改
  • Android JNI复杂用法,回调,C++中调用Java方法
  • C++从零开始的打怪升级之路(day41)
  • uni-app app实现web-view H5图片长按下载
  • 全量知识系统问题及SmartChat给出的答复 之5
  • DolphinScheduler——工作流实例的生命周期
  • 阻塞和非阻塞网络io有什么区别,分别有哪些应用场景?
  • 面试数据库篇(mysql)- 12分库分表
  • LaTeX中的多行数学公式
  • 绕过5秒盾Cloudflare和DDoS-GUARD
  • react 原理揭秘
  • el-table实现转置表格
  • (3)(3.1) FlightDeck FrSky发射器应用程序
  • 【Unity】导入IAP插件后依赖冲突问题 com.android.billingclient冲突