当前位置: 首页 > news >正文

Self-Attention

前置知识:RNN,Attention机制

在一般任务的Encoder-Decoder框架中,输入Source和输出Target内容是不一样的,比如对于英-中机器翻译来说,Source是英文句子,Target是对应的翻译出的中文句子,Attention机制发生在Target的元素和Source中的所有元素之间。

Self-Attention是在Source内部元素或者Target内部元素之间发生的Attention机制,也可以理解为Target=Source这种特殊情况下的注意力计算机制,相当于是Query=Key=Value,计算过程与Attention一样。

作用

Self-Attention模型可以理解为对RNN的替代,有着以下两个作用:

  • 引入Self-Attention后会更容易捕获句子中长距离的相互依赖的特征。Self-Attention在计算过程中会直接将句子中任意两个单词的联系通过一个计算步骤直接联系起来,所以远距离依赖特征之间的距离被极大缩短,有利于有效地利用这些特征。

  • Self Attention对于增加计算的并行性也有直接帮助作用。正好弥补了attention机制的两个缺点,这就是为何Self Attention逐渐被广泛使用的主要原因。

对于计算并行性的分析

Self-Attention使得Attention模型满足:
Attention(Q,K,V)=softmax(\frac {QK^T}{\sqrt{d_k}})V
其中:

  • dk是Q和K的维度(矩阵中向量的个数,即列数)

对于位置信息的分析

这个位置信息ei不是学出来的,在paper里,是人手设置出来的,每个位置都不一样,代表在第几个positon。

我们构造一个p向量,这是一个one-hot向量,只有某一维为1,代表这个单元是第几个位置。

P_i=(0,...,0,1,0,...,0)

我们和x进行拼接再进行w的运算得到a,它又等价于右边的公式,相当于ai+ei:

http://www.lryc.cn/news/279421.html

相关文章:

  • 网络协议与攻击模拟_04ICMP协议与ICMP重定向
  • pytest-mock 数据模拟
  • 单片机原理及应用:定时器/计数器综合应用
  • R语言【paleobioDB】——pbdb_intervals():通过参数选择,返回多个地层年代段的基本信息
  • 阅读笔记lv.1
  • 小鼠的滚动疲劳仪-转棒实验|ZL-200C小鼠转棒疲劳仪
  • 平衡搜索二叉树(AVL树)
  • 2024年1月12日学习总结
  • PCL 使用克拉默法则进行四点定球(C++详细过程版)
  • 前端导致浏览器奔溃原因分析
  • 力扣:209.长度最小的子数组
  • 常见类型的yaml文件如何编写?--kind: Service
  • linux环境下安装postgresql
  • 专业课145+合肥工业大学833信号分析与处理考研经验合工大电子信息通信
  • FreeRtos Queue (一)
  • 深入理解 Hadoop (五)YARN核心工作机制浅析
  • 优化 - 重构一次Mysql导致服务器的OOM
  • 【光波电子学】基于MATLAB的多模光纤模场分布的仿真分析
  • 0104 AJAX介绍
  • 代码随想录算法训练营第24天 | 理论基础 77. 组合
  • 【深度学习环境搭建】Windows搭建Anaconda3、已经Pytorch的GPU版本
  • 基于WebFlux的Websocket的实现,高级实现自定义功能拓展
  • 使用 LLVM clang C/C++ 编译器编译 OpenSSL 3.X库
  • 【信息安全】hydra爆破工具的使用方法
  • uniapp中uview组件库丰富的CountTo 数字滚动使用方法
  • inflate流程分析
  • 数据挖掘实战-基于机器学习的电商文本分类模型
  • 第8章-第4节-Java中字节流的缓冲流
  • NULL是什么?
  • FreeRTOS 基础知识