当前位置: 首页 > news >正文

【自然语言处理四-从矩阵操作角度看 自注意self attention】

自然语言处理四-从矩阵操作角度看 自注意self attention

  • 从矩阵角度看self attention
    • 获取Q K V矩阵
    • 注意力分数
    • softmax
    • 注意力的输出
    • 再来分析整体的attention的矩阵操作过程
    • 从矩阵操作角度看,self attention如何解决问题的?
    • W^q^ W^k^ W^v^这三个矩阵怎么获得?

从矩阵角度看self attention

上一篇文章,【自然语言处理三-自注意self attention】介绍了如何实现selft attention,但没有介绍,为何自注意力就能解决参数扩张、无法并行等问题,仅仅用语言描述太过干涩,从矩阵操作的角度则可以清晰的了解,self attention的运作机制以及它如何解决这些问题的。

首先,还是先给出self attention的整体流程图

在这里插入图片描述

中间这个attention层,从输入到attention层的输出,就是我们是实现的目标,下面是一个简单的图示:
在这里插入图片描述

下面我们就从矩阵操作的角度来描述,具体如何实现中间这个self attention层。

获取Q K V矩阵

首先是根据输入乘上矩阵,获取qi,ki,vi
在这里插入图片描述
当我们将(ai,…an)整合成一个矩阵的时候,实际上这个操作是这样的:
在这里插入图片描述
这样我们的Q K V矩阵就是针对整个输入的了。

注意力分数

a1对于ai的注意力分数,是q1和ki的点乘,当然这个点乘操作在上文介绍过,可以有别的方法。

这个过程同样可以合并成一个矩阵操作,如下图:A矩阵中的每一列,就是ai对于其他输入的注意力分数
在这里插入图片描述

softmax

上述获取的A矩阵执行softmax操作
在这里插入图片描述

注意力的输出

在这里插入图片描述

softmax后的注意力分数,与其他输入的vi做乘法操作,获取最终注意力层的一个输出。
这个过程同样可以合并矩阵操作,如下:
在这里插入图片描述
最终的的这个O矩阵就是注意力的输出。

再来分析整体的attention的矩阵操作过程

这个总体的过程,可以用下面更简略的图来表示:
在这里插入图片描述

从矩阵操作角度看,self attention如何解决问题的?

1.解决参数可能急剧扩张的问题
我们从上面整体的矩阵操作过程来看,实际上只有三个矩阵Wq Wk Wv的参数需要学习,其他都是经过矩阵运算。
参数不会出现剧增
2.解决无法并行的问题
矩阵对于每个输入的操作,是并行的,不再像seq2seq架构一样,是按照时间步,一步步操作。
3.解决记忆能力的问题
attention的分数是基于全体输入的,且没有经过时间步的传播,因此记忆是基于全句子的,且信息没有丢失

Wq Wk Wv这三个矩阵怎么获得?

从整体流程来看,要实现attention,最关键的就是找到合适的Wq Wk Wv矩阵,那么这三个矩阵是怎么获得的呢?
它们是靠学习获得的,初始化后,经过模型输出,然后经过反向传播,通过调整误差,一步步的精确化了这三个矩阵

http://www.lryc.cn/news/307318.html

相关文章:

  • Unity脚本,串行端口的握手协议(流控制)
  • 2023 re:Invent 用 Amazon Q 打造你的知识库
  • ChatGPT 国内快速上手指南
  • Docker 常用操作命令备忘
  • BUU [CISCN2019 华东南赛区]Web4
  • 【卷积神经网络中用1*1 卷积有什么作用或者好处呢?】
  • 分布式系统概念及其应用
  • 数据报文转换
  • Python爬虫-付费代理推荐和使用
  • kubectl使用及源码阅读
  • C++面试宝典第32题:零钱兑换
  • pyspark分布式部署随机森林算法
  • 【Python笔记-设计模式】中介者模式
  • 大语言模型构建的主要四个阶段(各阶段使用的算法、数据、难点以及实践经验)
  • [云原生] 二进制安装K8S(中)部署网络插件和DNS
  • 云端技术驾驭DAY13——Pod污点、容忍策略、Pod优先级与抢占、容器安全
  • 掌握Docker:让你的应用轻松部署和管理
  • 5G-A,未来已来
  • 智慧公厕让社区生活更美好
  • Apache软件基金会的孵化标准和毕业标准
  • 什么是高可用架构
  • 【Vuforia+Unity】AR04-地面、桌面平面识别功能(Ground Plane Target)
  • 【Git】解决‘每次初始化一个新仓库时,都需要执行git config --global --add safe.directory命令‘
  • Qt的QThread、QRunnable和QThreadPool的使用
  • windows安装部署node.js并搭建Vue项目
  • 【计算机】本科考研还是就业?
  • ChatGPT调教指南 | 咒语指南 | Prompts提示词教程(三)
  • 小程序一键链接WIFI
  • 结构体位域保存传感器数据
  • 66-ES6:var,let,const,函数的声明方式,函数参数,剩余函数,延展操作符