当前位置: 首页 > news >正文

【深度学习】Transformer,Self-Attention,Multi-Head Attention

必读文章: https://blog.csdn.net/qq_37541097/article/details/117691873

论文名:Attention Is All You Need

文章目录

  • 1、Self-Attention 自注意力机制
  • 2、Multi-Head Attention

1、Self-Attention 自注意力机制

在这里插入图片描述

Query(Q)表示当前时间步的输入信息,它与Key(K)进行点积操作,用于计算注意力权重。
Key(K)表示序列中所有时间步的信息,与Query(Q)进行点积操作,用于计算注意力权重。
Value(V)包含了序列中每个时间步的隐藏状态或特征表示,根据注意力权重对其进行加权求和,得到最终的上下文向量。

注意力机制计算过程:

  1. 计算注意力分数(Attention Scores)

    注意力分数表示查询Q与键K之间的相关性,计算公式为:

A t t e n t i o n S c o r e ( Q , K ) = Q ⋅ K ⊤ d k Attention Score(Q, K) = \frac{Q \cdot K^\top}{\sqrt{d_k}} AttentionScore(Q,K)=dk QK

其中,(d_k) 是查询和键的维度。

  1. 计算注意力权重(Attention Weights)

    通过对注意力分数应用softmax函数,将分数转换为注意力权重,使它们归一化并总和为1:

A t t e n t i o n W e i g h t ( Q , K ) = softmax ( A t t e n t i o n S c o r e ( Q , K ) ) Attention Weight(Q, K) = \text{softmax}(Attention Score(Q, K)) AttentionWeight(Q,K)=softmax(AttentionScore(Q,K))

  1. 计算加权值(Weighted Values)

    使用注意力权重对值V进行加权,得到加权值,计算公式如下:

W e i g h t e d V a l u e s ( Q , K , V ) = Attention Weight ( Q , K ) ⋅ V Weighted Values(Q, K, V) = \text{Attention Weight}(Q, K) \cdot V WeightedValues(Q,K,V)=Attention Weight(Q,K)V

在Transformer的编码器和解码器中,Q、K、V的定义稍有不同:

在编码器(Encoder)中:

  • 查询(Q):来自上一层编码器的输出。
  • 键(K):来自上一层编码器的输出。
  • 值(V):来自上一层编码器的输出。

在解码器(Decoder)中,与编码器不同的是,还会使用编码器的输出作为额外的键(K)和值(V):

  • 查询(Q):来自上一层解码器的输出。
  • 键(K):来自编码器的输出。
  • 值(V):来自编码器的输出。

2、Multi-Head Attention

Multi-Head Attention 是 Transformer 模型中的一种注意力机制,它扩展了普通的自注意力机制(Self-Attention)以捕获更丰富的上下文信息。

在 Multi-Head Attention 中,通过使用多组独立的注意力头(attention heads),可以从不同的表示子空间中学习到更多的关系。每个注意力头都有自己对应的 Q、K、V 矩阵,通过独立的线性映射将输入进行转换得到。然后对每个注意力头进行注意力计算,并将它们的输出进行拼接,最后再经过一个线性映射得到最终的输出。

具体而言,Multi-Head Attention 的计算过程如下:

在这里插入图片描述

使用多个注意力头可以让模型同时关注不同位置和表示子空间的信息,从而提升模型的表达能力和泛化性能。

http://www.lryc.cn/news/111289.html

相关文章:

  • CADintosh X for mac CAD绘图软件2D CAD 程序 兼容 M1
  • 【读书笔记】《厌女》- [日]上野千鹤子 - 2010年出版
  • Android 从其他xml文件中获取View组件数据
  • java 数组的使用
  • Jmeter(一) - 从入门到精通 - 环境搭建(详解教程)
  • 外贸企业选择CRM的三大特点
  • 软件测试与游戏测试的区别
  • Programming Abstractions in C阅读笔记:p72-p75
  • bash测试test详解
  • 你来问我来答,ChatGPT对话软件测试!主题互动
  • 无人机巢的作用及应用领域解析
  • 面试热题(环形链表II)
  • 策略模式:优雅地实现可扩展的设计
  • 从8个新 NFT AMM,聊聊能如何为 NFT 提供流动性
  • 习题1.27
  • 简单游戏截图_可控截取内容2
  • 跨域+四种解决方法
  • RW-Everything的RwDrv.sys驱动调用
  • 0101docker mysql8镜像主从复制-运维-mysql
  • uC-OS2 V2.93 STM32L476 移植:系统启动篇
  • redis 集群 1:李代桃僵 —— Sentinel
  • 重置 Macbook 中MySQL 的 root 用户密码
  • 2308C++搞笑的概念化
  • 修改node_modules里的源码
  • 【每日一题Day287】LC24 两两交换链表中的节点 | 模拟 递归
  • Java ~ Collection/Executor ~ PriorityBlockingQueue【源码】
  • Java后台生成微信小程序码并以流的形式返回给前端
  • AtcoderABC226场
  • Linux知识点 -- VS Code远程连接服务器协助开发
  • blender基础认识(选项开关、工具栏、视图等)