当前位置: 首页 > news >正文

Transformer学习(1):注意力机制

文章目录

  • 什么是注意力
  • 如何实现注意
  • 注意力的计算过程
  • 总结

什么是注意力

在一张图像中,包含了各种信息,而我们会自动关注重要的信息。下图是注意力热力图,可以发现人们会注意兔子的脸这些重要信息。
在这里插入图片描述

而在深度学习中,输入数据包含了重要的数据与不重要的数据,但对于一个模型来说,它不知道哪些数据是重要的。
因此提出了注意力机制,如何在深度学习模型上使用注意力,让模型关注于重要的数据。

如何实现注意

  • Query(查询)查询的范围,可以理解为要查询什么特征。自主提示,即主观意识的特征向量
  • Key(键):被对比的项,也就是被查询物体的特征。非自主提示,即被查询物体的突出特征信息向量
  • Value(值)被查询的物体本身,也就是原图上的各个物体。代表被查询的物体本身的特征向量,通常和Key成对出现

在这里插入图片描述

要实现注意力机制,也就是要得到Q与V的相似度哪些V对Q更加重要

注意力的计算过程

① 计算Q与K的相似度
一般是使用点乘(内积)来计算Q与K中的每个事物的相似度,得到Q与 k 1 k_1 k1的相似度 s 1 s_1 s1,Q与 k 2 k_2 k2的相似度 s 2 s_2 s2等等。
然后对得到的相似度执行softmax归一化操作: s o f t m a x ( s 1 , s 2 , . . . , s n ) softmax(s_1,s_2,...,s_n) softmax(s1,s2,...,sn)得到n个概率 ( a 1 , a 2 , a n ) (a_1,a_2,a_n) (a1,a2,an),也就是各个K对Q的重要性
在这里插入图片描述
② 汇总各个物体的相似度
通过前面的计算,我们得到了各个K与Q的相似度,相当于我们得到了各个V与Q的相似度,也就是各个V的权重,此时Q已经失去作用。然后我们需要将这些相似度进行汇总,得到一张图像,这张图像上包含了哪些信息重要与不重要。

计算方法 a i a_i ai v i v_i vi相乘,再相加,得到新的 V ′ V' V
V ′ = a 1 ∗ v 1 + a 2 ∗ v 2 + . . . + a n ∗ v n V' = a_1*v_1+a_2*v_2+...+a_n*v_n V=a1v1+a2v2+...+anvn
在这里插入图片描述

这样的话,就得到了一个新的 V’,这个新的 V’ 就包含了哪些更重要与更不重要的信息在里面,然后用 V’ 代替 V

一般来说K=V,但在Transformer中,K可以!=V,但K与V必须存在某种联系,只有这样才能通过QK的点乘来指导V哪些重要与不重要。

计算过程的问题与解决方法
在计算出QK后并进行softmax操作时,若各个概率值相差大则会导致softmax输出的值很极端
因此需要对QK点乘的值进行缩放操作(scale),公式如图所示,其中 d k d_k dkK的通道数
在这里插入图片描述
通过缩放就可以避免softmax操作的输出极端,注意力机制的结构变为这样。
在这里插入图片描述

总结

本质上来说,注意力机制就是网络根据提供的信息Q,得到各个V的一个权重,这个权重代表着Q与V的相关性。

http://www.lryc.cn/news/439729.html

相关文章:

  • spring模块(六)spring event事件(3)广播与异步问题
  • 【Elasticsearch系列八】高阶使用
  • 【H2O2|全栈】关于CSS(4)CSS基础(四)
  • node.js+Koa框架+MySQL实现注册登录
  • 矢量化操作
  • 【LeetCode】每日一题 2024_9_16 公交站间的距离(模拟)
  • 【Python笔记】PyCharm大模型项目环境配置
  • FPGA-Vivado-IP核-虚拟输入输出(VIO)
  • 使用knn算法对iris数据集进行分类
  • GEE Shapefile 格式转换 GeoJSON
  • 从kaggle竞赛零基础上手CV实战(Deepfake检测)
  • Linux cat命令详解使用:高效文本内容管理
  • YOLOv9改进系列,YOLOv9颈部网络SPPELAN替换为FocalModulation
  • 圆环加载效果
  • leetcode - 分治思想
  • Java面试题·解释题·单例模式、工厂模式、代理模式部分
  • 如何编写智能合约——基于长安链的Go语言的合约开发
  • 【PHP代码审计】PHP基础知识
  • 大模型笔记03--快速体验dify
  • Linux常用命令以及操作技巧
  • C语言 | Leetcode C语言题解之题409题最长回文串
  • FreeSql 全面指南:从基础到高级实战,深入解析读写分离与导航属性
  • 深度学习之微积分预备知识点
  • 动态内存
  • C/C++实现植物大战僵尸(PVZ)(打地鼠版)
  • C++ 科目二 智能指针 [weak_ptr] (解决shared_ptr的循环引用问题)
  • 解决RabbitMQ设置TTL过期后不进入死信队列
  • 【鸿蒙OH-v5.0源码分析之 Linux Kernel 部分】005 - Kernel 入口 C 函数 start_kernel() 源码分析
  • EndnoteX9安装及使用教程
  • SQL:子查询