当前位置: 首页 > news >正文

【NLP】MHA、MQA、GQA机制的区别

Note

  • LLama2的注意力机制使用了GQA。三种机制的图如下:
    在这里插入图片描述

MHA机制(Multi-head Attention)

MHA(Multi-head Attention)是标准的多头注意力机制,包含h个Query、Key 和 Value 矩阵。所有注意力头的 Key 和 Value 矩阵权重不共享

MQA机制(Multi-Query Attention)

MQA(Multi-Query Attention,Fast Transformer Decoding: One Write-Head is All You Need)是多查询注意力的一种变体,也是用于自回归解码的一种注意力机制。与MHA不同的,MQA 让所有的头之间共享同一份 Key 和 Value 矩阵,每个头只单独保留了一份 Query 参数,从而大大减少 Key 和 Value 矩阵的参数量。

GQA机制(Grouped-Query Attention)

GQA(Grouped-Query Attention,GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints)是分组查询注意力,GQA将查询头分成G组,每个组共享一个Key 和 Value 矩阵。GQA-G是指具有G组的grouped-query attention。GQA-1具有单个组,因此具有单个Key 和 Value,等效于MQA。若GQA-H具有与头数相等的组,则其等效于MHA。GQA介于MHA和MQA之间。GQA机制,多头共用 KV Cache。

Reference

[1] 一文通透各种注意力:从多头注意力MHA到分组查询注意力GQA、多查询注意力MQA
[2] Transformer系列:注意力机制的优化,MQA和GQA原理简述
[3] Navigating the Attention Landscape: MHA, MQA, and GQA Decoded

http://www.lryc.cn/news/300813.html

相关文章:

  • nginx upstream server主动健康监测模块添加https检测功能
  • OCP的operator——(4)用户任务:使用Operator创建etcd集群
  • win7自带截图工具保存失效解决办法
  • Android14之Android Rust模块编译语法(一百八十七)
  • 分布式文件系统 SpringBoot+FastDFS+Vue.js【三】
  • 【深度学习每日小知识】全景分割
  • 机器人能否返回原点
  • Mysql5.6忘记密码,如何找回(windows)
  • 算法训练营day29, 贪心算法3
  • 164基于matlab的奇异值分解、小波降噪、zoom细化
  • 每日OJ题_算法_递归③力扣206. 反转链表
  • 【Linux】指令 【whereis】
  • 牛客网SQL进阶128:未完成试卷数大于1的有效用户
  • GitHub的使用操作
  • 智慧公厕管理软件
  • 【30秒看懂大数据】数据中台
  • 【UI自动化测试技术】自动化测试研究:Python+Selenium+Pytest+Allure,详解UI自动化测试,了解元素交互的常用方法(精)(三)
  • GPT-4带来的思想火花
  • 使用倒模耳机壳UV村脂胶液制作舞台监听耳返入耳式耳机壳有哪些优点?
  • html从零开始8:css3新特性、动画、媒体查询、雪碧图、字体图标【搬代码】
  • HAL库 STM32驱动W25QXX驱动例程
  • C#入门及进阶|数组和集合(九):Stack类
  • 算法训练day31贪心算法理论基础Leetcode455分发饼干376摆动序列53最大子序和
  • Java与JavaScript同源不同性
  • 【JavaEE】spring boot快速上手
  • 【数据结构】16 二叉树的定义,性质,存储结构(以及先序、后序、中序遍历)
  • GPT SOVITS项目 一分钟克隆 (文字输出)
  • python34-Python列表和元组之加法
  • 不做程序员了(转岗半年后对程序员岗位的思考)
  • DS:八大排序之直接插入排序、希尔排序和选择排序