当前位置：首页 > news >正文

【NLP】MHA、MQA、GQA机制的区别

news 2025/7/10 19:46:02

Note

LLama2的注意力机制使用了GQA。三种机制的图如下：

MHA机制（Multi-head Attention）

MHA（Multi-head Attention）是标准的多头注意力机制，包含h个Query、Key 和 Value 矩阵。所有注意力头的 Key 和 Value 矩阵权重不共享

MQA机制（Multi-Query Attention）

MQA（Multi-Query Attention，Fast Transformer Decoding: One Write-Head is All You Need）是多查询注意力的一种变体，也是用于自回归解码的一种注意力机制。与MHA不同的，MQA 让所有的头之间共享同一份 Key 和 Value 矩阵，每个头只单独保留了一份 Query 参数，从而大大减少 Key 和 Value 矩阵的参数量。

GQA机制（Grouped-Query Attention）

GQA（Grouped-Query Attention，GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints）是分组查询注意力，GQA将查询头分成G组，每个组共享一个Key 和 Value 矩阵。GQA-G是指具有G组的grouped-query attention。GQA-1具有单个组，因此具有单个Key 和 Value，等效于MQA。若GQA-H具有与头数相等的组，则其等效于MHA。GQA介于MHA和MQA之间。GQA机制，多头共用 KV Cache。

Reference

[1] 一文通透各种注意力：从多头注意力MHA到分组查询注意力GQA、多查询注意力MQA
[2] Transformer系列：注意力机制的优化，MQA和GQA原理简述
[3] Navigating the Attention Landscape: MHA, MQA, and GQA Decoded

http://www.lryc.cn/news/300813.html

相关文章：

nginx upstream server主动健康监测模块添加https检测功能

OCP的operator——（4）用户任务：使用Operator创建etcd集群

win7自带截图工具保存失效解决办法

Android14之Android Rust模块编译语法(一百八十七)

分布式文件系统 SpringBoot+FastDFS+Vue.js【三】

【深度学习每日小知识】全景分割

机器人能否返回原点

Mysql5.6忘记密码，如何找回（windows）

算法训练营day29, 贪心算法3

164基于matlab的奇异值分解、小波降噪、zoom细化

每日OJ题_算法_递归③力扣206. 反转链表

【Linux】指令【whereis】

牛客网SQL进阶128：未完成试卷数大于1的有效用户

GitHub的使用操作

智慧公厕管理软件

【30秒看懂大数据】数据中台

【UI自动化测试技术】自动化测试研究：Python+Selenium+Pytest+Allure,详解UI自动化测试，了解元素交互的常用方法（精）(三)

GPT-4带来的思想火花

使用倒模耳机壳UV村脂胶液制作舞台监听耳返入耳式耳机壳有哪些优点？

html从零开始8：css3新特性、动画、媒体查询、雪碧图、字体图标【搬代码】

HAL库 STM32驱动W25QXX驱动例程

C#入门及进阶|数组和集合（九）：Stack类

算法训练day31贪心算法理论基础Leetcode455分发饼干376摆动序列53最大子序和

Java与JavaScript同源不同性

【JavaEE】spring boot快速上手

【数据结构】16 二叉树的定义，性质，存储结构（以及先序、后序、中序遍历）

GPT SOVITS项目一分钟克隆（文字输出）

python34-Python列表和元组之加法

不做程序员了（转岗半年后对程序员岗位的思考）

DS：八大排序之直接插入排序、希尔排序和选择排序