当前位置：首页 > article >正文

LLM优化技术——Paged Attention

article 2025/8/23 13:11:14

在Transformer decoding的过程中，需要存储过去tokens的所有Keys和Values，以完成self attention的计算，称之为KV cache。

（1）KV cache的大小

可以计算存储KV cache所需的内存大小：

batch * layers * kv-heads * n_emd * length * 2(K & V) * bytes

对于Llama-2-70B（MHA），KV cache需要的内存大小为：

batch * 80 * 64 * 128 * N * 2 * 2（FP16） = 2.5 MB * BS * N

（2）KV cache中存在内存浪费

内部碎片化 (Internal Fragmentation)： 由于输出长度未知而过度分配内存。
预留 (Reservation)： 当前步骤未使用，但未来步骤需要的内存。
外部碎片化 (External Fragmentation)： 由于不同请求序列长度不同导致的内存空隙。

（3）Paged Attention

在不连续的内存空间中存储连续的keys和values

http://www.lryc.cn/news/2394149.html

相关文章：

推荐几个不错的AI入门学习视频

采用Bright Data+n8n+AI打造自动化新闻助手：每天5分钟实现内容日更

Real SQL Programming

Sentinel限流熔断机制实战

Java 数据处理 - 数值转不同进制的字符串（数值转十进制字符串、数值转二进制字符串、数值转八进制字符串、数值转十六进制字符串）

79. 单词搜索-极致优化，可行性剪枝和顺序剪枝

ICDMC 2025：创新媒体模式，迎接数字时代的挑战

深入解析C#多态性：基类引用、虚方法与覆写机制

SoftThinking：让模型学会模糊思考，同时提升准确性和推理速度！！

C++中 newdelete 与 mallocfree 的异同详解

晨控CK-UR08与欧姆龙PLC配置Ethernet/IP通讯连接操作手册

STM32入门教程——LED闪烁LED流水灯蜂鸣器

鸿蒙OSUniApp 实现的数据可视化图表组件#三方框架 #Uniapp

Tornado WebSocket实时聊天实例

HarmonyOS鸿蒙与React Native的融合开发模式以及能否增加对性能优化的具体案例

化学分析原理。

开源即战力！从科研到商用：Hello Robot 移动操作机器人Stretch 3多模态传感融合（RGB-D/激光/力矩）控制方案

元胞自动机（Cellular Automata, CA）

智能手表单元测试报告（Unit Test Report）

微深节能码头装卸船机定位与控制系统格雷母线

基于matlab遗传算法和模拟退火算法求解三维装箱优化问题

在Spring Boot中集成Redis进行缓存

Python实现P-PSO优化算法优化循环神经网络LSTM分类模型项目实战

OSG编译wasm尝试

Scratch节日 | 龙舟比赛 | 端午节

Ubuntu搭建DNS服务器

electron开发百度桌面应用demo及如何打包应用

关于用Cloudflare的Zero Trust实现绕过备案访问国内站点说明

2025年DDoS混合CC攻击防御全攻略：构建智能弹性防护体系

方正字库助力华为，赋能鸿蒙电脑打造全场景字体解决方案