当前位置: 首页 > article >正文

LLM优化技术——Paged Attention

在Transformer decoding的过程中,需要存储过去tokens的所有Keys和Values,以完成self attention的计算,称之为KV cache。

(1)KV cache的大小

可以计算存储KV cache所需的内存大小:

batch * layers * kv-heads * n_emd * length * 2(K & V) * bytes

对于Llama-2-70B(MHA),KV cache需要的内存大小为:

batch * 80 * 64 * 128 * N * 2 * 2(FP16) = 2.5 MB * BS * N

(2)KV cache中存在内存浪费

  • 内部碎片化 (Internal Fragmentation): 由于输出长度未知而过度分配内存。

  • 预留 (Reservation): 当前步骤未使用,但未来步骤需要的内存。

  • 外部碎片化 (External Fragmentation): 由于不同请求序列长度不同导致的内存空隙。

(3)Paged Attention

在不连续的内存空间中存储连续的keys和values

http://www.lryc.cn/news/2394149.html

相关文章:

  • 推荐几个不错的AI入门学习视频
  • 采用Bright Data+n8n+AI打造自动化新闻助手:每天5分钟实现内容日更
  • Real SQL Programming
  • Sentinel限流熔断机制实战
  • Java 数据处理 - 数值转不同进制的字符串(数值转十进制字符串、数值转二进制字符串、数值转八进制字符串、数值转十六进制字符串)
  • 79. 单词搜索-极致优化,可行性剪枝和顺序剪枝
  • ICDMC 2025:创新媒体模式,迎接数字时代的挑战
  • 深入解析C#多态性:基类引用、虚方法与覆写机制
  • SoftThinking:让模型学会模糊思考,同时提升准确性和推理速度!!
  • C++中 newdelete 与 mallocfree 的异同详解
  • 晨控CK-UR08与欧姆龙PLC配置Ethernet/IP通讯连接操作手册
  • STM32入门教程——LED闪烁LED流水灯蜂鸣器
  • 鸿蒙OSUniApp 实现的数据可视化图表组件#三方框架 #Uniapp
  • Tornado WebSocket实时聊天实例
  • HarmonyOS鸿蒙与React Native的融合开发模式以及能否增加对性能优化的具体案例
  • 化学分析原理。
  • 开源即战力!从科研到商用:Hello Robot 移动操作机器人Stretch 3多模态传感融合(RGB-D/激光/力矩)控制方案
  • 元胞自动机(Cellular Automata, CA)
  • 智能手表单元测试报告(Unit Test Report)
  • 微深节能 码头装卸船机定位与控制系统 格雷母线
  • 基于matlab遗传算法和模拟退火算法求解三维装箱优化问题
  • 在Spring Boot中集成Redis进行缓存
  • Python实现P-PSO优化算法优化循环神经网络LSTM分类模型项目实战
  • OSG编译wasm尝试
  • Scratch节日 | 龙舟比赛 | 端午节
  • Ubuntu搭建DNS服务器
  • electron开发百度桌面应用demo及如何打包应用
  • 关于用Cloudflare的Zero Trust实现绕过备案访问国内站点说明
  • 2025年DDoS混合CC攻击防御全攻略:构建智能弹性防护体系
  • 方正字库助力华为,赋能鸿蒙电脑打造全场景字体解决方案