当前位置：首页 > news >正文

极智AI | 大模型优化之KV Cache

news 2025/7/19 13:29:49

欢迎关注我的公众号 [极智视界]，获取我的更多经验分享

大家好，我是极智视界，本文来介绍一下大模型优化之KV Cache。

邀您加入我的知识星球「极智视界」，星球内有超多好玩的项目实战源码下载，链接：https://t.zsxq.com/0aiNxERDq

在大模型的优化中经常会听到的一个技术叫 KV Cache，要理解这个技术需要你有基本的大模型概念以及 Transformer 基础。KV Cache 的全称是 key-value cache，可以简单理解为对大模型推理过程中的 key-value 缓存的优化。如果不对大模型推理过程中的 key-value 缓存进行优化，它会随着对话的增加而不断增加，也就是所占用的内存会不断动态增加，而且这种动态内存增加是不太可控的，这就像软件里的内存溢出一样。不去做 KV Cache，会对大规模推理造成几个压力：(1) 频繁的开辟增加内存；(2) 内存很快就不够用了；(3) 增加了很多冗余矩阵计算量。所以进行 KV 缓存优化是大规模训练、推理里很重要的一个环节。KV Cache 采用以空间换时间的思想，复用上次推理的 KV 缓存，可以极大降低内存压力、提高推理性能，而且不会影响任何计算精度。

以 GPT 为代表的一个 token 一个 token 往外蹦的 AIGC 大模型为例，里面最主要的结构就是 transformer 中的 self-attention 结构的堆叠，实质是将之前计算过的 key-val

查看全文

http://www.lryc.cn/news/186648.html