当前位置：首页 > news >正文

KV cache

news 2025/8/21 6:50:11

键值缓存 (KV) 发生在多个 token 生成步骤中，并且仅发生在解码器中（例如，在 GPT 等仅解码器模型中，或在 T5 等编码器-解码器模型的解码器部分中）。BERT 等模型不是生成式的，因此没有键值缓存。

由于解码器是因果的（即，一个标记的注意力仅取决于其前面的标记），因此在每个生成步骤中，我们都在重新计算相同的先前标记的注意力，而实际上我们只是想计算新标记的注意力。

这就是键值对 (KV) 发挥作用的地方。通过缓存之前的键和值，我们可以专注于计算新 token 的注意力。

为什么这种优化重要吗？如上图所示，使用键值缓存获得的矩阵要小得多，从而可以加快矩阵乘法的速度。唯一的缺点是它需要更多的 GPU 显存（如果不使用 GPU，则需要更多的 CPU 显存）来缓存键和值的状态。

http://www.lryc.cn/news/626332.html

相关文章：

在Excel和WPS表格中制作可打印的九九乘法表

MySQL事务及原理详解

MySQL 数据与表结构导出 Excel 技术文档

如何使用matlab将目录下不同的excel表合并成一个表

python中view把矩阵维度降低的时候是什么一个排序顺序

系统架构设计师备考第1天——系统架构概述

深入Linux内核：架构设计与核心功能解析

车联网（V2X）中万物的重新定义---联网汽车新时代

自动驾驶汽车机器学习安全实用解决方案

RK android14 Setting一级菜单IR遥控器无法聚焦问题解决方法

Building Systems with the ChatGPT API 使用 ChatGPT API 搭建系统(第二章学习笔记及总结)

汽车ECU实现数据安全存储（机密性保护）的一种方案

【openssl】openssl CA.pl 签发证书操作步骤

Redis String全方位指南：命令、编码、时间复杂度与应用场景

RK-Android11-PackageInstaller安装器自动安装功能实现

KubeBlocks AI：AI时代的云原生数据库运维探索

3D文档控件Aspose.3D实用教程：使用 C# 构建 OBJ 到 U3D 转换器

Origin将普通点线图升级为3D点线图

ETL 工具选型评测：2025 年 Top 5 工具优缺点对比（附评分表）

【自记】Power BI 中FILTER、CALCULATE 和 CALCULATETABLE 三个函数详细说明

React框架超详细入门到实战项目演练【前端】【React】

React15.x版本子组件调用父组件的方法，从props中拿的，这个方法里面有个setState，结果调用报错

【Coze】Windows 环境下使用 Docker 部署 Coze Studio 的详细指南

基于分布式环境的令牌桶与漏桶限流算法对比与实践指南

Day 40:训练和测试的规范写法

008.Redis Cluster集群架构实践

RabbitMQ：SpringAMQP Topic Exchange（主题交换机）

Linux中Cobbler服务部署与配置（快速部署和管理 Linux 系统）

mac电脑软件左上角的关闭/最小化/最大化按钮菜单的宽度和高度是多少像素

Mac 4步安装 Jenv 管理多版本JDK