当前位置: 首页 > news >正文

【vLLM 学习】欢迎来到 vLLM!

vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。

更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/

vLLM 是一个快速且易于使用的库,专为大型语言模型 (LLM) 的推理和部署而设计。

vLLM 的核心特性包括:

  • 最先进的服务吞吐量
  • 使用 PagedAttention 高效管理注意力键和值的内存
  • 连续批处理传入请求
  • 使用 CUDA/HIP 图实现快速执行模型
  • 量化: GPTQ, AWQ, INT4, INT8, 和 FP8
  • 优化的 CUDA 内核,包括与 FlashAttention 和 FlashInfer 的集成
  • 推测性解码
  • 分块预填充

vLLM 的灵活性和易用性体现在以下方面:

  • 无缝集成流行的 HuggingFace 模型

  • 具有高吞吐量服务以及各种解码算法,包括并行采样、束搜索等

  • 支持张量并行和流水线并行的分布式推理

  • 流式输出

  • 提供与 OpenAI 兼容的 API 服务器

  • 支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、TPU 以及 AWS Neuron

  • 前缀缓存支持

  • 支持多 LoRA

欲了解更多信息,请参阅以下内容:

  • vLLM announcing blog post (PagedAttention 教程)

  • vLLM paper (SOSP 2023)

  • How continuous batching enables 23x throughput in LLM inference while reducing p50 latency by Cade Daniel et al.

  • vLLM 聚会

文档

入门

安装

使用 ROCm 进行安装

使用 OpenVINO 进行安装

使用 CPU 进行安装

使用 Neuron 进行安装

使用 TPU 进行安装

使用 XPU 进行安装

快速入门

调试提示

示例

部署

OpenAI 兼容服务器

使用 Docker 部署

分布式推理和服务

生产指标

环境变量

使用统计数据收集

整合

使用 CoreWeave 的 Tensorizer 加载模型

兼容性矩阵

常见问题解答

模型

支持的模型

添加新模型

启用多模态输入

引擎参数

使用 LoRA 适配器

使用 VLMs

在 vLLM 中使用推测性解码

性能和调优

量化

量化内核支持的硬件

AutoAWQ

BitsAndBytes

GGUF

INT8 W8A8

FP8 W8A8

FP8 E5M2 KV 缓存

FP8 E4M3 KV 缓存

自动前缀缓存

简介

实现

广义缓存策略

性能基准测试

vLLM 的基准套件

开发者文档

采样参数

离线推理

  • LLM 类

  • LLM 输入

vLLM 引擎

LLM 引擎

  • LLMEngine

  • AsyncLLMEngine

vLLM 分页注意力

  • 输入处理

  • 概念

  • 查询

  • QK

  • Softmax

  • LV

  • 输出

输入处理

  • 指南

  • 模块内容

多模态

  • 指南

  • 模块内容

Docker 文件

vLLM 性能分析

  • 示例命令和用法

  • 离线推理

  • OpenAI 服务器

社区

vLLM 聚会

赞助商

索引和表格

  • 索引

  • 模块索引

http://www.lryc.cn/news/514910.html

相关文章:

  • 现代网络基础设施中的 TCP 握手之下
  • GRAPE——RLAIF微调VLA模型:通过偏好对齐提升机器人策略的泛化能力(含24年具身模型汇总)
  • NeurIPS 2024 | 像素级LLM实现图像视频理解、生成、分割和编辑大统一(昆仑万维等)
  • 中药和西药的区别
  • Spring Security(maven项目) 3.0.2.4版本
  • 【Ubuntu】安装华为的MindSpore
  • 【模型】Qwen2-VL 服务端UI
  • 计算机网络•自顶向下方法:网络层介绍、路由器的组成
  • 安卓11 SysteUI添加按钮以及下拉状态栏的色温调节按钮
  • 多个线程处理不同的数据,等线程都完成后再进行下一步操作
  • 聆听音乐 1.5.9 | 畅听全网音乐,支持无损音质下载
  • Rust 基础入门指南
  • 青少年编程与数学 02-006 前端开发框架VUE 03课题、编写APP组件
  • 基于Java的银行排号系统的设计与实现【源码+文档+部署讲解】
  • linux-26 文件管理(四)install
  • VS2015中使用boost库函数时报错问题解决error C4996 ‘std::_Copy_impl‘
  • pikachu靶场--目录遍历和敏感信息泄露
  • 植物大战僵尸杂交版3.0.2版本
  • kafka怎么保证顺序消费?
  • Makefile 模板 --- 内核模块
  • 仓库叉车高科技安全辅助设备——AI防碰撞系统N2024G-2
  • 计算机视觉CV期末总复习
  • 【微信小程序获取用户手机号
  • WFP Listbox绑定数据后,数据变化的刷新
  • Android Camera压力测试工具
  • 【华为OD-E卷 - 最优资源分配 100分(python、java、c++、js、c)】
  • 字符串格式时间(HH-MM)添加间隔时间后转为HH-MM输出
  • SQL 基础教程 - SQL ORDER BY 关键字
  • STM32 软件I2C读写
  • neo4j学习笔记