当前位置: 首页 > news >正文

vLLM介绍

简介

vLLM 工程github地址
Paged attention论文地址

vLLM开发者介绍

Woosuk Kwon

vLLM: A high-throughput and memory-efficient inference and serving engine for LLMs.
SkyPilot: A framework for easily and cost effectively running machine learning workloads on any cloud.

Zhuohan Li

vLLM: A high-throughput and memory-efficient serving engine for large language models, accelerated with PagedAttention.
Vicuna: An open-source chatbot impressing GPT-4 with 90% ChatGPT quality.
AlpaServe: Use model parallelism to accelerate deep learning serving, even when models fit a single GPU.
Alpa: Automate model parallel training with just a few lines of code.

Features

  • SOTA最先进的服务吞吐量
  • 高效的显存管理:PagedAttention高效管理kv memory,multi-query attention
  • 传入请求的Continuous batching
  • 优化的CUDA kernels。比如从Faster Transformer release 5.3中移植过来的attention kernel。实现了layernorm和position encoding kernels。
  • 支持多卡GPU推理,目前只支持Tensor parallel,不支持pipeline parallel
  • 最新开源模型支持,更新速度非常快:llama, llama2, 百川,通义千问,书生等等

主要解决的问题

由于LLMs以迭代方式生成其输出,LLM服务的性能受到内存的限制(内存和IO受限型memory-IO bound),计算资源不是瓶颈。就是说,当前将1MB的数据加载到GPU的计算核心所花费的时间比这些计算core对1MB数据执行LLM计算所花费的更多。这意味着LLM推理吞吐量在很大程度上取决于您可以将多大的batch放入高带宽GPU内存。参见(processor’s ops:byte ratio.)
在自回归解码过程中,LLM的所有输入tokens产生它们的attention key and value tensors,并且这些tensors被保存在GPU存储器中以生成下一个token。这些缓存的key and value tensors通常被称为KV缓存。由于碎片和过度预留,现有系统浪费了60%-80%的显卡内存。

vLLM的解决方案

减少显存的碎片和过度预留问题可以显著的提升推理性能。VLLM的主要解决思路是:

  • continuous batchingbatch介绍
  • Paged attentionvLLM blog

以下是 AnyScale 公司针对VLLM做的continuous-batching-llm-inference评测结论:
我们想要看看这种优化的性能如何。我们将详细讨论以下内容,包括我们如何模拟生产工作负载,但是总结我们的发现:

  • 使用continuous batching和Paged attention内存优化(使用vLLM),吞吐量可提高高达23倍。
  • 通过使用continuous batching(在Ray Serve和Hugging Face的text-generation-inference上),吞吐量比简单batch提高8倍。
  • 通过优化的模型实现(NVIDIA的Faster Transformer优化介绍),吞吐量比简单batch提高4倍。

vLLM Work Through

详细参考绑定的资源:vLLM First SF Meetup Slides。是2个作者写的比较详细

性能评测 TBD

http://www.lryc.cn/news/255419.html

相关文章:

  • DevOps搭建(一)-之swappiness安装详细步骤
  • 微软发布Orca2,“调教式”教会小规模大语言模型如何推理!
  • JVM 内存回收算法
  • 11.28~11.29基本二叉树的性质、定义、复习;排序算法;堆
  • 轮播插件Slick.js使用方法详解
  • postgresql pg_hba.conf 配置详解
  • 使用粗糙贴图制作粗纹皮革手提包3D模型
  • Chrome清除特定网站的Cookie,从而让网址能正常运行(例如GPT)
  • history路由解决刷新出现404的问题
  • ubuntu22下使用nvidia 2080T显卡部署pytorch
  • 【Spark基础】-- 理解 Spark shuffle
  • 软件测试入门:静态测试
  • 力扣labuladong一刷day30天二叉树
  • 【云原生-K8s】检查yaml文件安全配置kubesec部署及使用
  • LeetCode力扣每日一题(Java):20、有效的括号
  • 解决Flutter运行报错Could not run build/ios/iphoneos/Runner.app
  • 配置Smart Link主备备份示例
  • 03-微服务架构构建之微服务拆分
  • Linus:我休假的时候也会带着电脑,否则会感觉很无聊
  • 快速排序的新用法
  • 利用乔拓云SAAS系统,快速、高效搭建小程序
  • Kubernetes(K8s 1.27.x) 快速上手+实践,无废话纯享版
  • 非常抱歉的通知
  • rust 包模块组织结构
  • 深入浅出:HTTPS单向与双向认证及证书解析20231208
  • 水利安全监测方案——基于RTU200的解决方案
  • 安卓开发学习---kotlin版---笔记(一)
  • 挑选在线客服系统的七大注意事项
  • 剧本杀小程序搭建:打造线上剧本杀新体验
  • 机器学习实战:预测波士顿房价