当前位置: 首页 > news >正文

LLM大模型推理加速 vLLM

参考:
https://github.com/vllm-project/vllm
https://zhuanlan.zhihu.com/p/645732302

https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html ##文档

在这里插入图片描述

加速原理:
PagedAttention,主要是利用kv缓存
在这里插入图片描述

使用:

##启动正常api服务
python -m vllm.entrypoints.api_server  --model  ./qwen-6b-model --swap-space 16  --disable-log-requests --host 192.168.19.14 --port 10860 --max-num-seqs 
256 --trust-remote-code --tensor-parallel-size 2  ##启动openai形式  api服务
python -m vllm.entrypoints.openai.api_server  --model  ./qwen-6b-model --swap-space 16  --disable-log-requests --host 192.168.19.14 --port 10860 --max-nu
m-seqs 256 --trust-remote-code --tensor-parallel-size 2    

在这里插入图片描述

api访问:

import requests
import jsonheaders = {"User-Agent": "Test Client"}
pload = {"prompt": "你能做什么","n": 2,"use_beam_search": True,"temperature": 0.0,"max_tokens": 16,"stream": False,}
response = requests.post("http://192.168.19.14:10860/generate", headers=headers, json=pload, stream=True)
print(response)
print(json.loads(response.content)["text"])

问题

现在中文qwen模型运行返回的基本都是乱码,不知道是不是vLLM支持的问题?

在这里插入图片描述

http://www.lryc.cn/news/154355.html

相关文章:

  • Python|小游戏之猫捉老鼠!!!
  • 万里路,咫尺间:汽车与芯片的智能之遇
  • Ubuntu22.04.1上 mosquitto安装及mosquitto-auth-plug 认证插件配置
  • CCKS2023:基于企业数仓和大语言模型构建面向场景的智能应用
  • LeetCode 热题 100——无重复字符的最长子串(滑动窗口)
  • 【zookeeper】zookeeper的shell操作
  • R语言Meta分析核心技术
  • Oracle数据库尚硅谷学习笔记
  • CG MAGIC进行实体渲染后!分析渲染器CR和VR的区别之处!
  • Ubuntu下Python3与Python2相互切换
  • 【深度学习】实验07 使用TensorFlow完成逻辑回归
  • 2023-09-04 Linux 让shell编译脚本里面设置的环境变量改变kernel里面驱动文件的宏定义值方法,我这里用来做修改固件版本
  • Python操作Excel实战:Excel行转列
  • java实现迭代器模式
  • C++day7模板、异常、auto关键字、lambda表达式、数据类型转换、STL、list、文件操作
  • 【校招VIP】产品分析之活动策划宣传
  • node基础之一:fs 模块
  • 如何快速搭建母婴行业的微信小程序?
  • 【科普向】Jmeter 如何测试接口保姆式教程
  • 阿里云2核4G服务器5M带宽5年费用价格明细表
  • 【图解RabbitMQ-2】图解JMS规范与AMQP协议是什么
  • springboot整合mybatis实现增删改查(xml)--项目阶段1
  • springboot文件上传异步报错
  • error: unable to unlink old ‘.gitlab-ci.yml‘: Permission denied
  • AJAX学习笔记3练习
  • springboot实战(五)之sql业务日志输出,重要
  • redis7.2.0 centos源码编译安装并设置开机自启动
  • 网易低代码引擎Tango正式开源
  • Apache Linkis 与 OceanBase 集成:实现数据分析速度提升
  • EXPLAIN概述与字段剖析