当前位置：首页 > news >正文

vllm本地部署qwen3-4b

news 2025/7/16 9:42:15

vllm部署qwen3-4b

文章目录

vllm部署qwen3-4b
- 一、环境
- - 1.1 虚拟环境创建
- 二、下载
- - 2.1 下载模型到本地路径models/Qwen3-4B
  - 2.2 测试大模型是否下载成功
- 三、启动 vLLM 的 OpenAI 兼容服务

一、环境

系统环境及GPU：ubuntu24.04+GPU 型号是 NVIDIA GeForce RTX 3090+cuda12.8

1.1 虚拟环境创建

conda create -n vllm python=3.10

激活虚拟环境并下载vllm

conda activate vllm
pip install vllm

二、下载

2.1 下载模型到本地路径models/Qwen3-4B

#huggingface网站的国内镜像网址
import os
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'from huggingface_hub import snapshot_download
snapshot_download(repo_id="Qwen/Qwen3-4B",cache_dir="./cache", local_dir="models/Qwen3-4B")
print("======download successful=====")

在这里插入图片描述

http://www.lryc.cn/news/589179.html

相关文章：

2.【C# in .NET】探秘数据类型：从底层机制到实战启示

简单2步配置CadenceSkill开发编辑器，支持关键字高亮

正则表达式使用示例

Ajax接收java后端传递的json对象包含长整型被截断导致丢失精度的解决方案

Flink SQL 性能优化实战

Nginx的反向代理

光米投影多余之物的本思

IPM31主板E3300usb键盘鼠标安装成功Sata接口硬盘IDE模式server2003-nt-5.2.3790

服务器上PHP环境安装与更新版本和扩展（安装PHP、Nginx、Redis、Swoole和OPcache）

26.将 Python 列表拆分为多个小块

22.计算指定范围内数字的幂次和

【c++】在const成员函数中使用mutex

CCF-GESP 等级考试 2025年6月认证Python四级真题解析

【时时三省】(C语言基础)通过指针引用多维数组

mac上的app如何自动分类

MongoDB 数据库启用访问控制

GitHub 上 Star 数量前 8 的开源 Web 应用项目

AI大模型开发架构设计（22）——LangChain的大模型架构案例实战

飞搭系列 | 子事件流节点，让逻辑复用更简单！

error: #147: declaration is incompatible with错误解决

从OSI到TCP/IP：Linux网络架构深度解析

【15】MFC入门到精通——MFC弹窗提示 MFC关闭对话框弹窗提示 MFC按键触发弹窗提示

OpenCV图像自动缩放（Autoscaling）函数autoscaling()

如何加固Web服务器的安全？

Volo-HTTP 0.4.0发布：正式支持 HTTP/2，客户端易用性大幅提升！

python学习---dayday6

AbMole小课堂 | Angiotensin II（血管紧张素Ⅱ）在心血管研究中的多元应用

Kimi-K2与DeepSeek-Chat全面对比：哪款AI大模型更强？

【Python】定时器快速实现

React响应式组件范式：从类组件到Hooks