当前位置: 首页 > news >正文

快速搭建大模型web对话环境指南(open-webUI)

前言

本环境需 提前装好pytouch conda cuda nvidia驱动

环境准备参考之前文档:

​​​​​​wsl2 ubuntu子系统安装显卡驱动与cuda_wsl2显卡驱动-CSDN博客

ubuntu NVIDIA驱动安装_warning: this nvidia driver package includes vulka-CSDN博客

效果:

参考官方文档

open-webui:🏡 Home | Open WebUI

魔塔社区:通义千问3-0.6B

部署vllm大模型推理服务框架

创建虚拟环境

conda create -p /root/autodl-tmp/myenv  python=3.12

初始化conda

conda init

之后重新打开bash或刷新环境变量

source ~/.bashrc#之后可以看到命令行前面多了个(base) 这是进入到了conda默认环境
(base) root@autodl-container-b781468847-e1214d5b:~# 

进入刚刚创建的环境

conda activate /root/autodl-tmp/myenv #显示如下(base) root@autodl-container-b781468847-e1214d5b:~# conda activate /root/autodl-tmp/myenv 
(/root/autodl-tmp/myenv) root@autodl-container-b781468847-e1214d5b:~# 

安装模型下载组件modelscope与模型运行高性能推理服务框架vllm

pip install modelscope vllm

下载并部署大模型

创建大模型存储目录

mkdir -p /root/autodl-tmp/models/Qwen3-0.6B

下载模型到指定目录

modelscope download --model Qwen/Qwen3-0.6B --local_dir /root/autodl-tmp/m
odels/Qwen3-0.6B

使用vllm启动大模型

VLLM_USE_MODELSCOPE=true vllm serve /root/autodl-tmp/models/Qwen3-0.6B --tensor-parallel-size 1 --max-model-len 32768# VLLM_USE_MODLESCOPE=true 是强制指定从modelscope启动模型,如果模型没有下载会自动从modelscope下载
# --tensor-parallel-size 1 使用一块儿显卡运行
# --max-model-len 32768 最大输入token

启动成功会提示

INFO 07-03 22:05:19 [api_server.py:1349] Starting vLLM API server 0 on http://0.0.0.0:8000
...
INFO:     Started server process [2840]
INFO:     Waiting for application startup.
INFO:     Application startup complete.

部署并启动open-webUI

创建open-webui的虚拟环境并安装open-webui

conda create -p /root/autodl-tmp/open-webui python=3.12
conda activate /root/autodl-tmp/open-webui/
pip install open-webui

启动open-webui (默认监听在8080端口)

open-webui serve

之后访问该8080端口

之后注册账号登录后 配置好本地vllm启动的大模型

可以看到刚刚启动的模型

之后就可以通过大模型开始对话了

http://www.lryc.cn/news/579363.html

相关文章:

  • 12. grafana-Dashboard的Variable(过滤)使用
  • vbox 虚拟共享文件夹 创建以及权限问题
  • 多模态AI Agent技术栈解析:视觉-语言-决策融合的算法原理与实践
  • [特殊字符] 从图片自动生成 Excel:Python 批量 OCR 表格识别实战
  • 高压电缆护层安全的智能防线:TLKS-PLGD 监控设备深度解析
  • Redis 消息的发布和订阅
  • C++11 shared_ptr 原理与详细教程
  • 算法分析的系统性总结
  • FFmpeg开发笔记(七十七)Android的开源音视频剪辑框架RxFFmpeg
  • Python 物联网(IoT)与边缘计算开发实战(1)
  • 基于多线程实现链表快排
  • 如何有效的开展接口自动化测试?
  • Linux之Socket 编程 UDP
  • C++ 项目实践:如何用对象池优化内存管理、解决 MISRA 报警
  • 制作一款打飞机游戏76:分数显示
  • CentOS系统高效部署fastGPT全攻略
  • Android音视频探索之旅 | CMake基础语法 创建支持Ffmpeg的Android项目
  • 电脑CPU使用率占用100%怎么办 解决步骤指南
  • 按键精灵 安卓脚本开发:游戏实战之自动切换账号辅助工具
  • 需要scl来指定编译器的clangd+cmake在vscode/cursor开发环境下的配置
  • reactnative页面适配UI设计尺寸px转dp的完美解决方案px2dp
  • 9.Docker的容器数据卷使用(挂载)
  • CAD2018,矩形设计,新增文字,块新增与打散
  • snail-job的oracle sql(oracle 11g)
  • OFD|WPS|PDF 文档在线预览-高级功能
  • 前置代理重构网络访问的「中转站」
  • AI大模型的技术演进、流程重构、行业影响三个维度的系统性分析
  • 嵌入式系统中实现串口重定向
  • DMN方式的特点
  • 《P2572 [SCOI2010] 序列操作》