当前位置: 首页 > news >正文

GPUStack使用

1. 概述

官网:https://github.com/gpustack

Open-source GPU cluster manager for running large language models(LLMs)

https://github.com/gpustack/gpustack,Manage GPU clusters for running AI models

GPUStack 是一个用于运行 AI 模型的开源 GPU 集群管理器。

官网特性介绍,具体可以参见相关 gpustack/README_CN.md at main · gpustack/gpustack

一个 100% 开源的大模型服务平台,用户只需要简单的设置,就可以高效整合包括 NVIDIA、Apple Metal、华为昇腾和摩尔线程在内的各种异构 GPU/NPU 资源,构建异构 GPU 集群,在私有环境提供企业级的大模型部署解决方案。

GPUStack 支持私有化部署 RAG 系统和 AI Agent 系统所需的各种关键模型,包括 LLM 大语言模型、VLM 多模态模型、Embedding 文本嵌入模型、Rerank 重排序模型、Text-to-Image 文生图模型,以及 Speech-to-Text(STT)和 Text-to-Speech(TTS)语音模型等。并提供统一认证和高可用负载均衡的 OpenAI 兼容 API,供用户从各类大模型云服务无缝迁移到本地部署的私有大模型服务。

GPUStack 是一个集群化和自动化的大模型部署解决方案,用户不需要手动管理多台 GPU 节点和手动协调分配资源,通过 GPUStack 内置的紧凑调度、分散调度、指定 Worker 标签调度、指定 GPU 调度等各种调度策略,用户无需手动干预即可自动分配合适的 GPU 资源来运行大模型。

对于无法在单个 GPU 节点运行的大参数量模型,GPUStack 提供分布式推理功能,可以自动将模型运行在跨主机的多个 GPU 上。同时,在实验环境中,用户还可以采用 GPU&CPU 混合推理纯 CPU 推理模式,利用 CPU 算力来运行大模型,提供更广泛的兼容性和灵活性。

真实原因:在工作中选择这个平台的一个原因是,我用ollama无法很好的支撑 bge 等embedding模型。后来找到了Xinference平台,确实不错,但出现了一个小问题&#

http://www.lryc.cn/news/524355.html

相关文章:

  • 如何选择一款助贷获客系统?
  • GDB相比IDE有什么优点
  • 介绍用于机器学习的 Fashion-MNIST 数据集
  • 【GitHub】登录时的2FA验证
  • CSDN年度回顾:技术征途上的坚实步伐
  • Kotlin Bytedeco OpenCV 图像图像57 图像ROI
  • 支持大功率输出高速频闪的图像处理用光源控制器
  • 《从入门到精通:蓝桥杯编程大赛知识点全攻略》(五)-数的三次方根、机器人跳跃问题、四平方和
  • Java-数据结构-二叉树习题(2)
  • 解锁面向对象编程:Python 类与对象详解
  • 国产编辑器EverEdit -重复行
  • 记一次数据库连接 bug
  • 【Springboot相关知识】Springboot结合SpringSecurity实现身份认证以及接口鉴权
  • 算法竞赛之差分进阶——等差数列差分 python
  • 20250121在Ubuntu20.04.6下使用Linux_Upgrade_Tool工具给荣品的PRO-RK3566开发板刷机
  • 【Elasticsearch】Springboot编写Elasticsearch的RestAPI
  • Python数据可视化(够用版):懂基础 + 专业的图表抛给Tableau等专业绘图工具
  • 1.21学习
  • SoftGNSS软件接收机源码阅读(一)程序简介、运行调试、执行流程
  • Spring Boot AOP实现动态数据脱敏
  • Leetcode刷题-二分查找
  • 凭证Account Assignment的校验(FAGL_VALIDATE)
  • 【20】Word:小许-质量管理-论文❗
  • 二十八、Qos服务质量
  • Flutter 改完安卓 applicationId 后App 闪退问题。
  • es 3期 第25节-运用Rollup减少数据存储
  • 小菜鸟系统学习Python第三天
  • 七.网络模型
  • 1170 Safari Park (25)
  • 数字图像处理:实验五