当前位置: 首页 > news >正文

大模型分布式推理ray

一、目录

1 框架
2. 入门
3. 安装教程
4. 相关文档、案例阅读

二、实现

1 框架:Ray:将一个模型拆分到多个显卡中,实现分布式预测、训练等功能。
2. 入门 :
案例:通过ray 实现分布式部署,分布式推理服务。
参考:https://zhuanlan.zhihu.com/p/647973148?utm_id=0
文件名:test.py
pip install ray
pip install “ray[serve]”

import pandas as pdimport ray
from ray import serve
from starlette.requests import Request@serve.deployment(ray_actor_options={"num_gpus": 2})        #两个gpu 将模型拆分,进行推理
class PredictDeployment:def __init__(self, model_id: str):from transformers import AutoModelForCausalLM, AutoTokenizerimport torchself.model = AutoModelForCausalLM.from_pretrained(model_id,torch_dtype=torch.float16,device_map="auto",)self.tokenizer = AutoTokenizer.from_pretrained(model_id)def generate(self, text: str) -> pd.DataFrame:input_ids = self.tokenizer(text, return_tensors="pt").input_ids.to(self.model.device)gen_tokens = self.model.generate(input_ids,temperature=0.9,max_length=200,)return pd.DataFrame(self.tokenizer.batch_decode(gen_tokens), columns=["responses"])async def __call__(self, http_request: Request) -> str:    #异步实现http 框架json_request: str = await http_request.json()print(json_request)prompt=json_request[0]return self.generate(prompt["text"])deployment = PredictDeployment.bind(model_id="huggyllama/llama-13b")

运行>> serve run test:deployment #后台启动的 后台关闭指令: serve shutdown
测试:

import requests
sample_input = {"text": "Funniest joke ever:"}
output = requests.post("http://localhost:8000/", json=[sample_input]).json()
print(output)
  1. 安装教程
    pip install ray
    依赖环境:https://github.com/ray-project/ray
  2. 相关文档、案例阅读
    网址: https://github.com/ray-project/ray
    文档-案例:https://docs.ray.io/en/latest/serve/index.html在这里插入图片描述
http://www.lryc.cn/news/325649.html

相关文章:

  • Python学习:循环语句
  • 【物联网开源平台】tingsboard二次开发
  • Vue+ELement UI el-table移入或选中某行时改变颜色
  • 【Git】日志功能
  • 【网络爬虫】(1) 网络请求,urllib库介绍
  • yolov9目标检测可视化图形界面GUI源码
  • 美团2024届秋招笔试第二场编程真题
  • Server-u配置FTP 多用户访问多目录图解
  • ARM IHI0069F GIC architecture specification (1)
  • golang+vue微服务电商系统
  • 2024年大模型面试准备(三):聊一聊大模型的幻觉问题
  • 微信小程序实战:无痛集成腾讯地图服务
  • [flask]flask的路由
  • javaWeb项目-快捷酒店信息管理系统功能介绍
  • C++ primer 第十五章
  • 【数据结构与算法】直接插入排序和希尔排序
  • HQL,SQL刷题,尚硅谷
  • 随机生成用户名、密码、注册时间【Excel】
  • C++函数模板详解(结合代码)
  • Nest学习随笔
  • 二十二、软考-系统架构设计师笔记-真题解析-2018年真题
  • 2024最新最全Selenium自动化测试面试题!
  • Docker 搭建Redis集群
  • spring boot商城、商城源码 欢迎交流
  • 全面解析“通义千问”:功能、优势与使用指南
  • 【第三方登录】Google邮箱
  • oslo_config学习小结
  • SpringBoot2.6.3 + knife4j-openapi3
  • PostgreSQL FDW(外部表) 简介
  • Java项目:75 springboot房产销售系统