当前位置：首页 > news >正文

ollama+FastAPI部署后端大模型调用接口

news 2025/6/30 10:05:20

ollama+FastAPI部署后端大模型调用接口

记录一下开源大模型的后端调用接口过程

一、ollama下载及运行

1. ollama安装

ollama是一个本地部署开源大模型的软件，可以运行llama、gemma、qwen等国内外开源大模型，也可以部署自己训练的大模型

ollama国内地址

下载安装，并运行

PixPin_2025-01-06_10-53-53

ollama图标出现在折叠的任务栏中，就算安装成功了

2. 下载并运行大模型

在ollama管理的模型中，找到自己想要部署的大模型，以qwen2.5-7B大模型为例

ollama启动状态下，终端执行如下命令：

ollama run qwen2.5

如果是首次运行，会先下载，下载之后，就可以运行起来了

PixPin_2025-01-06_11-01-29

此时，已经可以在终端访问大模型了

二、后端接口调用

ollama运行的本地大模型端口号为11434，可以在线调用

有多种方式可以实现大模型的后端调用，只要是后端语言，都可以

因为我的后端有其他深度学习模型要调用，所以我选用的后端语言是python，调用大模型时，自然也选择了python，接口框架使用的是fastapi

后端调用程序如下：

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author:HP
# datetime:2024/11/11 8:43
from fastapi import HTTPException, APIRouter
import requests
import json
from .inputData import GenerateRequestbig_model_api = APIRouter()# 定义 Ollama API 的 URL
OLLAMA_API_URL = "http://localhost:11434/v1/completions"  # Ollama 默认运行在本地 11434 端口@big_model_api.post('/llama')
async def generate_text(request: GenerateRequest):# 设置请求头和请求数据headers = {"Content-Type": "application/json"}data = {"model": request.model,"prompt": request.prompt,"temperature": request.temperature,"max_tokens": request.max_tokens,}# 发送请求给 Ollama APIresponse = requests.post(OLLAMA_API_URL, headers=headers, data=json.dumps(data))# 检查响应状态并处理结果if response.status_code == 200:result = response.json()return {"generated_text": result.get("choices")[0].get("text")}else:raise HTTPException(status_code=response.status_code, detail=response.text)

这里使用的是分布式路由接口，在fastapi的主程序中加入这个名为big_model_api的APIRouter实例，就可以在前端访问这个接口了

当然，需要配合pydantic定义好请求数据的结构，GenerateRequest类定义如下：

# 数据模型，用于接收请求数据
class GenerateRequest(BaseModel):model: str = "qwen2.5"  # 模型名称prompt: str  # 输入的 prompttemperature: float = 0.7  # 温度参数，默认为 0.7max_tokens: int = 1000  # 最大生成的 token 数，默认为 200