当前位置：首页 > news >正文

用 llama.cpp 构建高性能本地 AI 应用：从环境搭建到多工具智能体开发全流程实战

news 2025/7/25 22:57:50

llama.cpp 是最早期且高性能的框架之一，为众多流行的本地 AI 工具（如 Ollama、本地聊天机器人及其他设备端大语言模型解决方案）提供了核心支持。通过直接使用 llama.cpp，你可以最大程度减少系统开销，获得精细化的控制权，并针对你的特定硬件优化性能，从而让本地 AI 智能体和应用运行得更快、更灵活。

在本教程中，我将带你一步步使用 llama.cpp——一个强大的 C/C++ 库，高效运行大语言模型（LLM）——来构建 AI 应用。我们将涵盖以下内容：如何搭建 llama.cpp 服务器、与 Langchain 集成，以及构建能够调用 Web 检索和 Python REPL 等工具的 ReAct 智能体。

一、搭建 llama.cpp 服务端

本节内容包括安装 llama.cpp 及其依赖、配置 CUDA 支持、编译必要的二进制文件以及运行服务端。

注意：本例中使用 NVIDIA RTX 4090 显卡、Linux 操作系统，且已预装 CUDA 工具包。如果你没有类似的本地硬件，可以选择在 Vast.ai 等平台按需租用 GPU 实例，价格更为实惠。

1. 系统环境准备

更新系统软件包索引，安装构建必备工具（如 build-essential、cmake、curl、git），pciutils 用于查看硬件信息，libcurl4-openssl-dev 用于 llama.cpp 从 Hugging Face 下载模型。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git -y

2. 克隆官方仓库并配置构建参数

# 克隆 llama.cpp 仓库
git clone https://github.com/ggml-org/llama.cpp# 配置构建（启用 CUDA 支持）
cmake llama.cpp -B llama.cpp/build \-DBUILD_SHARED_LIBS=OFF \-DGGML_CUDA=ON \-DLLAMA_CURL=ON

3. 编译所有二进制文件并整理目录

# 编译包括服务端在内的所有必要二进制文件
cmake --build llama.cpp/build --config Release -j --clean-first# 将所有编译好的可执行文件拷贝至主目录
cp llama.cpp/build/bin/* llama.cpp/

4. 启动 llama.cpp 服务端

以 unsloth/gemma-3-4b-it-GGUF 模型为例：

./llama.cpp/llama-server \-hf unsloth/gemma-3-4b-it-GGUF:Q4_K_XL \--host 0.0.0.0 \--port 8000 \--n-gpu-layers 999 \--ctx-size 8192 \--threads $(nproc) \--temp 0.6 \--cache-type-k q4_0 \--jinja

5. 服务可用性测试

通过 curl 发送 POST 请求，查看服务是否正常响应：

curl -X POST http://localhost:8000/v1/chat/completions \-H "Content-Type: application/json" \-d '{"messages": [{"role": "user", "content": "Hello! How are you today?"}],"max_tokens": 150,"temperature": 0.7}'

示例输出：

{"choices":[{"finish_reason":"length","index":0,"message":{"role":"assistant","content":"...（此处省略，见原文）"}}], ...}

二、用 Langgraph 和 llama.cpp 构建多工具 AI 智能体

现在，让我们结合 Langgraph 与 Langchain，通过 llama.cpp 搭建一个具备多工具能力的智能体。

1. 配置 Tavily API 及环境变量

Langchain 通过模拟 OpenAI API 与本地 llama.cpp 服务器通信。只需将 OPENAI_API_KEY 设为 local 或任意非空字符串，并指定本地 base_url。

export TAVILY_API_KEY="your_api_key_here"
export OPENAI_API_KEY=local

2. 安装必要的 Python 库

%%capture
!pip install -U \langgraph tavily-python langchain langchain-community langchain-experimental langchain-openai

3. 配置 Langchain 的 ChatOpenAI 对接本地服务

from langchain_openai import ChatOpenAIllm = ChatOpenAI(model="unsloth/gemma-3-4b-it-GGUF:Q4_K_XL",   temperature=0.6,base_url="http://localhost:8000/v1",         
)

4. 配置智能体可用工具

TavilySearchResults：用于 Web 检索
PythonREPLTool：内置 Python 代码解释执行

from langchain_community.tools import TavilySearchResults
from langchain_experimental.tools.python.tool import PythonREPLToolsearch_tool = TavilySearchResults(max_results=5, include_answer=True)
code_tool   = PythonREPLTool()tools = [search_tool, code_tool]

5. 创建具 ReAct 能力的智能体

from langgraph.prebuilt import create_react_agentagent = create_react_agent(model=llm,tools=tools,
)

三、智能体测试与工具调用展示

我们将测试智能体，并显示其调用的工具。

辅助函数：提取历史会话中被调用的工具名

def extract_tool_names(conversation: dict) -> list[str]:tool_names = set()for msg in conversation.get('messages', []):calls = []if hasattr(msg, 'tool_calls'):calls = msg.tool_calls or []elif isinstance(msg, dict):calls = msg.get('tool_calls') or []if not calls and isinstance(msg.get('additional_kwargs'), dict):calls = msg['additional_kwargs'].get('tool_calls', [])else:ak = getattr(msg, 'additional_kwargs', None)if isinstance(ak, dict):calls = ak.get('tool_calls', [])for call in calls:if isinstance(call, dict):if 'name' in call:tool_names.add(call['name'])elif 'function' in call and isinstance(call['function'], dict):fn = call['function']if 'name' in fn:tool_names.add(fn['name'])return sorted(tool_names)

智能体问答封装函数

def run_agent(question: str):result = agent.invoke({"messages": [{"role": "user", "content": question}]})raw_answer = result["messages"][-1].contenttools_used = extract_tool_names(result)return tools_used, raw_answer

测试 1：获取最新新闻

tools, answer = run_agent("What are the top 5 breaking news stories?")
print("Tools used ➡️", tools)
print(answer)

输出示例：

Tools used ➡️ ['tavily_search_results_json']
Here are the top 5 breaking news stories based on the provided sources:

Gaza Humanitarian Crisis: ...
Russian Drone Attacks on Kharkiv: ...
Wagner Group Departure from Mali: ...
Trump-Musk Feud: ...
Education Department Staffing Cuts: ...

测试 2：让智能体编写并执行斐波那契数列代码

tools, answer = run_agent("Write a code for the Fibonacci series and execute it using Python REPL."
)
print("Tools used ➡️", tools)
print(answer)

输出示例：

Tools used ➡️ ['Python_REPL']
The Fibonacci series up to 10 terms is [0, 1, 1, 2, 3, 5, 8, 13, 21, 34].

四、总结与建议

在本教程中，我们使用了较小的量化 LLM，它在工具选择和准确性上偶有不足。如果你希望构建生产级的 AI 智能体，强烈建议在 llama.cpp 上运行最新版、全尺寸的大模型。更大、更先进的模型通常能提供更高质量、更可靠的输出。

需要特别指出的是，llama.cpp 的部署和优化过程相对 Ollama 等易用工具更具挑战性。但只要你愿意投入时间进行调试和针对硬件优化，所获得的性能提升与灵活性绝对物超所值。

llama.cpp 最大的优点之一就是高效：即使没有高端硬件，它也能在普通 CPU 或笔记本电脑上流畅运行，让本地 AI 普及到几乎所有人手中。如果未来需要更强算力，也可随时租用云端 GPU 实例，轻松扩展。

查看全文

http://www.lryc.cn/news/597504.html

Python应用指南：构建和获取全球地铁线路数据及可视化

ToBToC的定义与区别

从 XSS 到 Bot 攻击：常见网络攻击防不胜防？雷池 WAF 用全场景防护为网站筑牢安全墙

Java中IO多路复用技术详解

S段和G段到底有什么区别

基于springboot的乡村旅游在线服务系统/乡村旅游网站

网络--VLAN技术

在 Ubuntu 20.04.5 LTS 系统上安装 Docker CE 26.1.4 完整指南

OpenLayers 快速入门（五）Controls 对象

centos9 ssh能连接密码不对

电脑32位系统能改64位系统吗

GoLand 项目从 0 到 1：第一天 —— 搭建项目基础架构与核心雏形

抖音集团基于Flink的亿级RPS实时计算优化实践

学生信息管理系统 - HTML实现增删改查

istio-proxy用哪个端口代理http流量的？

Vue 浏览器本地存储

游戏盾 SDK 和游戏盾转发版有什么区别呢？

Docker Desktop 打包Unity WebGL 程序，在Docker 中运行Unity WebGL 程序

SeaweedFS深度解析（二）：从Master到Volume

人工智能——Opencv图像色彩空间转换、灰度实验、图像二值化处理、仿射变化

AI项目实施落地实例

直播一体机技术方案解析：基于RK3588S的硬件架构特性

如何加固Endpoint Central服务器的安全？（下）

网络与信息安全有哪些岗位：（2）渗透测试工程师

JavaWeb_Servlet复习

【硬件-笔试面试题】硬件/电子工程师，笔试面试题-6，（知识点：二极管，少子多子，扩散/漂移运动）

React Native + Expo 入坑指南：从核心概念到实战演练

LangChain面试内容整理-知识点29：LangChain与LlamaIndex等框架对比

洛谷刷题7.23

Git 完全手册：从入门到团队协作实战（4）