当前位置：首页 > news >正文

LoRA 问答微调与部署全流程：基于 LLaMA-Factory + DeepSeek + FastAPI 打造专属大模型

news 2025/7/1 13:32:24

想快速掌握大模型落地实战？本文将手把手教你完成一个国产大模型的微调任务，并通过 FastAPI 向后端暴露接口。特别适合希望快速将大模型应用于实际业务的开发者。

📌 本文为《LoRA 应用实录》系列第 3 篇，在第一篇里讲解了LoRA在 NLP 与 CV 场景的高效微调方法全解析，你可以查看：

总览篇：《LoRA 实战指南：NLP 与 CV 场景的高效微调方法全解析》👉 点此阅读
CV篇：《LoRA 图像生成全流程实战：从数据准备到模型上线，一文通透！》👉 点此阅读

文章目录

- 一、项目背景：企业为何需要微调大模型？
- 二、LoRA 微调原理：低成本高效微调
- 三、项目实操：分步指南
- - 3.1 技术栈选择
  - 3.2 搭建环境：准备硬件资源
  - 3.3 模型下载与加载
  - 3.4：准备微调数据集
  - 3.5：开始训练
  - 3.6 评估微调效果
  - 3.7：导出合并模型权重
- 四、部署模型 API（FastAPI）
- 五、前后端集成调用
- 六、优化建议
- 七、总结与推荐学习路径

一、项目背景：企业为何需要微调大模型？

通用大模型在企业实际应用中，往往难以满足定制化需求。微调可以有效解决以下问题：

增强私有知识理解：让模型精准掌握企业专属文档或知识库。。
垂直行业问答增强：提升模型在医学、法律等专业领域的问答能力。
交互风格个性化：如二次元、客服话术等特定风格。
实时动态信息接入：使模型能够及时响应公司最新活动等信息（可结合 RAG）。

建议：

如果有足够数据，建议采用 SFT + RAG 联合方案。
数据频繁变更时优先考虑 RAG。
数据高质量、任务稳定，优先 LoRA 微调。

二、LoRA 微调原理：低成本高效微调

传统全量微调需要修改模型的所有参数，成本高昂。LoRA（Low-Rank Adaptation）通过以下创新方式实现高效微调：

冻结原始模型权重，保持预训练模型的知识。
引入低秩矩阵 A、B：仅训练这两个小矩阵，大幅减少参数量。
适合多任务快速切换：快速适应不同业务场景。

举例说明：
假设原始参数矩阵是 100x100，总共 1 万个参数。LoRA 用 100x2 和 2x100 两个矩阵代替，只需训练 400 个参数，效果却能媲美全量微调！

三、项目实操：分步指南

3.1 技术栈选择

模型：DeepSeek-R1-Distill-Qwen-1.5B（HuggingFace 获取）
微调框架：LLaMA Factory（北航开源）

微调实现框架
LlamaFactory：
特点：目前国产最热门的微调框架，由北航开源的低代码大模型训练框架。支持多种主流大语言模型和多种训练方式（包括预训练、指令监督微调等）。
优势：使用非常简单，可实现零代码微调，适合入门和快速验证。
场景选择：对于追求快速原型开发和降低技术门槛的项目，
LlamaFactory是非常好的选择。

Hugging Face Transformers Trainer：
特点： Hugging Face提供的高层API，适用于各种大模型任务的微调。提供标准化的流程和多种监控工具。
优势：适合需要更多定制化场景，尤其在部署和生产环境中表现出色。
场景选择：如果对微调过程需要更精细的控制，或已深度集成Hugging Face生态，Trainer是更专业的选择。
微调算法：LoRA（支持 SFT）
API部署：FastAPI（⼀个基于 python 的 web 框架）
前端/后端：Vue3 + Spring Boot

3.2 搭建环境：准备硬件资源

租用带 GPU 的云主机：推荐 AutoDL，选择高性能 GPU（如 RTX 4090）和合适的 Python 镜像（如 Python 3.10）。
远程连接服务器：使用 Visual Studio Code 的 SSH Remote 插件，方便开发。
数据存储：将所有数据存储到数据盘，方便后续迁移和扩容。 Conda 虚拟环境：
创建 Conda 虚拟环境，安装 LLaMA Factory 依赖。

3.3 模型下载与加载

从 HuggingFace 下载 DeepSeek 1.5B 模型
启动 LLaMA Factory 可视化界面
测试模型：直接对话，确保模型加载成功。

3.4：准备微调数据集

准备 JSON 格式的数据集文件，包含 instruction（指令）、input（上下文，可选）和 output（期望的模型输出）字段。

{"instruction": "ABC中台 中的数据权限控制怎么设置？","input": "","output": "在 ABC中台 中，您可以通过角色管理模块设置数据访问权限..."
}
{"instruction": "根据企业制度回答问题","input": "市场部出差超过3天需要谁审批？","output": "根据公司政策，出差超过3天需部门负责人和行政审批。"
}

数据存储：将数据放入 data/ 文件夹。
注册数据集：修改 dataset_info.json 文件，添加新数据集的配置信息，让LlamaFactory 能够找到并读取。
界面选择：在 LlamaFactory 页面选择微调算法 LoRA + 模型路径 + 数据集。

3.5：开始训练

设置关键参数：学习率、轮数、Batch Size、精度（float16）

学习率（Learning Rate）：决定模型每次更新权重改变的幅度。
训练轮数（Epochs）：
训练数据集被完整遍历的次数。过少可能欠拟合，过多可能过拟合。
计算类型（Compute Type）：如Float32或Float16，平衡性能和精度。
截断长度（Max Length）：处理长文本时的阈值，防止内存溢出和文本截断。
批处理大小（Batch Size）：每次训练处理的数据量，影响效率和稳定性。
梯度累积（Gradient Accumulation）：
通过多次计算累积梯度再更新参数，模拟更大Batch Size 。
评估方式（Eval Strategy）：
训练集和验证集的划分比例（如80%训练，20%验证）。学习率调节器（Scheduler）：动态调整学习率。

支持 NoHub 后台训练（防止断连）：在页面或终端（推荐使用
nohup命令将任务放到后台执行，并重定向日志到文件）启动训练过程。

3.6 评估微调效果

观察 Loss 曲线：监控训练过程中的损失曲线，判断是否收敛。损失降低过慢可增大学习率；训练结束时损失仍下降可增大训练轮数。
交互测试：在 LlamaFactory 的 “Chat”交互页面，加载微调后的检查点路径，再次提问（如“你是谁”），对比微调前后的回复，评估模型是否学到特定知识（例如回复变成了“我是ABC产品中台机器人客服，可以帮助你解答问题、撰写内容、分析数据、构思创意，或者一起头脑风暴。”）。
优化迭代：如果效果不理想，可尝试更换更强的预训练模型、增加数据量、优化数据质量或调整参数重新训练。

数据量和数据质量是影响微调效果最显著的因素。

3.7：导出合并模型权重

因为 LoRA 只训练 AB 两个矩阵，所以需要与原始权重合并才能得到完整的微调模型。

# 指定导出路径
python merge.py --adapter_model /path/to/adapter --output /path/to/merged_model

四、部署模型 API（FastAPI）

创建独立 Conda 环境，安装 Transformers、FastAPI 等依赖
编写 main.py 脚本：

@app.get("/generate")
def generate(prompt: str):input = tokenizer(prompt, return_tensors="pt").to(device)output = model.generate(**input, max_length=150)return {"response": tokenizer.decode(output[0], skip_special_tokens=True)}

启动服务：

uvicorn main:app --host 0.0.0.0 --port 8000

使用 Postman 或前端调用接口测试

五、前后端集成调用

后端通过 HTTP 请求调用接口
前端使用 Vue3 发送用户输入、接收模型回复
支持传入用户身份、历史上下文，提升交互体验

六、优化建议

问题	解决建议
模型过拟合	增加数据量或使用更强模型
响应不通顺	优化数据质量，适当调整参数
推理延迟高	模型合并后可部署至 GPU 推理服务
接口安全问题	企业可通过网关转发 + 鉴权保护

七、总结与推荐学习路径

本项目从实战角度完整演示了：

如何基于国产工具链实现微调 + 部署
如何在前后端系统中快速接入大模型能力