当前位置：首页 > news >正文

大模型微调【1】之入门

news 2025/8/14 10:46:38

文章目录

说明
一大模型微调技术
- 1.1 微调基础
- 1.2 量化概念
- 1.3 高效微调方法LoRA&QLoRA
- 1.4 LoRA VS QLoRA
- 1.5 高效微调的应用场景
二主流微调工具
- 2.1 unsloth
- 2.2 LLama-Factory
- 2.3 ms-SWIFT
- 2.4 ColossalAI
- 2.5 底层微调框架推荐
- 2.6 模型性能评估框架EvalScope
三微调所需软硬件环境
- 3.1 NVIDIA显卡主要分类和命令规则
- 3.2 NVIDIA各类显卡功能说明
- - 3.2.1 TX系列（消费级）
  - 3.2.2 A系列(数据中心、原版)
  - 3.2.3 A800和H800系列（数据中心，特供）
  - 3.2.4 H系列（数据中心，高端，原版）
  - 3.2.5 L系列(专业图形)
  - 3.2.6 T系列（入门级数据中心）
- 3.3 NVIDIA各类显卡功能总结
- 3.4 不同显卡性能对比重要结论
- 3.5 显存占用情况

说明

本文学自赋范社区公开资料，同时结合自己的学习和时间总结而来，仅供学习和交流，不用作任何商业用途！

一大模型微调技术

1.1 微调基础

大模型微调指的在已有的大规模预训练模型基础上，通过对标注数据进行训练，进一步优化模型的表现，以适应特定任务或场景的需求。微调是通过修改模型参数来优化模型能力，是一种能够让模型“永久”掌握某种能力的方法。
从方法的大类上来划分，微调又可以划分为全量微调（带入全部数据进行微调）和高效微调（只带入部分数据进行微调）。全量微调是一种算力消耗更大、但对模型的能力改造更为彻底的方法，而高效微调则更类似一种“四两拨千斤”的方法，通过修改模型部分参数，来调整模型整体能力。
模型微调的优劣势：尽管模型微调能够通过修改模型参数的方式，永久的修改模型的能力，但这也是一把双刃剑，如果处理不当，很可能造成模型原始能力的灾难性遗忘、即会导致模型原始能力丢失。为了能够满足微调最初目标，必须小心谨慎的设计模型微调数据集和微调训练流程，并经过反复多次训练验证，得到最佳模型。

1.2 量化概念

量化：在大语言模型（LLM）中，int4和int8是两种常见的量化（Quantization）技术，旨在通过降低模型参数的数值精度来减少计算资源占用、提升推理速度，同时尽量保持模型性能。
量化是指将模型参数（通常是32位浮点数 float32）转换为更低精度的整数格式（如 int8、int4），从而：减少内存占用（如，float32 → int8 可减少75%的存储空间）、加速计算（整数运算比浮点运算更快，尤其适合边缘设备（如手机、嵌入式芯片））、降低功耗（减少数据传输和计算的开销）。

1.3 高效微调方法LoRA&QLoRA

高效微调与LoRA、QLoRA：在绝大多数场景中，如果只想提升模型某个具体领域的能力，那高效微调会更加合适。现在适用于大模型的最主流的高效微调方法只有一种——LoRA。
LoRA（Low-Rank Adaptation）微调是一种参数高效的微调方法，旨在通过引入低秩矩阵来减少微调时需要调整的参数数量，从而显著降低显存和计算资源的消耗。具体来说，LoRA 微调并不直接调整原始模型的所有参数，而是通过在某些层中插入低秩的适配器（Adapter）层来进行训练。
LoRA的原理：
- 在标准微调中，会修改模型的所有权重，而在LoRA中，只有某些低秩矩阵（适配器）被训练和调整。原始模型的参数保持不变，只是通过少量的新参数来调整模型的输出。
- 低秩矩阵的引入可以在显存和计算能力有限的情况下，依然有效地对大型预训练模型进行微调，从而让 LoRA 成为显存较小的设备上的理想选择。
LoRA的优势：
1. 显存优化：只需要调整少量的参数（适配器），显著减少了显存需求，适合显存有限的GPU。
2. 计算效率：微调过程中的计算负担也更轻，因为减少了需要调整的参数量。
3. 灵活性：可以与现有的预训练模型轻松结合使用，适用于多种任务，如文本生成、分类、问答等。

QLoRA（Quantized Low-Rank Adaptation） 是 LoRA 的一个扩展版本，它结合了 LoRA 的低秩适配器和量化技术。QLoRA 进一步优化了计算效率和存储需求，特别是在极端显存受限的环境下。与 LoRA 不同的是，QLoRA 会将插入的低秩适配器层的部分权重进行量化（通常是量化为 INT4 或 INT8），在保持性能的同时显著降低模型的存储和计算需求。
QLoRA核心思想：在 LoRA 的基础上加入量化技术，减少权重表示的位数，从而降低显存和计算需求。QLoRA 结合了低秩适配器和量化的优点，能够在显存有限的设备上进行更高效的微调。
QLoRA的优势：
- 在显存非常有限的情况下仍能进行微调。
- 可以处理更大规模的模型。
- 适合用于边缘设备和需要低延迟推理的场景。

大模型微调方法对比研究

1.4 LoRA VS QLoRA

特性	LoRA	QLoRA
核心技术	低秩适配器（Low-Rank Adapters）	低秩适配器 + 量化技术（Low-Rank Adapters + Quantization）
适用场景	显存受限，但设备性能较好	极限显存受限或需要快速推理的设备
计算效率	提高计算效率，减少调整的参数数量	进一步提升效率，减少内存使用并加快推理速度
量化技术	无量化	将权重量化为低精度（如INT4或INT8）
内存消耗	较低，但不如QLoRA低	显著降低内存消耗，适合更小的设备
训练复杂度	较简单，适用于大多数微调场景	需要更多的量化和适配工作，但适合超大型模型和设备受限场景

1.5 高效微调的应用场景

在实际大模型应用场景中，高效微调主要用于以下四个方面：

对话风格微调：高效微调可以用于根据特定需求调整模型的对话风格。例如，针对客服系统、虚拟助理等场景，模型可以通过微调来适应不同的语气、礼貌程度或回答方式，从而在与用户互动时提供更符合要求的对话体验。通过微调少量的参数（例如对话生成的策略、情感表达等），可以使模型表现出更具针对性和个性化的风格。
知识灌注：知识灌注是指将外部知识或领域特定的信息快速集成到已有的预训练模型中。通过高效微调，模型可以更好地学习新领域的专有知识，而无需重新从头开始训练。例如，对于法律、医疗等专业领域，可以使用少量的标注数据对预训练模型进行微调，帮助模型理解特定行业的术语、规则和知识，进而提升专业领域的问答能力。
推理能力提升：高效微调还可以用于提升大模型的推理能力，尤其是在处理更复杂推理任务时。通过微调，模型能够更加高效地理解长文本、推理隐含信息，或者从数据中提取逻辑关系，进而在多轮推理任务中提供更准确的答案。这种方式可以帮助模型在解答复杂问题时，提高推理准确性并减少错误。
Agent能力（Function calling能力、或者MCP能力）提升：在多任务协作或功能调用场景中，高效微调能够显著提升模型的Agent能力，使得模型能够有效地与其他系统进行交互、调用外部API或执行特定任务。通过针对性微调，模型可以学会更精准的功能调用策略、参数解析和操作指令，从而在自动化服务、智能助手或机器人控制等领域表现得更加高效和智能。

二主流微调工具

在入手学习大模型微调时，首先推荐功能层次封装层次较高的微调四套工具：unsloth、Llama-Factory、ms-SWIFT和ColossalAI。除此之外，也可以借助更加底层的库，如peft、LoRA、transformer等实现高效微调。
对于初学者来说，首先使用现成工具来进行微调，四种工具基本情况如下。

2.1 unsloth

unsloth是一个专为大型语言模型（LLM）设计的动态量化与微调框架，旨在提高微调效率并减少显存占用。它通过手动推导计算密集型数学步骤并手写 GPU 内核，实现了无需硬件更改即可显著加快训练速度。

Unsloth supports	Free Notebooks	Performance	Memory use
gpt-oss (20B)	▶️ Start for free	1.5x faster	70% less
Gemma 3n (4B)	▶️ Start for free	1.5x faster	50% less
Qwen3 (14B)	▶️ Start for free	2x faster	70% less
Qwen3 (4B): GRPO	▶️ Start for free	2x faster	80% less
Gemma 3 (4B)	▶️ Start for free	1.6x faster	60% less
Phi-4 (14B)	▶️ Start for free	2x faster	70% less
Llama 3.2 Vision (11B)	▶️ Start for free	2x faster	50% less
Llama 3.1 (8B)	▶️ Start for free	2x faster	70% less
Mistral v0.3 (7B)	▶️ Start for free	2.2x faster	75% less
Orpheus-TTS (3B)	▶️ Start for free	1.5x faster	50% less

unsloth 与 HuggingFace 生态兼容，可以很容易地transformers、peft、trl 等库结合，以实现模型的监督微调（SFT）和直接偏好优化（DPO），仅需模型的加载方式，无需对现有训练代码进行修改。
Unsloth动态量化模型
Unsloth 的动态量化方法，特别是其最新的 Dynamic 2.0 版本，旨在在尽量减少性能损失的同时显著压缩大型语言模型（LLMs）的体积。对于 Qwen3 模型，尤其是 4-bit 动态量化版本，现有的评测显示其性能下降非常有限，甚至在某些任务上与原始模型相当。

注意：动态量化由利也有弊，其好处在于可以极大程度压缩模型运行所需占用的显存大小，同时几乎不损失性能，但问题在于动态量化的模型，无论是推理还是微调，只能单卡运行，这就使得其吞吐量有限，无法在一台物理机上实现多GPU并行从而扩大吞吐量。

主要功能特点：
- 高效微调：unsloth通过深度优化，使LLM的微调速度提高2-5倍，显存使用量减少约80%，且准确度无明显下降。
- 广泛的模型支持：目前支持的模型包括目前各类主流模型，用户可以根据需求适合的模型进行微调。
- 兼容性：unsloth与HuggingFace态系统兼容，用户可以轻松将其与traformers、peft、等库结合，实现模型的监督微调（SFT）和直接偏好优化（DPO），仅需修改模型的加载方式，无需对现有训练代码进行过多修改。
- 内存优化：通过4位和16位的QLoRA/LoRA微调，unsloth显著了显存占用，使得在资源受限的环境中也能大的微调。

unsloth核心优势：
- 显著提升微调效率：相比传统方法，Unsloth采用独家4bit动态量化技术，能够在更短的时间内完成微调任务，节省时间成本。
- 降低硬件要求：通过优化显存使用，用户可以在显存较小的GPU上进行大模型的微调，降低了硬件门槛。
- 开源免费：Unsloth提供开源版本，用户可以在Google Colab或Kaggle Notebooks上免费试用，方便上手体验。
unsloth为大型语言模型的微调提供高效、低成本的解决方案，适合希望在有限资源下进行模型微调的开发者和研究人员。

2.2 LLama-Factory

LLama-Factory是一个统一且高效的微调框架，旨在为超过100种大型语言模型（LLMs）和视觉语言模型（VLMs）提供便捷的微调支持。用户能够灵活地定制模型以适应各种下游任务。
主要功能和特点：
- 广型支持： LLaMA-Factory 支持对 100 多LLMs 和 VLMs 进行微调，包括最新的模型版本，如 Llama 3、GLM-4、Mistral Small、PaliGemma2 等。
- 高效的微调方法：框架集成了多nk Adaptation）、QRA（Quantized LoRA）等，以提高训练速度并减少显存占用。
- 多模态任务支持：除传统的文本任务外，LLaMA-Factory 还支频识别、音频理解等多种任务类型。
- 实验监控：提供丰富的实验监控工具，如 LlamaBoard、TensorBoard、Wandb、MLflow、练过程。
- 快速：框架提供类似 OpenAI 风格的 API、Gradio UI 和命令行界面，并结合 vLLM worker，实现了高效的推理能力。

2.3 ms-SWIFT

ms-swift（Scalable lightWeight Infrastructure for Fine-Tuning）是由魔搭社区（ModelScope）开发的高效微调和部署框架，旨在为研究人员和开发者提供一站式的大模型与多模态大模型的训练、推理、评测、量化和部署解决方案。
模型支持：** ms-swift 支持超过 450 种大型模型（LLMs）和 150 多种多模态大模型（MLLMs）的训练和部署**，包括最新的模型版本，如 Qwen2.5、InternLM3、Llama3.3、Mistral、DeepSeek-R1、Baichuan2等，以及多模态模型如 Qwen2.5-VL、Qwen2-Audio等。

2.4 ColossalAI

Colossal-AI是一个高效的分布式人工智能训练系统，旨在最大化提升人工智能训练效率，同时最小化训练成本。作为深度学习框架的内核，Colossal-AI 提供了自动超高维并行、大规模优化库、自适应任务调度、内存优化以及最新模型复现等前沿技术。与英伟达的 Megatron-LM 相比，Colossal-AI 仅需一半数量的 GPU 即可完成 GPT-3 训练，半小时内预训练 ViT-Base/32，并在两天内训练完 15 亿参数的 GPT 模型。此外，Colossal-AI 提供了多种并行技术，如数据并行、流水线并行和张量并行，以加速模型训练。 cite turn0search1该项目自开源以来，迅速登上 GitHub 热榜，成为解放 AI 生产力的最佳选择。
ColossalAI支持DeepSeek R1非量化模型高效微调的框架，仅需4个节点、8卡A100服务器即可完成DeepSeek R1高效微调。

2.5 底层微调框架推荐

强化学习训练，则推荐veRL和OpenRLHF等框架。

框架	优势	适用场景
Hugging Face	高度兼容，易用，文档丰富	一般 NLP 任务，模型选择丰富
LoRA	显存节省，减少微调计算量	显存有限的设备，微调大规模模型
PEFT	高效微调，低计算开销	资源有限的环境，适合大规模预训练模型的微调
DeepSpeed	大规模分布式训练，显存优化	超大规模训练，多卡分布式训练
AdapterHub	低资源消耗，快速微调	多任务微调，资源有限的环境
Alpaca-LoRA	生成任务优化，LoRA 技术结合	对话生成、文本生成
FastChat	对话系统微调，快速集成	对话生成任务，尤其是对 ChatGPT 等模型微调
FairScale	大规模分布式训练优化，自动化优化	多卡分布式训练，大规模微调

2.6 模型性能评估框架EvalScope

EvalScope是由阿里巴巴魔搭社区（ModelScope）推出的一款开源模型评估框架，旨在为大语言模型（LLM）和多模态模型提供统一、系统化的性能评估方案。该框架具备高度的自动化和可扩展性，适用于研究机构、工业界以及模型开发者在模型验证与性能对比场景中的广泛需求。
EvalScope 的核心功能和特点包括：
- 丰富的评测基准覆盖：框架内置多种权威评测数据集，涵盖中英文通用知识问答（如 MMLU、CMMLU、C-Eval）、数学推理（如 GSM8K、MATH）、常识判断（如 HellaSwag、ARC）、代码生成（如 HumanEval）等多个方向，支持对模型能力进行多维度评估。
- 多样的评估模式支持：EvalScope 提供三种灵活的评估模式，包括单模型评估模式（Single）、基于基线的两两对比模式（Pairwise-Baseline）、以及全模型两两对比模式（Pairwise-All），可满足从快速诊断到全面对比的不同使用场景。
- 统一的模型接入接口：框架对不同类型的模型提供统一的调用方式，兼容 HuggingFace、本地部署模型及 API 远程调用，支持标准的 generate 与 chat 接口，大大降低了模型集成的复杂度。
- 评估流程高度自动化：EvalScope 实现了评测任务的全自动执行，包括客观题自动打分、复杂问题使用评审模型辅助判定结果等，支持批量评估与日志记录，极大提升了评估效率与结果一致性。
- 完善的性能与能力可视化工具：框架支持生成详细的评估报告和图表，展示模型在不同任务维度下的表现，便于开发者进行横向对比和性能分析。

三微调所需软硬件环境

大模型微调属于大模型进阶类技术，不同于普通的模型对话或搭建基础应用，微调往往需要一定的软硬件条件支持。

3.1 NVIDIA显卡主要分类和命令规则

类别	主要系列	应用场景	典型显卡	诞生时间
消费级显卡	RTX 系列 (20/30/40)	游戏、图形渲染、轻量级深度学习、AI 推理	RTX 3090、RTX 4090	2018 年 (RTX 20)
数据中心显卡	A 系列（原版）	大规模深度学习训练、推理、高性能计算 (HPC)	A100、A10、A4	2020 年 (Ampere)
数据中心显卡（特供）	A800、H800 系列	针对中国市场的特供显卡，调整性能以符合出口限制	A800、H800	2021 年 (A800)
高端数据中心显卡	H 系列（原版）	超大规模深度学习训练、推理、低精度计算 (FP8)	H100、H200	2022 年 (Hopper)
专业图形显卡	L 系列	数据可视化、AI 推理、工作站任务	L40、L20、L4	2022 年 (Ada)
入门级数据中心显卡	T 系列	云推理服务、虚拟化工作站、轻量化 AI 推理任务	T4	2018 年 (Turing)

3.2 NVIDIA各类显卡功能说明

3.2.1 TX系列（消费级）

设计目标：面向消费者，优化游戏、图形渲染，同时具备基础AI加速功能。
主要功能：
- 光线追踪（RTCore)：优化图形渲染和实时光线追踪。
- TensorCore：支持轻量深度学习和推理任务。
典型显卡：
- RTX3090/4090：性能强大的消费级显卡，适合游戏和中小规模深度学习。
适用场景：游戏开发、轻量深度学习、图形渲染。

3.2.2 A系列(数据中心、原版)

设计目标：专为大规模深度学习训练和推理设计，适合数据中心和高性能计算。
主要功能：
- HBM2e 高带宽显存：提供更高的数据吞吐能力。
- TensorCore：优化矩阵计算，适合深度学习模型的训练和推理。
典型显卡：
- A100：支持大模型训练和分布式深度学习。
- A10/A4:性能稍低，适合中小规模任务。
适用场景：深度学习训练、高性能计算（HPC)。

3.2.3 A800和H800系列（数据中心，特供）

设计目标：针对中国市场的特供版显卡，性能略低于原版以符合出口管制。
主要功能：
- 降低NVLink和显存带宽：符合国际出口限制。
- 保持核心计算能力：CUDA核心和TensorCore数量保持不变。
典型显卡：
- A800：面向训练和推理，性能接近A100。
- H800：面向大规模深度学习任务，接近H100性能。
适用场景：中国市场的大规模AI训练与推理。

3.2.4 H系列（数据中心，高端，原版）

设计目标：NVIDIA的最高性能显卡系列，面向超大规模深度学习训练和推理任务。
主要功能：
- 第四代TensorCore：支持低精度FP8和高效的分布式训练。
- HBM3显存：显存带宽更高，达到2,000GB/S（H100）或更高（H200)。
- NVLink和NVSwitch：实现多GPU的全互联。
典型显卡：
- H100：支持GPT-3/GPT-4等超大模型训练。
- H200：性能进一步提升，适合更复杂的任务。
适用场景：超大规模AI模型的分布式训练、推理和HPC。

3.2.5 L系列(专业图形)

设计目标：专业图形显卡，适合AI推理、数据可视化和图形工作站任务。
主要功能：
- 高显存容量：适合需要大数据吞吐的AI和可视化任务。
- 能效优化：适合数据中心的高效部署。
典型显卡：
- L40：面向中国市场的专业显卡，适合推理任务。
- L20：性能略低的版本，适合轻量任务。
适用场景：AI推理、虚拟化工作站、数据可视化。

3.2.6 T系列（入门级数据中心）

设计目标：针对低功耗应用场景，适合大规模部署。
主要功能：
- 低功耗设计：功耗通常低于70W，适合节能型数据中心。
- 推理优化：：性能足够支持轻量推理任务。
典型显卡：
- T4：云推理和虚拟化工作站的主力显卡。
- 适用场景：轻量推理、虚拟化桌面环境。

3.3 NVIDIA各类显卡功能总结

系列	主要特点	典型用户
RTX	面向消费级市场，兼顾游戏、图形渲染和轻量深度学习任务	游戏玩家、AI 初学者
A系列	高性能训练和推理显卡，适合大规模深度学习训练	数据中心、AI 研究团队
A800	A系列的特供版，性能略低但适合中国市场	中国市场的大模型训练和推理
H系列	NVIDIA的高端显卡，支持超大规模模型训练（如GPT-3/4）	超大规模 AI 项目、HPC 任务
H800	H系列的特供版，性能略低但适合中国市场	中国市场的大模型训练和推理
L系列	专业图形和推理显卡，适合数据可视化和轻量推理任务	数据分析师、工作站用户
T系列	入门级显卡，低功耗，适合推理和虚拟化任务	节能型数据中心、云服务

3.4 不同显卡性能对比重要结论

H系列显卡性能在训练以及各精度训练方面大幅领先。
4090推理性能很强（强于A100），但训练能力不如A100，且受限于显存大小和显存带宽，整体训练能力较弱。
3090的推理和训练的理论性能约是A100的60%，但同样受限于显存大小和显存带宽，实际性能和A100差距较大，但仍不失为低成本模型训练。
A10、T4等显卡在深度学习推理与训练方面表现较差。

3.5 显存占用情况

不同尺寸、精度大模型推理所需显存占用

精度	7B (GB)	13B (GB)	30B (GB)	70B (GB)	110B (GB)
FP16	12	24	60	120	200
INT8	8	16	40	80	140
INT4	6	12	24	48	72
INT2	4	8	16	32	48

不同尺寸、精度大模型训练与微调所需显存占用

方法 / 精度	7B (GB)	13B (GB)	30B (GB)	70B (GB)	110B (GB)
Full (AMP)	120	240	600	1200	2000
Full (FP16)	60	120	300	600	900
Freeze (FP16)	20	40	80	200	360
LoRA (FP16)	16	32	64	160	240
QLoRA (INT8)	10	20	40	80	140
QLoRA (INT4)	6	12	24	48	72

不同尺寸、精度大模型推理推荐GPU
- 其中RTX 4090可等价替换为RTX 3090
- 其中A100可替换为A800
- 其中L40可替换为L20

模型尺寸	精度	显存需求 (GB)	推荐显卡
7B	FP16	12	RTX 4080 / RTX 4090
7B	INT8	8	RTX 4080 / T4
7B	INT4	6	RTX 4080 / RTX 3060
7B	INT2	4	RTX 3060 / RTX 4080
13B	FP16	24	RTX 4090
13B	INT8	16	RTX 4090
13B	INT4	12	RTX 4090 / RTX 4080
13B	INT2	8	RTX 4080 / RTX 4090
30B	FP16	60	A100 (40GB) * 2
30B	INT8	40	L40 (48GB)
30B	INT4	24	RTX 4090
30B	INT2	16	T4 (16GB)
70B	FP16	120	A100 (80GB) * 2
70B	INT8	80	L40 (48GB) * 2
70B	INT4	48	L40 (48GB)
70B	INT2	32	RTX 4090
110B	FP16	200	H100 (80GB) * 3
110B	INT8	140	H100 (80GB) * 2
110B	INT4	72	A10 (24GB) * 3
110B	INT2	48	A10 (24GB) * 2

Qwen3全系列模型微调所需显存预览

模型名称	参数量	FP16微调显存占用	4-bit动态量化微调显存占用	备注
Qwen3-0.6B	0.6B	~1.2 GB	~0.5 GB	可在低端 GPU 或 CPU 上运行
Qwen3-1.7B	1.7B	~3.4 GB	~1.5 GB	适合入门级部署
Qwen3-4B	4B	~8.0 GB	~3.5 GB	适合中等规模任务
Qwen3-8B	8B	~16.0 GB	~7.0 GB	需要高端消费级 GPU
Qwen3-14B	14B	~28.0 GB	~12.0 GB	可在单张 RTX 4090 上微调
Qwen3-30B-A3B (MoE)	激活参数约 3B	~85.0 GB	暂不支持	激活部分专家参数，资源需求较高
Qwen3-32B	32B	~65.0 GB	~32.0 GB	需要 A100/H100 或多卡并行
Qwen3-235B-A22B (MoE)	激活参数约 22B	~600 GB	暂不支持	超大模型，适合企业级部署，需高端服务器支持