当前位置：首页 > news >正文

大模型微调方法汇总

news 2025/8/3 15:08:48

微调方法

Freeze方法
P-tuning方法
- prefix-tuning
- Prompt Tuning
- P-tuning v1
- P-tuning v2
Lora方法
- 重要相关参数
- LoRA 的优势
Qlora方法
- 相关参数
微调经验
- 模型选择
- 模型大小选择
- 数据处理
- 微调方案
- 英文模型需要做词表扩充吗？
- 如何避免灾难遗忘
- 大模型的幻觉问题
- 微调后的输出有重复问题的原因和解决方法？

参考：https://blog.csdn.net/dzysunshine/article/details/131590701

*P-tuning 微调方法是一种基于随机梯度下降（SGD）的方法，它通过动态地调整学习率，使其随着时间的推移逐渐降低，从而使得模型能够更好地收敛
P-Tuning v2的**原理是通过对已训练好的大型语言模型进行参数剪枝，得到一个更加小巧、效率更高的轻量级模型**。具体地，P-Tuning v2首先使用一种自适应的剪枝策略，对大型语言模型中的参数进行裁剪，去除其中不必要的冗余参数。然后，对于被剪枝的参数，P-Tuning v2使用了一种特殊的压缩方法，能够更加有效地压缩参数大小，并显著减少模型微调的总参数量。https://zhuanlan.zhihu.com/p/629327372*

以下是三种微调技术的简要介绍和原理说明：

1. **LoRA (Low-Rank Adaptation)**:
- **原理**：LoRA 是基于矩阵分解的思想，将模型的参数分解为两个低秩矩阵的乘积。具体来说，它将模型的权重 \( W \) 表示为一个低秩矩阵 \( L =B*A\) 和一个剩余矩阵 \( W \) 的乘积，即 \( W ' = B*A + W \)。其中，\( L \) 是一个可训练的低秩矩阵，而 \( R \) 是原始的预训练权重矩阵。通过这种方式，LoRA 能够以较少的参数改变原始模型的权重，从而实现对模型的微调。

2. LoRA执行步骤是什么？LoRA的实现流程概况如下：
   - 在原始预训练语言模型(PLM)旁增加一个旁路，做一个先降维再升维的操作，以此来模拟所谓的内在秩；
   - 训练的时候固定PLM的参数不变，只训练降维矩阵A和升维矩阵B，即优化器只优化右路的参数;
   - 模型的输入、输出维度不变，左右两边共用模型的输入，输出时将 PLM 与 A-B的输出叠加;
   - 用随机高斯分布初始化A，用全零矩阵初始化B。矩阵B的全零初始化，使得在训练最开始的一段时间，右路的结果会接近于0，这样模块的输出就基本上来自于左路，也就是大模型原有参数的计算结果，这使得模型优化的初始点就和原始的大模型保持一致。
   - 该方法通过低秩分解来模拟参数的改变量，从而以极小的参数量来实现大模型的间接训练。

2. **P-tuning v2**:
- **原理**：P-tuning v2 是一种基于prompt的微调方法，它通过在模型的输入中添加一个可训练的prompt向量来调整模型的行为。在这种方法中，模型的权重在微调过程中保持不变，而是通过改变输入的prompt来适应新的任务。Prompt 通常是一个学习到的向量，它可以被看作是一个任务特定的偏置项，它引导模型朝着特定任务的方向进行预测。
- 在使用P-tuning v2或类似的基于prompt的微调方法时，通常会根据问题的类型或内容为每个不同的问题设计不同的prompt向量。Prompt在这里作为一个条件或引导，帮助模型更好地理解和适应特定的任务。

3. **QLoRA**:
- **原理**：QLoRA 是 LoRA 的一个变种，它结合了量化和低秩适应的概念。在QLoRA 中，模型的权重不仅通过低秩矩阵进行调整，而且还通过量化技术进一步减少参数的数量。**量化是一种减少模型精度要求的技术，它将权重的值从浮点数转换为更低位的表示，从而减少模型的存储和计算需求**。通过结合低秩适应和量化，QLoRA 能够在保持模型性能的同时，显著降低模型的参数量和计算成本。QLoRA的量化过程可能仅针对这些新增的、可训练的低秩矩阵参数，而不是原始的预训练模型参数。

LoRA和QLoRA适合于需要在资源受限的设备上部署大型模型的情况，而P-tuning v2和Prompt Tuning则适合于快速适应新任务而不需要显著增加计算负担的情况。

这三种技术都是为了在保持模型性能的同时减少微调过程中的参数更新数量，从而减少计算资源的消耗。LoRA 通过低秩矩阵调整权重，P-tuning v2 通过改变输入prompt来引导模型，而QLoRA 结合了这两种技术并通过量化进一步压缩模型。每种技术都有其特定的应用场景，研究者可以根据任务的具体需求和资源限制来选择最合适的微调策略。

https://cloud.tencent.com/developer/article/2302701
人工智能大语言模型SFT 监督微调：、LoRA 微调方法、P-tuning v2 微调方法、Freeze 监督微调方法原创