为什么要微调大语言模型
为什么要微调大语言模型(LLMs)?
大语言模型(LLMs)的 “原始” 微调方式是指令微调 —— 这项技术能将模型的行为从 “补全空白”(下一个 token 预测)转变为真正的 “回答问题” 或 “遵循指令”。
在指令微调出现之前,用户必须把问题改写成 “填空式” 的表述。例如,想知道 “阿根廷的首都是什么?” 时,模型无法直接给出答案,用户得把问题改成不完整的陈述:“阿根廷的首都是______”,模型才能补全出 “布宜诺斯艾利斯”。
指令微调模型的出现,彻底打开了大语言模型的应用闸门:不再是繁琐的操作,而变成了流畅的 “对话”。这类被称为 “聊天模型” 的指令微调模型在广泛普及的同时,也带来了一些挑战:
- 如何让模型的 “知识” 保持更新?或者说,如何为模型添加专业领域知识?
- 如何防止模型产生有毒、有偏见、违法、有害或其他不安全的内容?
能猜到这两个问题的答案吗?当然是微调。
-
第一个问题的解决,正是 “使用专业数据集进行微调” 的典型场景 —— 这也是我们在这组实操课程中要重点探讨的内容。微调的应用案例包括:
企业内部使用的聊天机器人,用于处理内部文档查询;
特定领域的分析或摘要生成任务,例如法律文书处理。
在这些场景中,模型需要的是专业或特定领域的知识,这类知识定义清晰且长期稳定。但如果需要实时更新知识,或模型需处理海量且多样的