【学习笔记】4.1 什么是 LLM
前三章介绍NLP定义与任务,核心思想为注意力机制和Transformer架构,其推动NLP进入预训练-微调范式,预训练语言模型提升经典任务水平。
2022年底ChatGPT刷新NLP能力上限,大语言模型(LLM)成主流,接替传统预训练语言模型,刷新预训练-微调范式,LLM能力、通用基座模型及相关概念应用快速发展,标志大模型时代到来。
4.1.1 LLM 的定义
LLM(大语言模型)是参数量更多、在更大规模语料上预训练的语言模型,与传统预训练语言模型架构和预训练任务相似(如 Decoder-Only 架构、CLM 任务),但具备以下特点:
- 参数与语料规模:通常包含数百亿及以上参数(广义覆盖十亿至千亿参数,如 Qwen-1.5B、Grok-314B),在数 T token 语料上通过多卡分布式集群预训练。
- 能力特征:具备远超传统模型(如 BERT、T5)的文本理解与生成能力,需展现 “涌现能力”(复杂任务表现突出)。

4.1.2 LLM 的能⼒
1)涌现能力
- LLM 在相同模型架构与预训练任务下,随规模增大展现出小模型不具备的突出能力,类似物理学相变的 “量变引起质变”。
- 是业界关注 LLM 的核心,被认为是通往通用人工智能(AGI)的关键,依赖数据、模型架构及训练框架的优化。
(2)上下文学习(In-context Learning)
- GPT-3 首次引入,LLM 可通过自然语言指令或少量示例执行任务,无需额外训练或参数更新。
- 对比传统 PLM 的 “预训练 - 微调” 范式,大幅降低算力(如 BERT 微调需 10G 以上显存)和数据标注成本(下游任务需 1k~ 数万人工标注样本),推动 NLP 研究范式向 “Prompt 工程” 转变(如 GPT-4 仅需 1~5 个示例即可超越传统模型微调效果)。
(3)指令遵循(Instruction Following)
- 通过多任务指令微调,LLM 能理解未见过的自然语言指令并执行任务,泛化能力强(如 ChatGPT 可处理写作、编程、批改试卷等跨领域任务)。
- 支撑 Agent、Workflow 等场景,是实现全能助理、超级智能的基础,推动 LLM 与多行业结合。
(4)逐步推理(Step-by-Step Reasoning)
- 采用思维链(CoT)推理策略,通过中间推理步骤提示解决复杂逻辑任务(如数学问题),能力可能源于代码训练。
- 使 LLM 具备处理日常逻辑问题的能力,向 “可靠智能助理” 迈进,例如微软 Copilot 借助该能力辅助代码编写,提升开发效率。
4.1.3 LLM 的特点
1)多语言支持
LLM 因预训练语料天然包含多语言数据,具备跨语言处理能力,但不同语言表现受训练语料和微调影响。
英文高质量语料占比高,GPT-4 等模型英文能力显著优于中文;国内模型(如文心一言、通义千问)针对中文优化后表现更优。
(2)长文本处理
传统 PLM(如 BERT)最大上下文长度约 512 token,LLM 通过分布式训练支持 4k-32k 长度(如 InternLM 预训练支持 32k),并采用旋转位置编码(RoPE)或 AliBi 实现长度外推(如 InternLM 可推理处理 200k 长度文本)。
增强信息阅读与总结能力,可处理复杂任务(如基于《红楼梦》生成高考作文)。
(3)多模态拓展
通过增加参数(如 Adapter 层、图像编码器)并微调,将 LLM 能力延伸至图像模态,实现图文问答与生成。
优化文本与图像表示对齐,构建更强多模态模型,辐射更多模态(如音频、视频)。
(4)幻觉问题
LLM 可能生成虚假信息(如捏造学术论文),在医疗、金融等精准领域易引发严重后果。
通过 Prompt 限制、检索增强生成(RAG)等方法削弱幻觉,但尚未能彻底解决。
参考资料:https://github.com/datawhalechina/happy-llm