当前位置: 首页 > news >正文

从0到1理解大语言模型:读《大语言模型:从理论到实践(第2版)》笔记

从0到1理解大语言模型:前3章精华速读

——读《大语言模型:从理论到实践(第2版)》笔记

如果你只有 30 分钟,又想快速搞懂“大语言模型到底怎么炼成的”,这篇文章就是为你准备的。
我提炼了官方 400 页巨著的前 3 章,用中文讲人话,帮你把“概念 → 结构 → 数据”一次性串起来。


第1章 绪论:一句话说清大模型是什么

关键词一句话解释
语言模型给任何一段文本算概率的机器:越像人话,分越高。
参数量≥100 亿,阅读过 1 T 以上文本。
自监督不用人工标注,直接拿下一词预测当“老师”。
三个阶段①预训练(学语言)→ ②指令微调(学听话)→ ③强化学习(学讨好)。

经验法则:模型越大、数据越多、算力越猛,效果越“玄学式”提升。OpenAI 管这叫 Scaling Laws:损失值随参数/数据/算力指数下降。


第2章 大模型骨架:Transformer 全家桶

2.1 底层积木:Transformer 结构

  • Embedding 把词变向量;Positional Encoding 给位置打坐标。
  • Self-Attention 让每个词“偷窥”上下文,距离不再是问题。
  • FFN 两层全连接做非线性变换;残差 + LayerNorm 保稳定。
  • Encoder vs Decoder 只在机器翻译用,GPT 系列只用 Decoder。

2.2 GPT 系列如何炼成

  1. 预训练:用 45 TB 网页 → 570 GB 干净文本,做“下一词预测”。
  2. 微调:把下游任务化成“填空题”,用几千~几万条标注即可。
  3. 提示(Prompting):不给权重,只给示范,模型也能举一反三。

2.3 LLaMA 做了哪些小改进

  • 前置 RMSNorm → 训练更稳。
  • SwiGLU 激活 → 比 ReLU 更丝滑。
  • RoPE 旋转位置编码 → 长度外推更友好。
  • 多查询/FlashAttention/MLA → 省显存、提速度。

一句话总结:LLaMA = GPT 结构 + 工程优化 + 开源,让平民也能玩 70 B 模型。


第3章 数据:为什么“Garbage in, garbage out”在大模型里被放大 100 倍

3.1 数据来源全景图

类型占比作用
通用网页60 % 以上学说话、学世界知识
书籍/百科~5 %长文本连贯性、事实性
GitHub/论文/专利5–10 %代码、科学推理
多语言5–20 %跨语言对齐
领域语料(金融、医疗…)1–5 %下游任务“外挂知识”

经验:高质量小数据 > 低质量大数据。DeepMind 的 Chinchilla 法则:参数和词元 1:20 最划算。

3.2 数据炼金术:把 1 PB 原始网页变 100 GB 真·黄金

  1. 质量过滤
    • 规则法:长度、符号比、困惑度。
    • 模型法:用一个小模型给每段文本打分,砍掉低分。
  2. 去重
    • 句子级 50 字符以上重复直接剪。
    • 文档级 MinHash + URL 去重,防“Ctrl+C/V”污染。
  3. 隐私脱敏:正则 + NER,把身份证、邮箱、地址全抹掉。
  4. 词元化
    • BPE/WordPiece/ULM → 解决 OOV,中文 2~3 字节拼一字。
    • 字节级 BPE 保证多语言无死角。

3.3 数据影响实验

  • 规模:LLaMA 从 1 T 加到 15 T token,常识基准再涨 5–10 分。
  • 质量:同一量级,清洗后 vs 原始 CommonCrawl,下游任务提升 20 %。
  • 多样性:Gopher 实验发现,C4+MassiveWeb+Books+News 的黄金配比 ≈ 1:5:3:1,单一来源越纯越差。
  • 时效性:用 2019 年的新闻训的模型,在 2023 年测试集上掉 3–5 分。

一张图带走前 3 章核心

            第1章                第2章                第3章概念 —————> 结构 —————> 数据↑              ↑              ↑
Scaling Laws  →  Transformer   →  Chinchilla↓              ↓              ↓越大越好        越稳越快       越干净越好

彩蛋:读完就能回答的 3 个面试高频题

  1. 为什么 LLaMA 3 用 15 T token 训练,而 GPT-3 只用了 0.3 T?
    → Chinchilla 定律:参数 70 B 时,最优 token 数 ≈ 1.4 T;405 B 时,≈ 15 T。

  2. FlashAttention 到底省了什么?
    → 省显存:把 O(N²) 的 Attention 矩阵拆块放 SRAM,算完即丢;速度反而更快(重新计算 < 访存延迟)。

  3. 数据清洗最大的坑是什么?
    → 测试集泄露。CommonCrawl 里混了 GLUE、MMLU 的题,不剔除直接“刷榜”=作弊。

http://www.lryc.cn/news/603917.html

相关文章:

  • Marin说PCB之POC电路layout设计仿真案例---10
  • AI 对话玩具的语音芯片模块方案设计与应用场景​
  • 如何解决人工智能在社会治理中面临的技术和伦理挑战?
  • 【tips】小程序css ➕号样式
  • 项目质量如何把控?核心要点分析
  • 信号上升时间与带宽的关系
  • 技术QA | GNSS模拟器如何赋能自动驾驶?聚焦HIL、多实例与精准轨迹仿真的技术优势
  • leetcode 74. 搜索二维矩阵
  • 从传统到智能:Midscene.js 如何用 AI 颠覆自动化测试!
  • Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现各种食物的类型检测识别(C#代码UI界面版)
  • 【三桥君】企业级AI应用需要系统工程支撑,如何通过MCP大模型架构实现全链路实战解构?
  • 2.4G和5G分别指什么,什么是带宽(频谱带宽和网络带宽)
  • Solar月赛(应急响应)——攻击者使用什么漏洞获取了服务器的配置文件?
  • 数据结构 排序(1)---插入排序
  • 广泛分布于内侧内嗅皮层全层的速度细胞(speed cells)对NLP中的深层语义分析的积极影响和启示
  • 自动化测试实战篇
  • win10更新异常,导致Microsoft Store 无法正常启用,无法正常安装exe应用程序。
  • 银行交易欺诈检测模型分析
  • 微服务 01
  • 【C++算法】76.优先级队列_前 K 个高频单词
  • 【车联网kafka】Kafka核心架构与实战经验(第一篇)
  • 13、select_points_object_model_3d解析
  • 【2025年7月29日】TrollStore巨魔商店恢复在线安装
  • 通缩漩涡中的测量突围:新启航如何以国产 3D 白光干涉仪劈开半导体成本困局?
  • 磁悬浮转子同频振动:自适应陷波器设计与稳定性深度解析(附MATLAB代码)
  • 开源数据库PostgreSQL专家技术
  • AI药师助手 + 药品图谱系统完整操作分析(python版)
  • 基于AI代码疫苗技术的开源软件供应链安全治理
  • 出现错误,Microsoft store初始化失败。请尝试刷新或稍后返回。
  • 多模态融合 + 动态记忆机制,突破模态壁垒,超火研究方向