当前位置：首页 > news >正文

用通俗易懂的方式讲解：一文讲透主流大语言模型的技术原理细节

news 2025/8/5 2:53:41

大家好，今天的文章分享三个方面的内容：

1、比较 LLaMA、ChatGLM、Falcon 等大语言模型的细节：tokenizer、位置编码、Layer Normalization、激活函数等。
2、大语言模型的分布式训练技术：数据并行、张量模型并行、流水线并行、3D 并行、零冗余优化器 ZeRO、CPU 卸载技术 ZeRo-offload、混合精度训练、激活重计算技术、Flash Attention、Paged Attention。
3、大语言模型的参数高效微调技术：prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA。

本文内容较长，喜欢可以收藏、点赞、关注。

目录

- - 用通俗易懂的方式讲解系列
  - 技术交流
  - 0. 大纲
  - 1. 大语言模型的细节
  - - 1.0 transformer 与 LLM
    - 1.1 模型结构
    - 1.2 训练目标
    - 1.3 tokenizer
    - 1.4 位置编码
    - 1.5 层归一化
    - 1.6 激活函数
    - 1.7 Multi-query Attention 与 Grouped-query Attention
    - 1.8 并行 transformer block
    - 1.9 总结-训练稳定性
  - 2. LLM 的分布式预训练
  - - 2.0 点对点通信与集体通信
    - 2.1 数据并行
    - 2.2 张量并行
    - 2.3 流水线并行
    - 2.4 3D 并行
    - 2.5 混合精度训练
    - 2.6 激活重计算
    - 2.7 ZeRO，零冗余优化器
    - 2.8 CPU-offload，ZeRO-offload
    - 2.9 Flash Attention
    - 2.10 vLLM: Paged Attention
  - 3. LLM 的参数高效微调
  - - 3.0 为什么进行参数高效微调？
    - 3.1 prompt tuning
    - 3.2 prefix tuning
    - 3.3 adapter
    - 3.4 LLaMA adapter
    - 3.5 LoRA
    - 3.6 实验比较

用通俗易懂的方式讲解系列

用通俗易懂的方式讲解：不用再找了，这是大模型最全的面试题库
用通俗易懂的方式讲解：这是我见过的最适合大模型小白的 PyTorch 中文课程
用通俗易懂的方式讲解：一文讲透最热的大模型开发框架 LangChain
用通俗易懂的方式讲解：基于 LangChain + ChatGLM搭建知识本地库
用通俗易懂的方式讲解：基于大模型的知识问答系统全面总结
用通俗易懂的方式讲解：ChatGLM3 基础模型多轮对话微调）
用通俗易懂的方式讲解：最火的大模型训练框架 DeepSpeed 详解来了
用通俗易懂的方式讲解：这应该是最全的大模型训练与微调关键技术梳理
用通俗易懂的方式讲解：Stable Diffusion 微调及推理优化实践指南
用通俗易懂的方式讲解：大模型训练过程概述
用通俗易懂的方式讲解：专补大模型短板的RAG
用通俗易懂的方式讲解：大模型LLM Agent在 Text2SQL 应用上的实践
用通俗易懂的方式讲解：大模型 LLM RAG在 Text2SQL 上的应用实践

技术交流

技术要学会分享、交流，不建议闭门造车。一个人走的很快、一堆人可以走的更远。

建立了大模型技术交流群，大模型学习资料、数据代码、技术交流提升，均可加知识星球交流群获取，群友已超过2000人，添加时切记的备注方式为：来源+兴趣方向，方便找到志同道合的朋友。

方式①、微信搜索公众号：机器学习社区，后台回复：技术交流
方式②、添加微信号：mlc2060，备注：技术交流

0. 大纲

1. 大语言模型的细节

1.0 transformer 与 LLM

1.1 模型结构

1.2 训练目标

1.3 tokenizer

1.4 位置编码

1.5 层归一化

1.6 激活函数

1.7 Multi-query Attention 与 Grouped-query Attention

1.8 并行 transformer block

1.9 总结-训练稳定性

2. LLM 的分布式预训练

2.0 点对点通信与集体通信

2.1 数据并行

2.2 张量并行

2.3 流水线并行

2.4 3D 并行

2.5 混合精度训练

2.6 激活重计算

2.7 ZeRO，零冗余优化器

2.8 CPU-offload，ZeRO-offload

2.9 Flash Attention

2.10 vLLM: Paged Attention

3. LLM 的参数高效微调

3.0 为什么进行参数高效微调？

3.1 prompt tuning

3.2 prefix tuning

3.3 adapter

3.4 LLaMA adapter

3.5 LoRA

3.6 实验比较

4. 参考文献

http://www.lryc.cn/news/279425.html

相关文章：

通过IP地址识别风险用户

汇编和C语言转换

【IOS】惯性导航详解（包含角度、加速度、修正方式的api分析）

网络协议与攻击模拟_04ICMP协议与ICMP重定向

pytest-mock 数据模拟

单片机原理及应用：定时器/计数器综合应用

R语言【paleobioDB】——pbdb_intervals()：通过参数选择，返回多个地层年代段的基本信息

阅读笔记lv.1

小鼠的滚动疲劳仪-转棒实验|ZL-200C小鼠转棒疲劳仪

平衡搜索二叉树（AVL树）

2024年1月12日学习总结

PCL 使用克拉默法则进行四点定球（C++详细过程版）

前端导致浏览器奔溃原因分析

力扣：209.长度最小的子数组

常见类型的yaml文件如何编写？--kind: Service

linux环境下安装postgresql

专业课145+合肥工业大学833信号分析与处理考研经验合工大电子信息通信

FreeRtos Queue (一)

深入理解 Hadoop （五）YARN核心工作机制浅析

优化 - 重构一次Mysql导致服务器的OOM

【光波电子学】基于MATLAB的多模光纤模场分布的仿真分析

0104 AJAX介绍

代码随想录算法训练营第24天 | 理论基础 77. 组合

【深度学习环境搭建】Windows搭建Anaconda3、已经Pytorch的GPU版本

基于WebFlux的Websocket的实现,高级实现自定义功能拓展

使用 LLVM clang C/C++ 编译器编译 OpenSSL 3.X库

【信息安全】hydra爆破工具的使用方法

uniapp中uview组件库丰富的CountTo 数字滚动使用方法

inflate流程分析