当前位置: 首页 > news >正文

超详细!主流大语言模型的技术原理细节汇总!

1.比较 LLaMA、ChatGLM、Falcon 等大语言模型的细节:tokenizer、位置编码、Layer Normalization、激活函数等。
2. 大语言模型的分布式训练技术:数据并行、张量模型并行、流水线并行、3D 并行、零冗余优化器 ZeRO、CPU 卸载技术 ZeRo-offload、混合精度训练、激活重计算技术、Flash Attention、Paged Attention。
3. 大语言模型的参数高效微调技术:prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA。

技术交流

建了技术交流群!想要进交流群、获取本文原版资料的同学,可以直接加微信号:dkl88194。加的时候备注一下:研究方向 +学校/公司+CSDN,即可。然后就可以拉你进群了。

方式①、添加微信号:dkl88194,备注:来自CSDN + 技术交流
方式②、微信搜索公众号:Python学习与数据挖掘,后台回复:加群

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

0. 大纲

图片

1. 大语言模型的细节

1.0 transformer 与 LLM

图片

1.1 模型结构

图片

1.2 训练目标

图片

1.3 tokenizer

图片

1.4 位置编码

图片

1.5 层归一化

图片

1.6 激活函数

图片

1.7 Multi-query Attention 与 Grouped-query Attention

图片

1.8 并行 transformer block

图片

1.9 总结-训练稳定性

图片

2. LLM 的分布式预训练

图片

2.0 点对点通信与集体通信

图片

2.1 数据并行

图片

2.2 张量并行

图片

图片

2.3 流水线并行

图片

2.4 3D 并行

图片

2.5 混合精度训练

图片

2.6 激活重计算

图片

2.7 ZeRO,零冗余优化器

图片

2.8 CPU-offload,ZeRO-offload

图片

2.9 Flash Attention

图片

2.10 vLLM: Paged Attention

图片

3. LLM 的参数高效微调

3.0 为什么进行参数高效微调?

图片

3.1 prompt tuning

图片

3.2 prefix tuning
图片
3.3 adapter

图片

3.4 LLaMA adapter

图片

3.5 LoRA

图片

3.6 实验比较

图片

4. 参考文献

图片

http://www.lryc.cn/news/188034.html

相关文章:

  • 本人4年测试经验,211 本科计算机专业,由于互联网裁员,然后谈谈我最近测试面试的总结
  • Android中级——Activity数据恢复过程
  • 国内就能使用的chatgpt网页版,包含AIGC应用工具
  • Fast DDS之RTPS
  • 【算法|动态规划No.16】leetcode931. 下降路径最小和
  • Jenkins 构建时动态获取参数
  • android app开机自启动
  • XSS CSRF
  • 新加坡星银行项目组笔试题面试题
  • 基于SpringBoot的智能物流管理系统
  • 【开源电商网站】(2),使用docker-compose和dockerfile进行配置,设置自定义的镜像,安装插件,增加汉化包,支持中文界面汉化。
  • HTML5开发实例-3D全景(ThreeJs全景Demo) 详解(图)
  • springboot项目静态资源映射
  • 【Linux初阶】多线程1 | 页表的索引作用,线程基础(优缺点、异常、用途),线程VS进程,线程控制,C++多线程引入
  • Flink--9、双流联结(窗口联结、间隔联结)
  • 家政服务行业做开发微信小程序可以实现什么功能
  • 20哈希表-三数之和
  • JVM 运行时数据区和垃圾收集算法
  • Java基于SpringBoot的高校招生系统
  • 6. Python使用Asyncio开发TCP服务器简单案例
  • 景联文科技:AI大模型强势赋能,助力自动驾驶迭代升级
  • 多周期CPU设计
  • Go 复合类型之字典类型介绍
  • 对于无法直接获取URL的数据爬虫
  • 35.树与二叉树练习(1)(王道第5章综合练习)
  • JSON数据处理工具-在线工具箱网站tool.qqmu.com的使用指南
  • leetcode:190. 颠倒二进制位
  • Spring Cloud--@RefreshScope动态刷新的注意事项
  • visual-studio-code通过跳板机连接远程服务器的配置操作
  • LuatOS-SOC接口文档(air780E)-- gpio - GPIO操作