当前位置: 首页 > news >正文

大模型基础知识

文章目录

  • 1. 位置编码
    • 1.1 绝对位置编码
    • 1.2 相对位置编码
    • 1.3 旋转位置编码
  • 2. 注意力机制
    • 2.1 MHA(muti head attention)
    • 2.2 MQA(muti query attention)
    • 2.3 GQA(grouped query attention)
  • 3. 大模型分类
  • 4. 微调方法
    • 4.1 Prompt Tuning
    • 4.2 Prefix Tuning
    • 4.3 Lora
    • 4.4 QLora
  • 5. LangChain
  • 6. LLAMA
    • 6.1 RMSNorm
    • 6.2 SwiGLU
  • 7. 加速技巧
    • 7.1 KV Cache
    • 7.2 混合精度训练
    • 7.3 deepspeed

1. 位置编码

参考:让研究人员绞尽脑汁的Transformer位置编码

1.1 绝对位置编码

绝对位置编码是一种相对简单的位置编码方式,主要有如下几种方式

  • 训练式:直接将位置编码当作可训练参数,如BERT、GPT等,缺点是没有外推性
  • 三角式:使用三角函数进行编码,如transformer;
    • 优点:1. 有显式的生成规律,有一定的外推性;2. 由 s i n ( α + β ) sin(\alpha + \beta) sin(α+β) 的展开式可以得到, α + β \alpha+\beta α+β的向量可以表示成 α \alpha α β \beta β向量的组合,即提供了相对位置信息。
    • 缺点:计算复杂
  • 递归式:如RNN的形式,在句子后面接RNN,再输入到transformer理论上可以不用位置编码

1.2 相对位置编码

相对位置并没有建模每个输入的位置信息,而是在算Attention的时候考虑当前位置与被Attention的位置的相对距离,由于自然语言一般更依赖于相对位置,所以相对位置编码通常也有着优秀的表现。相对位置将本来依赖于二元坐标 ( i , j ) (i,j) (i,j) 的向量改为只依赖于相对距离 i − j i−j ij,并且通常来说会进行截断,所以能适配任意的距离

经典的相对位置编码比如XLNET、T5、等都是在 q i k j T q_ik_j^T qikjT的展开式上进行处理,如下图所示:
在这里插入图片描述

1.3 旋转位置编码

目前很火的LLAMA、GLM模型都采用的是旋转位置编码,和相对位置编码相比,RoPE具有更好的外推性。其基本思想是 q m k n q_m k_n

http://www.lryc.cn/news/355084.html

相关文章:

  • 时间序列预测模型实战案例(三)(LSTM)(Python)(深度学习)时间序列预测(包括运行代码以及代码讲解)
  • [8] CUDA之向量点乘和矩阵乘法
  • 音视频开发9 FFmpeg 解复用框架说明,重要知识点
  • 抖音小店出单之后怎么发货?抖店详细发货流程来了
  • Transformer详解(5)-编码器和解码器
  • 线程安全-3 JMM
  • 4 CSS的 变换、过渡与动画
  • 前端基础入门三大核心之JS篇:掌握数字魔法 ——「累加器与累乘器」的奥秘籍【含样例代码】
  • git clone 出现的问题
  • Vue2和Vue3生命周期的对比
  • 全面解析Java.lang.ClassCastException异常
  • 美团Java社招面试题真题,最新面试题
  • 二十八、openlayers官网示例Data Tiles解析——自定义绘制DataTile源数据
  • 分布式事务解决方案(最终一致性【TCC解决方案】)
  • App Inventor 2 Encrypt.Security 安全性扩展:MD5哈希,SHA/AES/RSA/BASE64
  • 深入了解Linux中的环境变量
  • 雷军-2022.8小米创业思考-8-和用户交朋友,非粉丝经济;性价比是最大的诚意;新媒体,直播离用户更近;用真诚打动朋友,脸皮厚点!
  • 【Vue2.x】props技术详解
  • C语言例题46、根据公式π/4=1-1/3+1/5-1/7+1/9-1/11+…,计算π的近似值,当最后一项的绝对值小于0.000001为止
  • fpga系列 HDL: 05 阻塞赋值(=)与非阻塞赋值(<=)
  • 大白话DC3算法
  • 力扣HOT100 - 75. 颜色分类
  • Vue.js - 计算属性与侦听器 【0基础向 Vue 基础学习】
  • 技术速递|使用 C# 集合表达式重构代码
  • 我的世界开服保姆级教程
  • [转载]同一台电脑同时使用GitHub和GitLab
  • 【网络协议】【OSI】一次HTTP请求OSI工作过程详细解析
  • springboot vue 开源 会员收银系统 (2) 搭建基础框架
  • Java进阶学习笔记26——包装类
  • 【JavaEE进阶】——要想代码不写死,必须得有spring配置(properties和yml配置文件)