当前位置: 首页 > news >正文

类ChatGPT大模型LLaMA及其微调模型

1.LLaMA

LLaMA的模型架构:RMSNorm/SwiGLU/RoPE/Transfor
mer/1-1.4T tokens

1.1对transformer子层的输入归一化

对每个transformer子层的输入使用RMSNorm进行归一化,计算如下:
在这里插入图片描述

在这里插入图片描述

1.2使用SwiGLU替换ReLU

Relu激活函数】Relu(x) = max(0,x) 。

GLU激活函数】GLU(x) = x 与 sigmoid(g(x)) 对应元素相乘 。

LLaMA采用SwiGLU替换了原有的ReLU,SwiGLU的作用机制是根据输入数据的特性,通过学习到的参数自动调整信息流动的路径,具体是采用SwiGLU的Feedforward Neural Network (简称FNN,是一种使用可学习的门控机制的前馈神经网络)。xV相当于门控值,控制Swish输出的多少。

在这里插入图片描述
在这里插入图片描述

1.3位置编码

在位置编码方面,将绝对位置嵌入的方法变为相对位置嵌入。

1.4优化器的设计

使用AdamW优化器进行训练,使用余弦学习率的方式根据模型的大小动态的改变学习率和批次大小。

2.对LLaMA进行微调

2.1 Stanford Alpaca

结合英文语料通过Self Instruct的方式微调LLaMA 7B,具体通过52K的指令数据对LLaMA进行指令微调。其中52k的数据包括:指令、输入、输出。

①self-instruct方式

在这里插入图片描述

1.首选人工设计出175个种子数据集,包括指令、输入、输出。

2.使用GPT3对应的API使用种子数据集的上下文实例来生成更多新的指令。

3.使用生成的指令判断是否为分类任务。

4.使用模型生成实例。

5.生成输入和输出数据,过滤点低质量或者相似度高的数据。

6.经过过滤后的数据放入种子数据集中。

生成52K数据的完整代码:链接

②使用生成的指令数据微调LLaMA

2.2 Alpaca-LoRA

在这里插入图片描述

LoRA提出用两个小矩阵近似一个大矩阵,先降维(减小计算量)后升维(维持维度不变)。具体来说是固定原始模型的参数,只训练降维矩阵A与升维矩阵B。最后用原始模型参数与B矩阵相加。

LoRA层主要实现了两分支通路,一条分支为已被冻结weight参数的原始结构,另一条分支为新引入的降维再升维线性层。

2.ChatLLaMA:LLaMA的RLHF版

3.DeepSpeed Chat

具备基本生成能力的基座模型

有监督微调模型(SFT)

奖励模型(RM)

SFT、actor、RM、Critic

http://www.lryc.cn/news/152536.html

相关文章:

  • 50个简洁的提示提高代码可读性和效率(0-10)
  • Linux —— 进程信号
  • Android笔记 自定义控件时drawText字符串宽度的3种计算方式
  • ChatRWKV 学习笔记和使用指南
  • Particle Life粒子生命演化的MATLAB模拟
  • golang中byte和rune的区别?
  • AI图像行为分析算法 opencv
  • MATLAB制图代码【第二版】
  • 5.0: Dubbo服务导出源码解析
  • python自动化测试-自动化基本技术原理
  • lodash 之 _.isEmpty
  • layui数据表格实现表格中嵌套表格,并且可以折叠展开
  • 云端笔记系统-自动化测试
  • 将帅要避免五个方面的弱点:蛮干、怕死、好名、冲动、溺爱民众
  • 2023开学礼《乡村振兴战略下传统村落文化旅游设计》许少辉八一新书成都理工大学图书馆
  • vue的第3篇 第一个vue程序
  • 线性求逆元
  • 第一章 USB应用笔记之USB初步了解
  • 小白入门python
  • 《Kubernetes部署篇:Ubuntu20.04基于containerd部署kubernetes1.24.17集群(多主多从)》
  • Adobe Illustrator 2023 for mac安装教程,可用。
  • ElasticSearch(一)数据类型
  • Spark-Core核心算子
  • Linux和Windows下防火墙、端口和进程相关命令
  • 2021年09月 C/C++(六级)真题解析#中国电子学会#全国青少年软件编程等级考试
  • 【算法】滑动窗口
  • JS获取Beego渲染模板Temple时传递的数据
  • 代码随想录训练营第五十二天|300.最长递增子序列、674. 最长连续递增序列、718. 最长重复子数组
  • 前端三大Css处理器之Less
  • Win 教程 Win7实现隔空投送