当前位置: 首页 > news >正文

GPT系列

GPT(Generative Pre-Training):

训练过程分两步:无监督预训练+有监督微调

模型结构是decoder-only的12层transformer

1、预训练过程,窗口为k,根据前k-1个token预测第k个token,训练样本包括7000本书的内容

2、微调过程,使用有标记的样本,样本输入预训练模型,使用最后一层transformer的输出,接linear+softmax层,预测输出

损失函数如下

使用L1作为辅助优化目标有两点好处,首先能够提高模型的泛化能力,第二是能够加速收敛。

3、不同任务的输入格式适配:将结构化的输入转化为有序序列



GPT系列演化参考文档:简单之美 | GPT 系列模型技术演化之路



GPT-2

与 GPT-1 不同,GPT-2 将层归一化(Layer Normalization)操作移到了每个 Encoder Block 输入之前。在最后一个self-attention block后加normaliztion。

GPT-2在无监督预训练阶段学习了大量的自然语言文本,在做下游任务时,无需微调,只需简单的Zero-shot Learning

GPT-3

预训练后,不微调,使用上下文学习(In Context Learning,ICL)
引入稀疏注意力机制

GPT-3 就是使用的普通 Transformer 和 Sparse Transformer 的混合模式。Sparse Transformer 的特点是只关注 Top-k 个贡献最大的特征的状态,它使用稀疏注意力机制替代了 Transformer 的密集注意力。

GPT-3.5/InstructGPT

代码数据训练和人类偏好对齐

基于人类反馈的强化学习算法RLHF

基于GPT-3进行微调,三个阶段的微调方法和过程,可以通过下图给出的步骤来简要说明

分别对应于上面提到的三个模型(SFT 模型、RM 模型、RL 模型),InstructGPT 的训练过程主要包括如下三个步骤:
Step 1: Collect demonstration data, and train a supervised policy.
Step 2: Collect comparison data, and train a reward model.
Step 3: Optimize a policy against the reward model using PPO.

GPT-4

GPT -4是一个多模态大模型

GPT-4 的核心原理是,基于 Decoder-only 的 Transformer 自回归语言模型,即通过给定的文本序列,预测下一个词的概率分布,从而生成新的文本。GPT-4 采用了大规模的无监督预训练和有监督微调的方法,即先在海量的通用文本语料上进行预训练,学习文本的通用特征和规律,然后在特定的下游任务上进行微调,学习任务的特定知识,从而实现对任意文本的生成和理解。

OpenAI在技术报告中强调了GPT-4的安全开发重要性,并应用了干预策略来缓解潜在问题,如幻觉、隐私泄露等。





http://www.lryc.cn/news/459314.html

相关文章:

  • Chromium 前端window对象c++实现定义
  • 【力扣算法题】每天一道,健康生活
  • Android Camera系列(四):TextureView+OpenGL ES+Camera
  • 03 django管理系统 - 部门管理 - 部门列表
  • L1 Sklearn 衍生概念辨析 - 回归/分类/聚类/降维
  • 【畅捷通-注册安全分析报告】
  • TCP IP网络编程
  • libssh2编译部署详解
  • IPv4数据报的首部格式 -计算机网络
  • 小米电机与STM32——CAN通信
  • 2.2.ReactOS系统KSERVICE_TABLE_DESCRIPTOR结构体的声明
  • 前端接口报500如何解决 | 发生的原因以及处理步骤
  • 图书馆自习室座位预约管理微信小程序+ssm(lw+演示+源码+运行)
  • 谷歌-BERT-第一步:模型下载
  • FPGA实现PCIE采集电脑端视频缩放后转千兆UDP网络输出,基于XDMA+PHY芯片架构,提供3套工程源码和技术支持
  • Hi3061M开发板——系统时钟频率
  • C++入门基础知识110—【关于C++ if...else 语句】
  • 基于YOLO11深度学习的非机动车驾驶员头盔检测系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战、目标检测、卷积神经网络
  • 图像分类-demo(Lenet),tensorflow和Alexnet
  • excel 单元格嵌入图片
  • GitHub简介与安装使用入门教程
  • HTML(五)列表详解
  • SparkSQL介绍及使用
  • 【聚星文社】3.2版一键推文工具更新啦
  • C++基础补充(03)C++20 的 std::format 函数
  • [论文笔记]DAPR: A Benchmark on Document-Aware Passage Retrieval
  • Spring Boot知识管理:智能搜索与分析
  • 操作系统(2) (进程调度/进程调度器类型/三种进程调度/调度算法)
  • 鸿蒙--知乎评论
  • 2024 - 两台CentOS服务器上的1000个Docker容器(每台500个)之间实现UDP通信(C语言版本)