当前位置: 首页 > news >正文

GPT 1到4代的演进笔记

1. GPT-1

标题是 Improving Language Understanding by Generative Pre-Training.
发表于 2018.02, 比 bert(发布于 2018.10) 早了半年.

1.1 动机

  • 困难:NLU 任务是多样的, 有 {textual entailment, question answering, semantic similarity assessment, document classification} 等. 对这些任务收集足够多的大规模标注数据很困难.

  • 解法: 用易得的 un-labeled 的语料库做 生成式的预训练. 然后仅用少许 特定任务的标注数据作 微调训练, 就能在 NLU 的基准测试中取得佳绩.

1.2 框架

Unsupervised pre-training

next-token 预测.

在这里插入图片描述
数据集是 BooksCorpus(书籍, 有长文本) 和 1B Word Benchmark.

Supervised fine-tuning

冻结预训练好的 transformers 网络权重, 只训练 sft 引入的 Wy特殊分割 token 的 emb.
任务是多样的, 但 预训练网络 只能接受有序的 text, 所以要作转换. 转换方式见下图. 确实不如 后续工作的 prompt 优雅.

在这里插入图片描述

1.3 模型细节

  • a 12-layer decoder-only transformer with masked self-attention heads (768 dimensional states and 12 attention heads).
  • For the position-wise feed-forward networks, we used 3072 dimensional inner states.
  • We used the Adam optimization scheme [27] with a max learning rate of 2.5e-4.
  • We used a bytepair encoding (BPE) vocabulary with 40,000 merges
http://www.lryc.cn/news/498160.html

相关文章:

  • vitepress组件库文档项目 markdown语法大全(修正版)
  • Vue3技术开发,使用纯CSS3动手制作一个3D环绕的相册展示效果,支持传入任意图片.3D轮播相册的组件
  • LeetCode 力扣 热题 100道(十五)搜索插入位置(C++)
  • 【035】基于51单片机俄罗斯方块游戏机【Proteus仿真+Keil程序+报告+原理图】
  • NAT traversal 原理 | TCP / UDP/ P2P
  • 如何成长为一名工程技术经理
  • GEE开发之下载海拔、坡度、坡向数据
  • gozero项目迁移与新服务器环境配置,包含服务器安装包括go版本,Nginx,项目配置包括Mysql,redis,rabbit,域名
  • Scala正则表达式全面教程
  • 伺服电机为什么会变慢?
  • 61 基于单片机的小车雷达避障及阈值可调
  • 微信小程序之手机归属地查询
  • ElementUI 问题清单
  • DVWA靶场——XSS(Stored)
  • Spring框架中的Bean是线程安全的吗?
  • uniapp远程摄像头流界面上显示
  • elasticSearch(一):elasticSearch介绍
  • 基于 RWKV 的视觉语言模型 VisualRWKV 被 COLING 2025 接收!
  • 输出九九乘法表:JAVA
  • kube-proxy的iptables工作模式分析
  • xiaolin coding 图解 MySQL笔记——锁篇
  • 11-SpringCloud Alibaba-Seata处理分布式事务
  • 更换 Git 项目的远程仓库地址(五种方法)
  • 3大模块助力学生会视频自动评审系统升级
  • 鸿蒙开发——使用ArkTs处理XML文本
  • 【Linux】文件查找 find grep
  • Go学习笔记之运算符号
  • npm : 无法加载文件 D:\nodejs\npm.ps1,因为在此系统上禁止运行脚本
  • YOLOv8-ultralytics-8.2.103部分代码阅读笔记-torch_utils.py
  • Java中的数据存储结构解析与应用