当前位置: 首页 > news >正文

GPT系列总结

1.GPT1 

无监督预训练+有监督的子任务finetuning

https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

1.1 Unsupervised pre-training

(1)基于一个transformer decoder,通过一个窗口的输入得到下一个token在目标token上的一个概率分布,其中窗口大小是k

(2)针对一个预料库,不断滑动窗口k,每次最大化下一个token的概率作为loss,相加得到总的loss

1.2 Supervised fine-tuning

(1)将transformer的输出经过一个线性层后,经softmax后得到对目标token的预测结果,最大化预测结果与真值作为loss

(2)同时增加预训练loss作为辅助loss,有助于模型泛化、提升训练速度

2.GPT2

https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

GPT2的主要贡献是:基于GPT1的网络结构,用更大的数据和更多的参数经过无监督预训练的模型在其它下游任务中能得到很好的泛化能力,无需再进行下游任务的finetuning。

3.GPT3

https://arxiv.org/pdf/2005.14165.pdf

GPT3沿用了GPT2的结构,但是网络容量上做了极大的提升,达到175B的参数:

  • GPT-3采用了96层的多头transformer,头的个数为96;
  • 词向量的长度是12888 ;
  • 上下文划窗的窗口大小提升至2048个token;
  • 使用了alternating dense和locally banded sparse attention。

使用不同的promt方法,都不需要改变模型权重

4.InstuctGPT

 

http://www.lryc.cn/news/131824.html

相关文章:

  • 【福建事业单位-综合基础知识】05民法典
  • 微服务篇
  • C++ 的关键字(保留字)完整介绍
  • C#小轮子:MiniExcel,快速操作Excel
  • Ribbon负载均衡
  • LeetCode--HOT100题(33)
  • 【docker练习】
  • 韦东山-电子量产工具项目:业务系统
  • React(6)
  • RabbitMq-2安装与配置
  • 论文笔记:Continuous Trajectory Generation Based on Two-Stage GAN
  • redis实战-缓存数据解决缓存与数据库数据一致性
  • 【排序】选择排序
  • 深入浅出Pytorch函数——torch.nn.init.trunc_normal_
  • 探索高级UI、源码解析与性能优化,了解开源框架及Flutter,助力Java和Kotlin筑基,揭秘NDK的魅力!
  • 国外服务器怎么有效降低延迟
  • AI百度文心一言大语言模型接入使用(中国版ChatGPT)
  • vue 安装并配置vuex
  • 有一种新型病毒在 3Ds Max 环境中传播,如何避免?
  • 基于Java/springboot铁路物流数据平台的设计与实现
  • 比较杂的html元素
  • Docker基本管理
  • .NET Core6.0使用NPOI导入导出Excel
  • 用API接口获取数据的好处有哪些,电商小白看过来!
  • 使用struct解析通达信本地Lday日线数据
  • 浅谈早期基于模板匹配的OCR的原理
  • 第6章 分布式文件存储
  • Spring(四):Spring Boot 的创建和使用
  • SpringCloud Gateway:status: 503 error: Service Unavailable
  • 【产品规划】功能需求说明书概述