当前位置: 首页 > news >正文

GPT-3: Language Models are Few-Shot Learners

GPT-3

  • 论文

数据集

  • CommonCrawl:文章通过高质量参考语料库对CommonCrawl数据集进行了过滤,并通过模糊去重对文档进行去重,且增加了高质量参考语料库以增加文本的多样性。
  • WebText:文章采用了类似GPT-2中的WebText文档收集清洗方法获得了更大范围的网页数据。
  • Books Corpora:此外文章增加了两个来自网络的书籍语料库。
  • Wiki:增加了英语百科语料库。

方法

  • 模型架构基本延续GPT-2的基于Transformer的网络架构。相比于GPT-2做了如下改变:

    • GPT-3采用了96层的多头transformer,头的个数为 96
    • 词向量的长度是12888
    • 上下文划窗的窗口大小提升至 2048个token
    • 在此基础上增加了Sparse-Transformer,即每次计算注意力的时候并不计算当前词与句子中所有词的注意力,而是通过Sparse Matrix仅仅计算当前词与句子中其它部分单词的注意力
  • In-context Learning

    • 关键思想是从类比中学习,首先,ICL 需要一些示例来形成一个演示上下文。这些示例通常是用自然语言模板编写的。然后 ICL 将查询的问题(即你需要预测标签的 input)和一个上下文演示(一些相关的 cases)连接在一起,形成带有提示的输入,并将其输入到语言模型中进行预测。 值得注意的是,与需要使用反向梯度更新模型参数的训练阶段的监督学习不同,ICL 不需要参数更新,并直接对预先训练好的语言模型进行预测。
      在这里插入图片描述
引用
  • GPT-3论文笔记
  • 预训练语言模型之GPT-1,GPT-2和GPT-3
http://www.lryc.cn/news/269432.html

相关文章:

  • Qt Quick 用cmake怎么玩子项目
  • 大数据学习(29)-Spark Shuffle
  • archiver error. Connect internal only, until freed.
  • 鸿蒙HarmonyOS-图表应用
  • elasticsearch 笔记三:查询建议介绍、Suggester、自动完成
  • 【hyperledger-fabric】将智能合约部署到通道
  • nginx设置跨域访问
  • Go语言学习第二天
  • 阿里云OpenSearch-LLM智能问答故障的一天
  • 城市分站优化系统源码:提升百度关键排名 附带完整的搭建教程
  • 【华为OD题库-107】编码能力提升计划-java
  • 使用pytorch进行图像预处理的常用方法的详细解释
  • 天线根据什么进行分类
  • JavaScript:正则表达式
  • 【Linux】深挖进程地址空间
  • SVM(支持向量机)-机器学习
  • 解决生成的insert语句内有单引号的情况
  • 【Linux 程序】1. 程序构建
  • GLTF 编辑器实现逼真3D动物毛发效果
  • 【Go语言入门:Go语言的方法,函数,接口】
  • vue-cli3/webpack打包时去掉console.log调试信息
  • 企业品牌推广在国外媒体投放的意义和作用何在?
  • ArcGIS批量计算shp面积并导出shp数据总面积(建模法)
  • 代码质量评价及设计原则
  • 编程笔记 html5cssjs 012 HTML分块
  • 【持续更新ing】uniapp+springboot实现个人备忘录系统【前后端分离】
  • nginx+rsyslog+kafka+clickhouse+grafana 实现nginx 网关监控
  • User maven 通过什么命令能查到那个包依赖了slf4j-simple-1.7.36.jar
  • 什么牌子冻干猫粮性价比高?性价比高的五款冻干猫粮牌子推荐
  • 扫描全能王启动鸿蒙原生应用开发,系HarmonyOS NEXT智能扫描领域首批