当前位置: 首页 > news >正文

[论文笔记]GLM

引言

今天带来论文GLM: General Language Model Pretraining with Autoregressive Blank Infilling的笔记。论文中文标题为 通用语言模型预训练与自回归填空。

有很多不同类型的预训练架构,包括自编码模型(BERT、RoBERTa、ALBERT)、自回归模型(GPT系列)以及编码器-解码器模型(T5、MASS、BART、PALM)。然而,没有任何预训练框架能够在自然语言理解(NLU)、无条件生成和有条件生成这三个主要类别的所有任务中表现最佳。

作者提出了基于自回归填空的通用语言模型(GLM)来应对这一挑战。

GLM通过添加二维位置编码改进填空预训练,并允许以任意顺序预测文本片段(span),在NLU任务上相比BERT和T5取得了性能提升。同时,通过改变文本片段的数量和长度,GLM可以针对不同类型的任务进行预训练。在跨NLU、有条件和无条件生成的广泛任务范围内,GLM相比具有相同模型大小和数据的BERT、T5和GPT,在性能上表现更好。

总体介绍

通常,现存的预训练框架可以分成三类:自回归、自编码和编码器-解码器。

自回归模型,如GPT,学习自左向右的语言模型,成功应用在文本生成和扩容到十亿参数级别时的少样本学习能力。但其有一个本质缺点,即这种单向的注意力机制无法在NLU任务中完整捕获上下文信息。

自编码模型,如BERT,通过去噪(denoising)目标(MLM)学习双向上下文编码器。该编码器产生的上下文表示可以适用于NLU任务,但无法直接用于文本生成。

编码器-解码器模型也在编码器上采用双向注意力,在解码器上采用单向注意力,

http://www.lryc.cn/news/180519.html

相关文章:

  • 漏洞扫描环境:win10系统用VMware Workstation打开虚拟机若干问题
  • OpenCV实现模板匹配和霍夫线检测,霍夫圆检测
  • 消息队列实现进程之间通信方式
  • 用简单例子讲清楚webgl模板测试
  • 区块链(8):p2p去中心化之websoket服务端实现业务逻辑
  • composer安装与设置
  • unordered_map/unordered_set的学习[unordered系列]
  • C++位图—布隆过滤器
  • SQL SELECT 语句进阶
  • Mac程序坞美化工具 uBar
  • 【数据结构】排序之插入排序和选择排序
  • 6.html表单
  • 【python学习第11节:numpy】
  • Eclipse 主网即将上线迎空投预期,Zepoch 节点或成受益者?
  • JavaSE | 初识Java(四) | 输入输出
  • 车牌超分辨率:License Plate Super-Resolution Using Diffusion Models
  • 如何制作在线流程图?6款在线工具帮你轻松搞定
  • 反SSDTHOOK的另一种思路-0环实现自己的系统调用
  • Certbot签发和续费泛域名SSL证书(通过DNS TXT记录来验证域名有效性)
  • PY32F003F18之RTC
  • redis主从从,redis-7.0.13
  • 力扣-338.比特位计数
  • 【Leetcode】 17. 电话号码的字母组合
  • 洛谷P1102 A-B 数对题解
  • 【Linux进行时】进程地址空间
  • 批量将文件名称符合要求的文件自动复制到新文件夹:Python实现
  • TensorFlow入门(一、环境搭建)
  • 90、Redis 的 value 所支持的数据类型(String、List、Set、Zset、Hash)---->Hash 相关命令
  • 我开源了一个加密算法仓库,支持18种算法!登录注册业务可用!
  • FPGA设计时序约束二、输入延时与输出延时