当前位置：首页 > news >正文

[论文笔记]GLM

news 2025/8/7 15:06:19

引言

今天带来论文GLM: General Language Model Pretraining with Autoregressive Blank Infilling的笔记。论文中文标题为通用语言模型预训练与自回归填空。

有很多不同类型的预训练架构，包括自编码模型(BERT、RoBERTa、ALBERT)、自回归模型(GPT系列)以及编码器-解码器模型(T5、MASS、BART、PALM)。然而，没有任何预训练框架能够在自然语言理解(NLU)、无条件生成和有条件生成这三个主要类别的所有任务中表现最佳。

作者提出了基于自回归填空的通用语言模型(GLM)来应对这一挑战。

GLM通过添加二维位置编码改进填空预训练，并允许以任意顺序预测文本片段(span)，在NLU任务上相比BERT和T5取得了性能提升。同时，通过改变文本片段的数量和长度，GLM可以针对不同类型的任务进行预训练。在跨NLU、有条件和无条件生成的广泛任务范围内，GLM相比具有相同模型大小和数据的BERT、T5和GPT，在性能上表现更好。

总体介绍

通常，现存的预训练框架可以分成三类：自回归、自编码和编码器-解码器。

自回归模型，如GPT，学习自左向右的语言模型，成功应用在文本生成和扩容到十亿参数级别时的少样本学习能力。但其有一个本质缺点，即这种单向的注意力机制无法在NLU任务中完整捕获上下文信息。

自编码模型，如BERT，通过去噪(denoising)目标(MLM)学习双向上下文编码器。该编码器产生的上下文表示可以适用于NLU任务，但无法直接用于文本生成。

编码器-解码器模型也在编码器上采用双向注意力，在解码器上采用单向注意力，

http://www.lryc.cn/news/180519.html

相关文章：

漏洞扫描环境：win10系统用VMware Workstation打开虚拟机若干问题

OpenCV实现模板匹配和霍夫线检测，霍夫圆检测

消息队列实现进程之间通信方式

用简单例子讲清楚webgl模板测试

区块链（8）：p2p去中心化之websoket服务端实现业务逻辑

composer安装与设置

unordered_map/unordered_set的学习[unordered系列]

C++位图—布隆过滤器

SQL SELECT 语句进阶

Mac程序坞美化工具 uBar

【数据结构】排序之插入排序和选择排序

【python学习第11节：numpy】

Eclipse 主网即将上线迎空投预期，Zepoch 节点或成受益者？

JavaSE | 初识Java(四) | 输入输出

车牌超分辨率：License Plate Super-Resolution Using Diffusion Models

如何制作在线流程图？6款在线工具帮你轻松搞定

反SSDTHOOK的另一种思路-0环实现自己的系统调用

Certbot签发和续费泛域名SSL证书（通过DNS TXT记录来验证域名有效性）

PY32F003F18之RTC

redis主从从，redis-7.0.13

力扣-338.比特位计数

【Leetcode】 17. 电话号码的字母组合

洛谷P1102 A-B 数对题解

【Linux进行时】进程地址空间

批量将文件名称符合要求的文件自动复制到新文件夹：Python实现

TensorFlow入门(一、环境搭建)

90、Redis 的 value 所支持的数据类型（String、List、Set、Zset、Hash）----＞Hash 相关命令

我开源了一个加密算法仓库，支持18种算法！登录注册业务可用！

FPGA设计时序约束二、输入延时与输出延时