【DataWhale】快乐学习大模型 | 202507,Task06笔记
Encoder-only PLM
有标注的数据是很贵的,利用预测文本中间内容这种无监督的方式可以有效地利用大量的无标注数据,提升模型效果。
BERT
核心:
1、利用到了前后信息
训练时通过:
I love [MASK] because you are [MASK].
来预测MASK。
RoBERTa
优化:
1、去掉 NSP 预训练任务
2、更⼤规模的预训练数据和预训练步⻓
3、更⼤的 bpe 词表
核心:
1、更大规模的预训练数据
2、动态遮蔽策略提升性能
ALBERT
优化:
1、将 Embedding 参数进⾏分解
2、跨层进⾏参数共享
3、提出 SOP 预训练任务
核心:
1、Encoder参数共享
2、改进的预训练任务减少参数量提升性能
里面用到的SOP的训练方法有点对比学习
的感觉
名词解释
BERT
: (Bidirectional Encoder Representations from Transformers), 基于Transformer的双向编码器表示,是一个预训练语言模型,主要用于自然语言理解(NLU)任务。
MLM
: (Masked Language Model), 掩码语言模型,BERT的预训练任务之一,通过随机遮蔽部分token并要求模型预测被遮蔽的token来训练模型捕捉双向语义关系。
NSP
: (Next Sentence Prediction), 下一句预测,BERT的另一个预训练任务,通过判断两个句子是否是连续的上下文来训练模型的句级语义关系拟合能力。
NLU
: (Natural Language Understanding), 自然语言理解,NLP的一个子领域,专注于让计算机理解人类语言的语义。
NLG
: (Natural Language Generation), 自然语言生成,NLP的一个子领域,专注于让计算机生成自然语言文本。
LLM
: (Large Language Model), 大型语言模型,指参数量极大、预训练数据规模庞大的语言模型,如GPT系列。
SOTA
: (State Of The Art), 当前最优性能,指在某个任务或领域中达到的最佳性能水平。
RoBERTa
: (Robustly Optimized BERT Approach), 一种对BERT进行优化的预训练模型,通过改进预训练任务和使用更大规模的预训练数据来提升性能。
ALBERT
: (A Lite BERT), 一种对BERT进行优化的预训练模型,通过减少模型参数量并引入新的预训练任务(SOP)来提升性能。
SOP
: (Sentence Order Prediction), 句子顺序预测,ALBERT提出的预训练任务,通过判断两个句子的顺序关系来增加预训练的难度。
BPE
: (Byte Pair Encoding), 字节对编码,一种分词方法,将文本切分为子词对,用于提高模型对文本的编码能力。
WordPiece
: 一种基于统计的子词切分算法,将单词拆解为子词,用于分词和模型输入。
这些缩写在自然语言处理领域中非常常见,理解它们的全称和含义有助于更好地把握相关技术和模型的核心概念。
参考资料
1、happy-llm/docs/chapter3/第三章 预训练语言模型.md
2、kimi