当前位置：首页 > news >正文

Happy-LLM-Task06 ：3.1 Encoder-only PLM

news 2025/6/26 9:00:04

Encoder-only PLM 是指基于 Transformer 编码器架构构建的预训练语言模型。这类模型仅使用 Transformer 的编码器部分进行预训练，核心特点是通过双向自注意力机制捕捉文本的上下文语义，适用于自然语言理解（NLU）任务。

架构基础：Transformer 编码器
- 由多层 Transformer 编码器块堆叠而成，每个块包含：
  - 自注意力层：允许模型同时关注文本中的所有位置（双向编码），如 BERT 可通过掩码语言模型（MLM）学习上下文依赖。
  - 前馈神经网络层：处理自注意力输出的特征表示。
双向语义捕捉能力
- 与 Decoder-only 模型（如 GPT，仅能单向编码前文信息）不同，Encoder-only 模型可同时利用文本的前文和后文信息，更适合理解复杂语义。例如：
  - 句子“我喜欢北京的秋天，因为____很凉爽”中，Encoder-only 模型可通过“秋天”和“凉爽”的双向关联预测空缺词“天气”。
预训练任务设计
- 掩码语言模型（MLM）：随机掩盖文本中的部分token，让模型根据上下文预测原词，强化语义理解。
- 下一句预测（NSP，部分模型使用）：判断两个句子是否为连续文本，提升长文本理解能力（如 BERT 原始版本）。

模型名称	提出时间	核心改进点	应用场景
BERT	2018	首个大规模Encoder-only模型，奠定双向预训练基础	文本分类、问答、命名实体识别等
RoBERTa	2019	优化预训练策略（如动态掩码、更长训练数据），提升模型性能	各类NLU任务的基线模型
ALBERT	2019	通过参数缩减技术（如跨层参数共享）减小模型体积，同时保持性能	轻量级应用、推理加速
ELECTRA	2020	用生成器-判别器架构替代MLM，通过“替换token检测”任务提升训练效率	高效预训练与下游任务适配
DeBERTa	2021	引入动态掩码和增强版自注意力机制（如解耦注意力），优化长文本理解能力	复杂语义推理、长文档分析

核心应用领域
- 自然语言理解任务：
  - 文本分类（如情感分析、新闻分类）、命名实体识别（NER）、语义角色标注（SRL）。
  - 问答系统（如抽取式问答，通过双向编码定位答案位置）。
  - 文本相似度计算（如语义匹配、复述检测）。
优势
- 双向编码效率：相比Decoder-only模型，Encoder-only在处理需要全局语义理解的任务时更具优势（如文档摘要的关键信息提取）。
- 微调灵活性：预训练后的模型可通过添加简单任务层（如全连接层）快速适配下游任务，无需复杂架构修改。
局限性
- 生成能力较弱：由于缺乏自回归生成机制（Decoder-only模型的优势），直接用于文本生成（如摘要、对话）时效果较差，需结合额外解码器或生成策略。

模型类型	代表模型	核心架构	预训练任务特点	典型应用场景
Encoder-only	BERT、RoBERTa	Transformer编码器	双向掩码语言模型、下一句预测	NLU任务（理解、分类、问答）
Decoder-only	GPT-3、LLaMA	Transformer解码器	单向自回归语言模型（预测下一个token）	文本生成（写作、对话、翻译）
Encoder-Decoder	T5、BART	编码器+解码器	编码器双向编码，解码器自回归生成	生成与理解结合任务（翻译、摘要）