当前位置：首页 > news >正文

大型语言模型（LLMs）演化树 Large Language Models

news 2025/6/30 1:49:19

大型语言模型（LLMs）演化树 Large Language Models

flyfish
下面的图来自论文地址

Transformer 模型（如 BERT 和 GPT-3）已经给自然语言处理（NLP）领域带来了革命性的变化。这得益于它们具备并行化能力（能够同时对输入数据的多个部分进行计算）、处理长距离依赖关系的能力（可以考虑并理解序列中相隔较远元素之间的关系），以及它们的可扩展性，使得大型语言模型（LLMs）能够有效地在大量数据和信息上进行训练并对其加以处理。

Transformer 是一种神经网络架构，由 Vaswani 等人在 2017 年一篇题为《Attention is All You Need》的论文中提出。Transformer 架构的一个关键特性是它使用了自注意力机制，该机制使大型语言模型能够聚焦于输入数据的相关部分，同时忽略不必要的信息，从而提升上下文相关的准确回复以及文本生成的质量。尽管大型语言模型领域发展迅速，新的架构不断涌现（如接纳加权键值架构），但了解编码器、解码器以及编解码器模型的架构设计和分类情况仍是很有必要的。大型语言模型的架构及其预训练目标可能存在显著差异，而它们的配置能够决定一个模型在哪些方面表现出色（例如，在文本生成任务、语言理解任务以及理解上下文方面）以及在哪些方面存在局限。

以下是一张更新后的大型语言模型（LLMs）演化树，它分为三个家族分支（仅编码器模型、编解码器模型以及仅解码器模型）。这张演化树勾勒出了语言模型的发展脉络以及庞大的大型语言模型版图，并且依据模型和数据的许可信息突出强调了大型语言模型的使用限制。该演化树基于《在实践中驾驭大型语言模型的力量：关于 ChatGPT 及其他的综述》
Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond

基于 Transformer 的模型以非灰色进行显示：仅解码器模型位于蓝色分支，仅编码器模型位于粉色分支，编解码器模型位于绿色分支。模型在时间线上的纵向位置代表了它们的发布日期。开源模型以实心方块表示，闭源模型则以空心方块表示。右下角的堆叠柱状图展示了来自不同公司和机构的模型数量。
在这里插入图片描述
理解这三种类型的模型（编码器模型、解码器模型以及编解码器模型）之间的差异，对于为任务选择合适的模型、针对特定应用对模型进行微调、管理计算资源以及指导人工智能研发工作而言都至关重要。值得一提的是，尽管这些分类有助于理解不同类型的模型，但许多先进的大型语言模型往往会对组件进行修改，所以这并非严格意义上的分类，而更像是一种便于理解基础知识的概念性分类方式。

仅编码器模型 Encoder - Only Models

一种经过优化的架构，旨在理解输入文本中字词的语境，但本身并不生成新文本。
仅编码器模型以词元（单词、子词、字符或字节）作为输入，通过编码器对其进行处理，为每个词元生成一个数值表示（也称为特征向量或张量），以此来捕捉含义及双向的语境信息。这种表示可用于下游任务，无需进一步生成文本。
适用于多种任务，包括序列分类、实体识别以及抽取等。在需要深入理解语境的任务（如情感分析）方面表现尤为出色。在训练期间能够实现高效的并行处理。
自身缺乏生成连贯文本的能力。这一局限可能使得它们不太适用于涉及文本生成的任务。
示例
BERT、ELECTRA、RoBERTa

编解码器模型 Encoder - Decoder Models

一种既能理解输入文本中字词的语境，又能生成新文本的架构。
编解码器模型由两部分组成：编码器将词元作为输入，将其转换为数值表示，然后解码器利用这些表示来生成输出序列。这类模型尤其适用于序列到序列的任务。
对于那些既需要编码又需要解码的任务（如机器翻译和文本摘要），通常是性能最佳的模型。不过，这些模型在训练和微调时可能会消耗大量计算资源，且耗时较长。
由于采用两部分的设计，与仅编码器模型或仅解码器模型相比，编解码器模型的训练速度可能较慢，且会占用更多计算资源。
示例
FLAN UL2、FLAN T5

仅解码器模型 Decoder -Only Models

一种经过优化、可基于输入生成新文本的架构。
仅解码器模型同样以词元作为输入，并将其转换为数值表示。然而，与编码器不同的是，解码器使用掩码自注意力机制，专注于生成连贯的文本序列。它们通常是自回归模型（基于模型自身先前的输出进行预测）。
解码器在文本生成任务（如故事创作和对话生成）方面表现出色。一些最受欢迎且被广泛使用的语言模型（例如，GPT - 4）就是仅解码器模型。
仅解码器模型的训练速度较慢，因为每个词元的预测都依赖于先前的词元，这使得训练期间无法进行并行处理。此外，在不需要生成新文本而需深入理解输入序列语境的任务方面，它们可能不太擅长。
示例
Bard、GPT - 4、Jurassic - 2、LLaMA、BLOOM、YaLM、Chinchilla、MT - NLG、PALM 2

查看全文

http://www.lryc.cn/news/510976.html