当前位置：首页 > news >正文

简要探讨大型语言模型（LLMs）的发展历史

news 2025/8/5 17:37:02

关注大型语言模型（LLMs）

语言模型的大小之分
在语言模型领域，“小”和“大”是相对概念。几年前还被视为“巨大”的模型，如今已被认为相当小。该领域发展迅猛，从参数规模为1亿的模型（如BERT、GPT-2的部分版本），已演进到参数达70亿、700亿甚至4000亿的模型（如Llama）。

尽管模型规模较以往典型大小扩大了70到4000倍，但硬件却未能跟上步伐：如今的GPU内存并不比五年前多100倍。解决方案是：集群！通过将大量GPU组合在一起，以分布式方式训练越来越大的模型。大型科技公司斥资数百万美元搭建基础设施，以应对这些模型的训练需求。

模型越大，训练所需的数据就越多，对吧？但在这种规模下，我们谈论的不再是数千甚至数百万个标记，而是数十亿、数万亿个。你身边恰好有几千亿个标记吗？我肯定没有。但到2025年，在Hugging Face Hub上，你确实能找到包含2万亿个标记的数据集！这多酷啊

遗憾的是，即便能获取如此庞大的数据集，我们仍缺乏充分利用这些数据的资源——即数千块高端GPU。只有大型科技公司才能承担这样的规模。

普通数据科学家能够从零开始训练语言模型（例如过去训练BERT时的情况）的时代已经一去不复返了。即便是中型公司，也难以跟上这样的发展速度。

那我们还能做些什么呢？当然是微调模型。

只有当模型的权重公开可用时（也就是我们习惯从Hugging Face Hub下载的预训练基础模型），我们才能对其进行微调。或许更重要的是，只有当模型的许可证允许时，我们才能