简要探讨大型语言模型(LLMs)的发展历史
关注大型语言模型(LLMs)
- 简要探讨语言模型的发展历史
- 理解Transformer架构的基本元素和注意力机制
- 了解不同类型的微调方法
语言模型的大小之分
在语言模型领域,“小”和“大”是相对概念。几年前还被视为“巨大”的模型,如今已被认为相当小。该领域发展迅猛,从参数规模为1亿的模型(如BERT、GPT-2的部分版本),已演进到参数达70亿、700亿甚至4000亿的模型(如Llama)。
尽管模型规模较以往典型大小扩大了70到4000倍,但硬件却未能跟上步伐:如今的GPU内存并不比五年前多100倍。解决方案是:集群!通过将大量GPU组合在一起,以分布式方式训练越来越大的模型。大型科技公司斥资数百万美元搭建基础设施,以应对这些模型的训练需求。
模型越大,训练所需的数据就越多,对吧?但在这种规模下,我们谈论的不再是数千甚至数百万个标记,而是数十亿、数万亿个。你身边恰好有几千亿个标记吗?我肯定没有。但到2025年,在Hugging Face Hub上,你确实能找到包含2万亿个标记的数据集!这多酷啊
遗憾的是,即便能获取如此庞大的数据集,我们仍缺乏充分利用这些数据的资源——即数千块高端GPU。只有大型科技公司才能承担这样的规模。
普通数据科学家能够从零开始训练语言模型(例如过去训练BERT时的情况)的时代已经一去不复返了。即便是中型公司,也难以跟上这样的发展速度。
那我们还能做些什么呢?当然是微调模型。
只有当模型的权重公开可用时(也就是我们习惯从Hugging Face Hub下载的预训练基础模型),我们才能对其进行微调。或许更重要的是,只有当模型的许可证允许时,我们才能