当前位置：首页 > news >正文

新型大语言模型的预训练与后训练范式，谷歌的Gemma 2语言模型

news 2025/7/21 0:38:03

前言：大型语言模型（LLMs）的发展历程可以说是非常长，从早期的GPT模型一路走到了今天这些复杂的、公开权重的大型语言模型。最初，LLM的训练过程只关注预训练，但后来逐步扩展到了包括预训练和后训练在内的完整流程。后训练通常涵盖监督指导微调和对齐过程，而这些在ChatGPT的推广下变得广为人知。

自ChatGPT首次发布以来，训练方法学也在不断进化。在这几期的文章中，我将回顾近1年中在预训练和后训练方法学上的最新进展。

关于LLM开发与训练流程的概览，特别关注本文中讨论的新型预训练与后训练方法

每个月都有数百篇关于LLM的新论文提出各种新技术和新方法。然而，要真正了解哪些方法在实践中效果更好，一个非常有效的方式就是看看最近最先进模型的预训练和后训练流程。幸运的是，在近1年中，已经有四个重要的新型LLM发布，并且都附带了相对详细的技术报告。

在本文中，我将重点介绍以下模型中的谷歌的 Gemma 2语言模型 预训练和后训练流程：

• 阿里巴巴的 Qwen 2

• 苹果的智能基础语言模型

• 谷歌的 Gemma 2

• Meta AI 的 Llama 3.1

我会完整的介绍列表中的全部模型，但介绍顺序是基于它们各自的技术论文在arXiv.org上的发表日期，这也巧合地与它们的字母顺序一致。

谷歌的Gemma 2

谷歌的Gemma模型最近在《Gemma 2：改进实用大小的开放语言模型》中有所描述。

我将在接下来的概述部分提供一些关键事实的概述，然后讨论预训练和后训练过程。

3.1 Gemma 2概述

Gemma 2模型有三种规模：20亿、90亿和270亿参数。主要关注的是探索不一定需要增加训练数据集大小的技术，而是开发相对小且高效的LLM。

值得注意的是，Gemma 2具有相当大的词汇量，为256k词汇。相比之下，Llama 2使用了32k词汇量，Llama 3使用了128k词汇量。

此外，Gemma 2采用了类似Mistral早期模型的滑动窗口注意力，可能是为了减少内存成本。有关Gemma 2架构的更多细节，请参阅我之前文章中的Gemma 2部分。

3.2 Gemma 2预训练

Gemma的研究人员认为，即使是小型模型也常常训练不足。然而，他们没有简单地增加训练数据集的大小，而是专注于维护质量，并通过其他方法（如知识蒸馏，类似于苹果的方法）实现改进。

尽管270亿参数的Gemma 2模型是从头开始训练的，较小的模型则使用了类似苹果之前解释的方法的知识蒸馏进行训练。

270亿参数的模型在13万亿标记上训练，90亿参数的模型在8万亿标记上训练，20亿参数的模型在2万亿标记上训练。此外，类似于苹果的方法，Gemma团队优化了数据混合以提升性能。

Gemma 2预训练技术总结。

3.3 Gemma 2后训练

Gemma模型的后训练过程包括典型的监督微调（SFT）和带人类反馈的强化学习（RLHF）步骤。

指令数据涉及使用仅英语的提示对，这些是人工生成和合成生成内容的混合。具体来说，也很有趣的是，响应主要由教师模型生成，并且在SFT阶段也应用了知识蒸馏。

他们的RLHF方法中一个有趣的方面，继SFT之后，是用于RLHF的奖励模型比政策（目标）模型大十倍。

Gemma使用的RLHF算法相当标准，但有一个独特的转折：他们通过一种称为WARP的方法平均了政策模型，这是WARM（加权平均奖励模型）的后继者。我之前在我的文章《模型融合、专家混合及朝向更小LLM》中详细讨论过这种方法。

Gemma 2后训练技术总结。

3.4 结论

Gemma团队似乎真的加倍依赖知识蒸馏，他们在预训练和后训练中都使用了这种方法，与苹果类似。有趣的是，他们没有使用多阶段预训练方法，或者至少他们在论文中没有详细说明。

http://www.lryc.cn/news/494206.html

相关文章：

基于投影寻踪博弈论-云模型的滑坡风险评价

WRF-Chem模式安装、环境配置、原理、调试、运行方法；数据准备及相关参数设置方法

Spring中每次访问数据库都要创建SqlSession吗？

力扣刷题TOP101：6.BM7 链表中环的入口结点

浅谈telnet和ping

P4-3【应用数组进行程序设计 | 第三节】——知识要点：字符数组

彻底理解微服务配置中心的作用

SpringBoot开发——详细讲解 Spring Boot 项目中的 POM 配置

pyspark实现基于协同过滤的电影推荐系统

视觉语言模型（VLM）学习笔记

学习笔记：黑马程序员JavaWeb开发教程(2024.11.29)

文档加密怎么做才安全？

使用Setup Factory将C#的程序打包成安装包

解决 java -jar 报错：xxx.jar 中没有主清单属性

Java HashSet 介绍

2024年几款免费的AI对话工具介绍

Gazebo构建模型(含GNSS、IMU、LiDAR、Camera传感器)

#Js篇：链式判断运算符 ?.和Null判断运算符？？和逻辑赋值运算符||= = ??=

IDEA敲Web前端快捷键

【Vue3】【Naive UI】＜NDropdown＞标签

技术总结（四十一）

k8s集成skywalking

如何写一份优质技术文档

LeetCode：206.反转链表

详解高斯消元

Maven - 优雅的管理多模块应用的统一版本号

国际网络安全趋势

基于米尔全志T527开发板的FacenetPytorch人脸识别方案

Altium Designer脚本工具定制