当前位置：首页 > news >正文

论文阅读_LLaMA

news 2025/7/22 17:11:16

论文信息

number headings: auto, first-level 2, max 4, _.1.1
name_en: LLaMA: Open and Efficient Foundation Language Models
name_ch: LLaMA: 开放高效的基础语言模型
paper_addr: https://arxiv.org/abs/2302.13971
doi: https://doi.org/10.48550/arXiv.2302.13971
date_read: 2023-03-25
date_publish: 2023-02-27
tags: [‘深度学习’,‘自然语言处理’]
author: Hugo Touvron, Meta AI
citation: 7
code: https://github.com/facebookresearch/llama

1 读后感

开源项目，以小取胜。使用更多token训练，更少的模型参数。其小模型可以运行在单GPU环境下，65B大模型可与PaLM模型效果竞争；主要技术包含：调整了模型结构，加速了训练和推理。

2 摘要

论文展示了仅使用公开可用的数据集来训练最先进的模型，而无需诉诸专有和不可访问的数据集。模型从7B-65B参数，使用T级别token训练。LLaMA-13B模型效果超越了GPT-3(175B)模型。LLaMA-65B模型可与当前最好模型竞争。

3 介绍

大模型在Few Shot上表现好，主要归功于大模型的参数量。本文至力于找到合适的数据量和参数量，以实现快速推理。

4 方法

4.1 预测训练数据

4.2 模型结构

模型基于Transformer结构，与其它框架主要有以下差别（基本都是2019-2021年，其它模型用过的技术）：

预归一化：
使用RMSNorm对每个 transformer 子层的输入进行归一化，而不是对输出进行归一化，以提升稳定性。
SwiGLU激活函数：
使用SwiGLU代替ReLU激活函数。
位置嵌入：
在网络的每一层，删除了绝对位置嵌入，添加旋转位置嵌入。

4.3 优化

模型规模如下：

4.4 高效实施

使用因果多头注意力算子的高效实现，减少了内存使用和计算。为进一步提高训练效率，减少了在带有检查点的反向传播过程中重新计算的激活量（替代了Pytorch autograd）。通过使用模型和序列并行性减少模型的内存使用。此外，还尽可能多地重叠激活计算和 GPU 之间的网络通信。
在训练 65B 参数模型时，代码在具有 80GB RAM 的 2048 A100 GPU。对包含 1.4T 令牌的数据集进行训练大约需要 21 天。