当前位置: 首页 > news >正文

论文阅读_LLaMA

论文信息

number headings: auto, first-level 2, max 4, _.1.1
name_en: LLaMA: Open and Efficient Foundation Language Models
name_ch: LLaMA: 开放高效的基础语言模型
paper_addr: https://arxiv.org/abs/2302.13971
doi: https://doi.org/10.48550/arXiv.2302.13971
date_read: 2023-03-25
date_publish: 2023-02-27
tags: [‘深度学习’,‘自然语言处理’]
author: Hugo Touvron, Meta AI
citation: 7
code: https://github.com/facebookresearch/llama

1 读后感

开源项目,以小取胜。使用更多token训练,更少的模型参数。其小模型可以运行在单GPU环境下,65B大模型可与PaLM模型效果竞争;主要技术包含:调整了模型结构,加速了训练和推理。

2 摘要

论文展示了仅使用公开可用的数据集来训练最先进的模型,而无需诉诸专有和不可访问的数据集。模型从7B-65B参数,使用T级别token训练。LLaMA-13B模型效果超越了GPT-3(175B)模型。LLaMA-65B模型可与当前最好模型竞争。

3 介绍

大模型在Few Shot上表现好,主要归功于大模型的参数量。本文至力于找到合适的数据量和参数量,以实现快速推理。

4 方法

4.1 预测训练数据

4.2 模型结构

模型基于Transformer结构,与其它框架主要有以下差别(基本都是2019-2021年,其它模型用过的技术):

  • 预归一化:
    使用RMSNorm对每个 transformer 子层的输入进行归一化,而不是对输出进行归一化,以提升稳定性。
  • SwiGLU激活函数:
    使用SwiGLU代替ReLU激活函数。
  • 位置嵌入:
    在网络的每一层,删除了绝对位置嵌入,添加旋转位置嵌入。

4.3 优化

模型规模如下:

4.4 高效实施

使用因果多头注意力算子的高效实现,减少了内存使用和计算。为进一步提高训练效率,减少了在带有检查点的反向传播过程中重新计算的激活量(替代了Pytorch autograd)。通过使用模型和序列并行性减少模型的内存使用。此外,还尽可能多地重叠激活计算和 GPU 之间的网络通信。
在训练 65B 参数模型时,代码在具有 80GB RAM 的 2048 A100 GPU。对包含 1.4T 令牌的数据集进行训练大约需要 21 天。

5 主实验

针对Zero-shot和Few-shot任务评测,以下是对阅读理解的评测,可以看到大模型和小模型对这类问题处理差别不大:

对下述功能进行了评测,不在此抓图说明,结果就是其65B模型和PalM540模型效果差不多,很多评测效果还更好。

  • 标准常识推理 (8个)
  • 闭卷答疑(2个)
  • 阅读理解(1个)
  • 数学推理(2个)谷歌的Minerva模型针对数学训练,效果更好
  • 代码生成(2个)
  • 大规模多任务语言理解。由多项选择题组成,涵盖各个知识领域,包括人文、STEM 和社会科学。在此评测中PaLM明显更好,可能因为训练它的语料更多。

可以看到token越多,训练效果越好:

6 指令微调

通过精调训练了一个引导模型 LLaMA-I,对于MMLU(57种主题的多选题)评测数据对比结果如下:

http://www.lryc.cn/news/56228.html

相关文章:

  • 腾讯空降测试工程师,绩效次次拿S,真是砂纸擦屁股,给我露了一手啊
  • 真题详解(计算机总线)-软件设计(四十五)
  • 剪格子
  • 【Nowcoder-BC146.添加逗号 -OR63.删除公共字符】
  • 能自动摊铺施工的公路滑模机多少钱一台
  • ChatGPT热潮下,因生成式AI失业的人出现,我成了第一批失业的人
  • TypeScript01-基础知识
  • 【Redis学习】Redis安装配置
  • leetcode160:相交链表
  • 基于Prometheus的jvm监控指标详解
  • C程序设计语言基础
  • 构建同一局域网下文件共享网页
  • 程序员未来是不是会大量失业?
  • 解密普元大文件传输平台新版本21种特性
  • 每日一问-ChapGPT-20230406-中医基础-脉诊
  • Nuxt项目asyncData服务端请求数据渲染
  • Vue 13 - 列表渲染 v-for
  • XML复习
  • 【python设计模式】10、组合模式
  • 实验五 网络安全加固
  • MongoDB综述【入门指南】
  • Python 3 备忘清单_开发速查表分享
  • Thinkphp 6.0模版的加载包含输出
  • ROS实践11 自定义头文件并调用
  • 一位年薪35W的测试被开除,回怼的一番话,令人沉思
  • 【Docker】Docker常用命令
  • 【linux基础】7.linux系统自定义应用名和应用图标
  • 10.网络爬虫—MongoDB详讲与实战
  • C4D -> Three.js资产制作与导入流程
  • 【博学谷学习记录】大数据课程-学习十三周总结