当前位置: 首页 > news >正文

LLama系列模型简要概述

LLama-1(7B, 13B, 33B, 65B参数量;1.4T tokens训练数据量)

要做真正Open的AI

Efficient:同等预算下,增大训练数据,比增大模型参数量,效果要更好

训练数据:

书、Wiki这种量少、质量高的数据,训了2轮。

模型改动:

silu激活函数:

LLama-2 (7B, 13B, 70B参数量;2T tokens预训练数据量)

训练流程:

PreTrain + SFT微调 + RLHF强化学习;

安全Reward model, 有用Reward model;

效果:观察到,数据量继续增大的话,还可继续提升效果;

引入了GQA(Group Query Attention):

通过把K和V复制多份来实现的

只在70B模型上,用的GQA:

总共64个head,8个一组,一共有8个Query head和8个Value head。

LLama-3(8B,70B,即将放出的400B,15T tokens预训练数据量)

放出的400B测评,有些指标超过了GPT4;

Word embedding量从3.2万,扩大了4倍,到12.8万。好处:推理效率增加,原来1个中文字词被编码至多个tokens,现在只编码到1个token,减少了推理input和output的token数量。

训练数据:

有研究表明,Code训练数据,对大模型的推理能力提升,有重要作用。因此这里加大了Code的训练数据量。

用LLama2来做预训练数据的质量过滤器。

训练:

用小模型的表现,预测大模型的表现,OpenAI先掌握的,Meta后掌握。

2个24000张H100 GPU卡的集群。

LLama3-Instruct: SFT, Rejection Sampling, DPO, PPO

http://www.lryc.cn/news/500743.html

相关文章:

  • 2022 年“泰迪杯”数据分析技能赛A 题竞赛作品的自动评判
  • MYSQL表联接算法深入研究
  • markdown中画图功能mermaid
  • SCI论文丨机器学习与深度学习论文
  • linux系统编程(二)
  • uni-app登录界面样式
  • windows C#-定义抽象属性
  • ERROR: KeeperErrorCode = NoNode for /hbase/master
  • Deepin 23 踩坑记
  • mysql笔记——索引
  • 考研数据结构——简答题总结
  • Qt Creator 里面设置MSVC 为 utf-8
  • Java阶段三06
  • Helm安装Mysql8主从复制集群
  • 嵌入式基础:Linux C语言:Day7
  • Tablesaw封装Plot.ly实现数据可视化
  • RAG与Embedding:现代NLP的核心技术
  • 力扣每日一题 - 1812. 判断国际象棋棋盘中一个格子的颜色
  • Map 那些事儿
  • GCP Case:MountKirk Games
  • [创业之路-187]:《华为战略管理法-DSTE实战体系》-1-从UTStarcom的发展历程,如何辩证的看企业初期发展太顺利中的危机
  • 高级数据结构-树状数组
  • LeetCode279. 完全平方数(2024冬季每日一题 27)
  • Scala 隐式转换
  • K8S命令部署后端(流水线全自动化部署)
  • Ubuntu中配置交叉编译工具的三条命令的详细研究
  • 【PyQt5教程 二】Qt Designer 信号与槽的使用方法及PyQt5基本小部件说明
  • 编程语言中接口(Interface)介绍
  • 算法学习之贪心算法
  • 【jvm】垃圾回收的优点和原理