当前位置: 首页 > news >正文

MOE论文详解(4)-GLaM

2022年google在GShard之后发表另一篇跟MoE相关的paper, 论文名为GLaM (Generalist Language Model), 最大的GLaM模型有1.2 trillion参数, 比GPT-3大7倍, 但成本只有GPT-3的1/3, 同时效果也超过GPT-3. 以下是两者的对比:

在这里插入图片描述

跟之前模型对比如下, 跟GShard和Switch-C相比, GLaM是第一个MoE在Decoder-only模型上的应用. (整体变化其实不大)

在这里插入图片描述

1. 训练数据

GLaM模型使用开源的1.6万亿(trillion)个token进行训练, 下图说明了训练数据的种类与混合比例:

在这里插入图片描述

2. 模型结构

整体模型结构跟GShard类似, 如下图所示, 总共有64个expert, 门控网络每次从中选择2个expert进行计算. 另外还有几点改动:

  • 使用relative positional bias(From Transformer-XL) 替换标准的position embedding
  • 在非MoE Transformer层, 使用Gated Linear Unit(GLU)Gaussian Error Linear Unit(GeLU)激活来替换第一个线性层和激活.
  • GLaM模型训练中权重和计算的切分使用2维的切分算法(From GSPMD).
    • 把不同MoE layer上相同位置(具有相同的index值)的专家放到同一个device设备上, 使得不同的MoE layer得到相同的计算图
    • 使用while_loop控制语句wrap重复性的MoE layer
    • 要使得模型效果好, expert要足够大. 如果一个expert足够大时一个expert就对应多个core来分配, 也就是一个expert对应 N E \frac{N}{E} EN 个device. expert的权重shape为 [ E , M , H ] [E, M, H] [E,M,H], 按专家维度 E E E 和hidden维度 H H H 来切分; input activation tensor 的shape大小为 [ B , S , M ] [B, S, M] [B,S,M], 按 batch维度 B B B 和 model维度 M M M 来进行切分.
    • 同时也依赖GSPMD的编译pass过程来决定剩下tensor的切分策略

在这里插入图片描述

3. 结果

GPT-3与GLaM的比较如下, 分别在zero-shot, one-shot, few-shot等多个方面进行了比较, 效果比GPT-3要好

在这里插入图片描述

4. 参考

  • GLaM
  • MOE论文详解(4)-GLaM
http://www.lryc.cn/news/462434.html

相关文章:

  • LeetCode322:零钱兑换
  • 速盾:高防 cdn 提供 cc 防护?
  • 【大数据应用开发】2023年全国职业院校技能大赛赛题第10套
  • 【源码部署】解决SpringBoot无法加载yml文件配置,总是使用8080端口方案
  • 2010年国赛高教杯数学建模B题上海世博会影响力的定量评估解题全过程文档及程序
  • 使用nginx配置静态页面展示
  • [IOI2018] werewolf 狼人(Kruskal重构树 + 主席树)
  • snmpgetnext使用说明
  • frameworks 之 触摸事件窗口查找
  • memset的用法
  • 阿里云国际站DDoS高防增值服务怎么样?
  • open-cd中的changerformer网络结构分析
  • 太速科技-426-基于XC7Z100+TMS320C6678的图像处理板卡
  • asp.net Core 自定义中间件
  • 掌握 C# 设计模式:从基础到依赖注入
  • 根据json转HttpClient脚本
  • 如何将LiDAR坐标系下的3D点投影到相机2D图像上
  • JAVA就业笔记6——第二阶段(3)
  • 02.04、分割链表
  • Excel 中根据患者的就诊时间标记病例为“初诊”或“复诊”
  • 遇到“mfc100u.dll丢失”的系统错误要怎么处理?科学修复mfc100u.dll
  • [Linux] 逐层深入理解文件系统 (1)—— 进程操作文件
  • RT-Thread 互斥量的概念
  • 6.计算机网络_UDP
  • Windows应急响蓝安服面试
  • PCL 点云配准-4PCS算法(粗配准)
  • 12、论文阅读:利用生成对抗网络实现无监督深度图像增强
  • Axure重要元件三——中继器表单制作
  • DMAIC赋能智能家居:解锁未来生活新篇章!
  • 代码随想录算法训练营第二天| 209.长度最小的子数组 59.螺旋矩阵II 区间和 开发商购买土地