当前位置: 首页 > news >正文

论文笔记:Multi-Head Mixture-of-Experts

2024 neurips

1 背景

  • 稀疏混合专家(SMoE)可在不显著增加训练和推理成本的前提下提升模型的能力【比如Mixtral 8*7B,表现可以媲美LLaMA-2 70B】
    • 但它也有两个问题
      • 专家激活率低(下图左)
        • 在优化时只有一小部分专家会被激活
        • ——>在学习应对复杂任务的大量专家时,会出现性能次优和效果不佳的问题
      • 无法细粒度地分析单个 token 的多重语义概念【多义词/具有多重细节的图块】
  • ——>提出了多头混合专家(MH-MoE)
    • 采用了多头机制,可将每个输入 token 分成多个子 token
    • 然后将这些子 token 分配给一组多样化的专家并行处理,之后再无缝地将它们整合进原来的 token 形式
  • MH-MOE的优势
    • 专家激活率更高且扩展性更好
      • MH-MoE 能优化几乎所有专家,从而可以缓解专家激活率低的问题并大幅提升更大专家的使用率
    • 具有更细粒度的理解能力
      • MH-MoE 采用的多头机制会将子 token 分配给不同的专家,从而可以联合关注来自不同专家的不同表征空间的信息,最终获得更好更细粒度的理解能力。

2 方法

  • MH-MoE 的训练目标是最小化两个损失:针对具体任务的损失和辅助性的负载平衡损失。

http://www.lryc.cn/news/537554.html

相关文章:

  • vue和Django快速创建项目
  • Java LinkedList(单列集合)
  • 多线程基础面试题剖析
  • .NET SixLabors.ImageSharp v1.0 图像实用程序控制台示例
  • EasyExcel提取excel文档
  • 第十五届蓝桥杯嵌入式省赛真题(满分)
  • ASP.NET Core Web应用(.NET9.0)读取数据库表记录并显示到页面
  • 【Sceneform-EQR】实现3D场景背景颜色的定制化(背景融合的方式、Filament材质定制)
  • LeetCode1706
  • 2517. 礼盒的最大甜蜜度(Maximum Tastiness of Candy Box)
  • Golang 的字符编码与 regexp
  • 利用ollama 与deepseek r1大模型搭建本地知识库
  • Java短信验证功能简单使用
  • CAS单点登录(第7版)21.可接受的使用政策
  • 53倍性能提升!TiDB 全局索引如何优化分区表查询?
  • Pythong 解决Pycharm 运行太慢
  • 库里存储的数据有大量回车时,该如何进行存取
  • 【devops】Github Actions Secrets | 如何在Github中设置CI的Secret供CI的yaml使用
  • 体验 DeepSeek-R1:解密 1.5B、7B、8B 版本的强大性能与应用
  • 一文说清楚什么是Token以及项目中使用Token延伸的问题
  • 大模型-Tool call、检索增强
  • 【算法】【区间和】acwing算法基础 802. 区间和 【有点复杂,但思路简单】
  • Ubuntu22.04通过Docker部署Jeecgboot
  • HTML4
  • STM32F10X 启动文件完整分析
  • typescript快速入门之安装与运行
  • React源码解读
  • 【DeepSeek-R1】 API申请(火山方舟联网版)
  • 负载均衡集群——LVS-DR配置
  • 数据结构篇