当前位置: 首页 > news >正文

[论文笔记] chatgpt系列 SparseMOE—GPT4的MOE结构

SparseMOE: 稀疏激活的MOE

        Swtich MOE,所有token要在K个专家网络中,选择一个专家网络。

        显存增加

        

 

Experts Choice:路由MOE:​​​​​​​

        由专家选择token。这样不同的专家都选择到某个token,也可以不选择该token。

        由于FFN层的时间复杂度和attention层不同,FFN层的时间复杂度在O(N*d),N是输入长度,d是隐层纬度。attention层的时间复杂度在O(N^2*d)。

        所以这样操作没能减小计算量。参数量也是多了几个Expert的参数量。

        论文里的效果比SparseMOE更好。显存增加

Tokens Choice:路由MOE:​​​​​​​

         由token选择专家。每个token只能进到一个专家里。没有t

http://www.lryc.cn/news/260900.html

相关文章:

  • C# WPF上位机开发(键盘绘图控制)
  • 《地理信息系统原理》笔记/期末复习资料(10. 空间数据挖掘与空间决策支持系统)
  • uniapp播放 m3u8格式视频 兼容pc和移动端
  • 产品经理之Axure的元件库使用详细案例
  • 数字化转型对企业有什么好处?
  • 微信小程序:按钮禁用,避免按钮重复提交
  • JAVA 异常分类及处理
  • C语言--求数组的最大值和最小值【两种方法】
  • ES-组合与聚合
  • 在 Spring Boot 中发送邮件简单实现
  • 深入理解网络 I/O:单 Selector 多线程|单线程模型
  • Kafka Avro序列化之三:使用Schema Register实现
  • EasyExcel
  • java 探针两种模式实战
  • uniGUI之MASK遮罩
  • DevOps云原生创建devops流水线(微服务项目上传git,打包镜像,部署k8s)
  • 【vim 学习系列文章 13.1 -- 自动命令autocmd 根据文件类型设置vim参数】
  • 算法基础概念之数据结构
  • 解决ES伪慢查询
  • 关于Ubuntu22.04恢复误删文件的记录
  • Docker笔记:Docker Swarm, Consul, Gateway, Microservices 集群部署
  • 浅析AI视频分析与视频管理系统EasyCVR平台及场景应用
  • 跨站点分布式多活存储建设方案概述
  • Github 2023-12-16开源项目日报Top10
  • c++ 中多线程的相关概念与多线程类的使用
  • 深入理解 hash 和 history:网页导航的基础(下)
  • 腾讯文档助力CRM集成:无代码连接电商与广告
  • 学习使用echarts漏斗图的参数配置和应用场景
  • npm ,yarn 更换使用国内镜像源,阿里源,清华大学源
  • vue+react题集整理