当前位置: 首页 > news >正文

稀疏计算、彩票假说、MoE、SparseGPT

稀疏计算可能是未来10年内最有潜力的深度学习方向之一,稀疏计算模拟了对人脑的观察,人脑在处理信息的时候只有少数神经元在活动,多数神经元是不工作的。而稀疏计算的基本思想是:在计算过程中,将一些不重要的参数设置为0,从而减少计算量。而这种计算量的减少规模经常是10倍级别,这为部署提速提供了想象力。业界已有一些公司例如墨芯科技在做这方面的工作,并取得了一些成果,大家可以看他们的宣传视频(https://mp.weixin.qq.com/s/NHydrLhqJYGbvF7eY2m9RA),下面推荐几篇经典的文章:

The Lottery Ticket Hypothesis(彩票假说)

  • 推荐理由: 这是这个领域里非常经典的一篇文章,作者提出了一种生成稀疏的高性能网络的简单方法:在对网络进行训练后,将所有小于某个阈值的权重设置为0(对其进行剪枝),将其余权重重置回其初始配置,然后在保证被剪枝的权重处于冻结状态的情况下(未经过训练),从这个起始配置重新训练网络。在训练最多相同次数的迭代后,它可以与原始网络的测试精度相匹配。
  • 论文地址: https://openreview.net/pdf?id=rJl-b3RcF7
  • 相关解读: https://zhuanlan.zhihu.com/p/675189739 和 https://www.bilibili.com/read/cv2806397/

A REVIEW OF SPARSE EXPERT MODELS IN DEEP LEARNING (来自Jeff Dean的综述)

  • 推荐理由: 尽管彩票假说给业界提供了想象力,但是选择哪些参数裁掉仍是业界一个需要探索的问题。MoE结构提供了一种方案,例如Mixtral 8✖️7B就是一种典型的MoE结构(https://zhuanlan.zhihu.com/p/673527090)。Jeff Dean的综述比较详细地介绍了什么是top-k routing、Upstream Scaling和Downstream Scaling
    在这里插入图片描述

  • 论文地址: https://arxiv.org/abs/2209.01667

  • 相关解读: https://mp.weixin.qq.com/s/mTqCMYUqo1ifcmxlYHYm2A 和 https://huggingface.co/blog/zh/moe

SparseGPT: Massive Language Models Can be Accurately Pruned in One-Shot

在这里插入图片描述

  • 推荐理由: 该算法能够只用一张 A100(80G),在 4.5 个小时左右将 OPT-175B 的模型权重完成 60% 稀疏度的剪枝,且能保持较高的精度。而且可以很好地扩展到 2:4 模式的半结构化剪枝,以适配 A100 的稀疏计算。SparseGPT用来剪枝的思路其实和GPTQ有些类似,都是利用海森矩阵贪心地进行迭代更新,同时利用Cholesky分解来稳定数值计算
  • 论文地址: https://arxiv.org/pdf/2301.00774.pdf
http://www.lryc.cn/news/307511.html

相关文章:

  • Git Windows安装教程
  • iOS高级理论:Runtime应用
  • php判断和过滤get或者post的html标签,防止跨站点脚本(XSS),链接注入,框架注入等攻击
  • PySide6实现课堂点名程序
  • 瑞_Redis_Redis命令
  • js 算法题 在数组中找出和为目标值 target 的那 两个 整数,并返回它们的数组下标
  • 基于springboot接口的编写
  • 【HarmonyOS】鸿蒙开发之Video组件——第3.7章
  • React引入css的几种方式以及应用
  • [算法沉淀记录] 排序算法 —— 冒泡排序
  • 【机器人最短路径规划问题(栅格地图)】基于遗传算法求解
  • 如何做代币分析:以 TRX 币为例
  • 关于地址引用与值引用的坑
  • 初谈软件工程(一)
  • 自动化开展思路
  • 安装使用zookeeper
  • nginx实现http反向代理及负载均衡
  • vue组件中data为什么必须是一个函数
  • 科技论文编写思路
  • Windows虚拟机克隆后修改SID
  • 前端架构: 脚手架工具rxjs的快速上手应用
  • 小程序框架(概念、工作原理、发展及应用)
  • 音视频数字化(数字与模拟-电影)
  • 在 Ubuntu 中, 使用 fsck 命令来修复磁盘文件系统
  • LED电子显示屏连接方式解析
  • Mysql运维篇(五) 部署MHA--主机环境配置
  • Offer必备算法09_分治快排_四道力扣OJ(快排三路划分)
  • Linux下性能分析的可视化图表工具
  • 泽攸科技JS系列高精度台阶仪在半导体领域的应用
  • c++实现栈和队列类