当前位置: 首页 > news >正文

LLM 压缩之二: ShortGPT

0. 资源链接

  • 论文: https://arxiv.org/pdf/2403.03853

  • 项目代码: 待开源

1. 背景动机

现有的大语言模型 LLM 推理存在以下问题:

  • LLM 模型因为 scale law 极大的提高模型的预测能力,但是同样带来较大的推理延时;对于 LLM 应用部署带来较大的挑战。

  • 目前的大模型加速的方法主要分为量化和压缩两种,目前量化和压缩一般需要训练以恢复模型精度,尤其量化较低比特时。

2. 内容提要

  • 通过分析大模型存在的冗余性,发现在模型深度的维度存在大量的冗余;可以通过简单的去除冗余层来加速。

  • 本文提出了一个 BI score 的指标来表征层的重要性,基于 BI score,本文提出一个简单的深度剪枝方法。

3. 技术细节

  • BI score 计算公式:

  • 层冗余分析:

  • Layer 剪枝

    • 基于 BI score 排序,减去 BI score 小的层。

4. 实验分析

5. 一些思考

  • ShortGPT 给大模型剪枝提供了一个新视角,对后续的剪枝算法有较大启发。

  • ShortGPT 目前还比较简单,后续应该会有更多的工作出现,优化当前的方案。

http://www.lryc.cn/news/428710.html

相关文章:

  • EmguCV学习笔记 VB.Net 5.2 仿射变换
  • Fink初识
  • PyTorch的torchvision内置数据集使用,transform+pytorch联合使用
  • MT1619 (A/B/C对应18W/22W/25W)如何避免温度高、电磁干扰
  • Hadoop 的基本 shell 命令
  • HCIP-交换实验
  • Windows下线程的创建与使用(win32-API)
  • 华为OD机试(C卷,100分)- 游戏分组
  • centos7.9系统按cloudpods
  • android apk 加固后的地图加载异常及重新签名
  • 手把手搭建私人在线备份系统
  • 数据分析实操案例分享:如何对人事数据进行BI分析?
  • 谷粒商城实战笔记-228-商城业务-认证服务-自定义SpringSession完成子域session共享
  • Elasticsearch核心
  • Python.NET:打开Python与.NET世界互通的大门
  • uniapp - plugins的组件配置使用
  • Microsoft Edge WebView2 截图
  • [word] 复杂文本如何仅全选word中的表格 (简单跟做即可)
  • Aop切面编程
  • 目标检测 | yolov9 原理和介绍
  • 如何在不格式化的情况下解锁Android智能手机密码
  • ts语法、nvm的使用以及github访问速度
  • 缓存实现方式
  • 鸿蒙内核源码分析(中断切换篇) | 系统因中断活力四射
  • 回归预测|基于雪消融优化相关向量机的数据回归预测Matlab程序SAO-RVM 多特征输入单输出 SAO-RVM
  • 如何在HTML中创建链接?什么是CSS定位?什么是CSS优化?
  • 1.Java:集合
  • C语言从头学49—文件操作(四)
  • 算法力扣刷题记录 八十四【46.全排列】
  • [C++进阶]map和set