当前位置: 首页 > article >正文

论文略读: STREAMLINING REDUNDANT LAYERS TO COMPRESS LARGE LANGUAGE MODELS

2025 ICLR

  • 判断模型层的重要性->剪去不重要的层(用轻量网络代替)
    • 这种方法只减少了层数量,所以可以用常用的方法加载模型

  •  层剪枝阶段
    • 通过输入与输出的余弦相似度来判断各个层的重要性
    • 具有高余弦相似度的层倾向于聚集在一起,因此该方法会修剪连续的层
  • 层替换阶段
    • 训练了一个轻量级蒸馏小模型来弥补剪枝带来的性能损失
    • 根据预定义的修剪率选择从 i 到 i+n 的层进行修剪后,从第 i 层的输入和第 i+n 层的输出中收集隐藏状态作为训练数据,并使用 MSE Loss 通过蒸馏来训练一个轻量级模型
    • 层替换 VS LoRA
      • 过去的结构化剪枝方法一般使用 LoRA 方法训练,而相比之下,层替换方法有着以下优势: 
        • 更低的 GPU 内存消耗
          • 层替换方法只需要在隐藏状态收集期间对原始模型进行前向传播的成本
          • 在训练期间,仅训练轻量级网络
          • ——>比 LoRA 更节省内存
        • 更合理的训练方法
          • LoRA 直接训练剩余的层
          • ——>用轻量级网络替换修剪层比训练剩余层更简单
http://www.lryc.cn/news/2398114.html

相关文章:

  • mapbox高阶,生成并加载等时图
  • 深入剖析物联网边缘计算技术:架构、应用与挑战
  • DeepSeek眼中的文明印记:山海经
  • 在Mathematica中实现Newton-Raphson迭代
  • 【Ragflow】25.Ragflow-plus开发日志:excel文件解析新思路/公式解析适配
  • Python数据可视化科技图表绘制系列教程(一)
  • 移除3D对象的某些部分点云
  • 阿里云为何,一个邮箱绑定了两个账号
  • 高效视频倍速播放插件推荐
  • 无他相机:专业摄影,触手可及
  • 基于贝叶斯优化神经网络的光伏功率预测综述
  • 【C++11】折叠引用和完美转发
  • 数据结构:递归:自然数之和
  • 网易 - 灵犀办公文档
  • 【C++】模板与特化技术全面教程(claude sonnet 4)
  • ABAP设计模式之---“高内聚,低耦合(High Cohesion Low Coupling)”
  • RagFlow优化代码解析(一)
  • 【python与生活】用 Python 从视频中提取音轨:一个实用脚本的开发与应用
  • 深度强化学习赋能城市消防优化,中科院团队提出DRL新方法破解设施配置难题
  • 云原生周刊:探索 Gateway API v1.3.0
  • 008房屋租赁系统技术揭秘:构建智能租赁服务生态
  • Python训练打卡Day41
  • spring-boot-admin实现对微服务监控
  • Linux 权限管理入门:从基础到实践
  • Mycat的监控
  • Glide源码解析
  • 7.RV1126-OPENCV cvtColor 和 putText
  • Android 之 kotlin 语言学习笔记二(编码样式)
  • Redisson单机模式
  • 数据结构第6章 图(竟成)