当前位置: 首页 > news >正文

AWQ量化(Activation-aware Weight Quantization)

论文:

AWQ: Activation-aware Weight Quantization for On-Device LLM Compression and Acceleration

中文解读:

深入理解AWQ量化技术 - 知乎 (zhihu.com)

动机:端侧设备用LLM,为了减少显存占用量,所以要用INT4量化;

实现:只量化W矩阵,存储INT4计算的时候再反量化为FP16(TensorRT-LLM反量化为FP8),进行计算;

朴素的量化:

发现:W矩阵里,有1%的权重,对量化误差影响最大;哪些权重是这1%呢?答:Activation绝对值大的那列(channel),所对应的W的那行;

改进:对Activation绝对值最大的那些列,所对应的W的那些行,不进行量化;W的其他行,进行INT4量化;

痛点:有的量化,有的不量化,即混合精度计算,在GPU上执行的效率低;

解决:整个W矩阵全部进行量化;区别对待,对重要的Channel,进行scale放大;(越重要,scale越大一些);scale越大的channel,该channel的量化误差就越小;

原理:

朴素的量化:

其中,Round的量化误差,绝对值在[0, 0.5]之间,是均匀分布,均值是0.25;

当给w乘以一个大于1的scale s,则:

如果Round仍保持在0.25,则w的误差减少s倍;

假设:对1%的W进行s倍增大,且s不是很大时,整个矩阵的scale factor △,不会发生大的变化;

细节:

问:每个s具体是多少?

答:看Activation矩阵X,每一列所有元素的绝对值,取平均值,进行a次方(该a数值是在(0,1)之间网格搜索出来的最优值),和其他列的平均值a次方归一化,就是该列的s;即X哪列的绝对值大,对应W中的该行就s大;

问:group-size是什么?

答:分块量化,量化误差能更小;按X的列,W的行,分成多个group,每个group内部进行量化;

http://www.lryc.cn/news/433420.html

相关文章:

  • SprinBoot+Vue体育商品推荐的设计与实现
  • 【Python基础】Python函数
  • 【超简单】1分钟解决ppt全文字体一键设置
  • 数组与贪心算法——179、56、57、228(2简2中)
  • WireShark过滤器
  • 2024年全新deepfacelive如何对应使用直播伴侣-腾讯会议等第三方软件
  • 告别懵逼——前端项目调试与问题排查方法小结
  • [数据集][目标检测]肺炎检测数据集VOC+YOLO格式4983张2类别
  • 顶层const和底层const
  • 嵌入式Openharmony系统构建与启动详解
  • 锡林郭勒奶酪品牌呼和浩特市大召店盛大开业
  • 【Java算法】模拟
  • 标准库标头 <filesystem> (C++17)学习之文件类型
  • 基于51单片机的自动转向修复系统的设计与实现
  • mysql笔记4(数据类型)
  • 电脑开机出现no operation system found错误原因分析及解决方法
  • 数学建模笔记—— 主成分分析(PCA)
  • @vueup/vue-quill使用quill-better-table报moduleClass is not a constructor
  • gpp.bat,g++编译C++源文件的批处理
  • JDBC:连接数据库
  • 【赵渝强老师】大数据主从架构的单点故障
  • 【AutoX.js】选择器 UiSelector
  • Elasticsearch数据写入过程
  • FreeRTOS-基本介绍和移植STM32
  • 在C++中,如何避免出现Bug?
  • Linux 操作系统 进程(1)
  • clickhouse-v24.1-离线部署
  • 安卓13删除app 链接库警告弹窗Detected problems with app native
  • 第四次北漂----挣个独立游戏的素材钱
  • 漫谈设计模式 [12]:模板方法模式