当前位置：首页 > news >正文

AWQ量化(Activation-aware Weight Quantization)

news 2025/6/27 2:33:03

论文：

AWQ: Activation-aware Weight Quantization for On-Device LLM Compression and Acceleration

中文解读：

深入理解AWQ量化技术 - 知乎 (zhihu.com)

动机：端侧设备用LLM，为了减少显存占用量，所以要用INT4量化；

实现：只量化W矩阵，存储INT4；计算的时候再反量化为FP16（TensorRT-LLM反量化为FP8)，进行计算；

朴素的量化：

发现：W矩阵里，有1%的权重，对量化误差影响最大；哪些权重是这1%呢？答：Activation绝对值大的那列(channel)，所对应的W的那行；

改进：对Activation绝对值最大的那些列，所对应的W的那些行，不进行量化；W的其他行，进行INT4量化；

痛点：有的量化，有的不量化，即混合精度计算，在GPU上执行的效率低；

解决：整个W矩阵全部进行量化；区别对待，对重要的Channel，进行scale放大；（越重要，scale越大一些）；scale越大的channel，该channel的量化误差就越小；

原理：

朴素的量化：

其中，Round的量化误差，绝对值在[0, 0.5]之间，是均匀分布，均值是0.25；

当给w乘以一个大于1的scale s，则：

如果Round仍保持在0.25，则w的误差减少s倍；

假设：对1%的W进行s倍增大，且s不是很大时，整个矩阵的scale factor △，不会发生大的变化；

细节：

问：每个s具体是多少？

答：看Activation矩阵X，每一列所有元素的绝对值，取平均值，进行a次方（该a数值是在(0,1)之间网格搜索出来的最优值），和其他列的平均值a次方归一化，就是该列的s；即X哪列的绝对值大，对应W中的该行就s大；

问：group-size是什么？

答：分块量化，量化误差能更小；按X的列，W的行，分成多个group，每个group内部进行量化；

查看全文

http://www.lryc.cn/news/433420.html