论文:
AWQ: Activation-aware Weight Quantization for On-Device LLM Compression and Acceleration
中文解读:
深入理解AWQ量化技术 - 知乎 (zhihu.com)
动机:端侧设备用LLM,为了减少显存占用量,所以要用INT4量化;
实现:只量化W矩阵,存储INT4;计算的时候再反量化为FP16(TensorRT-LLM反量化为FP8),进行计算;
朴素的量化:
发现:W矩阵里,有1%的权重,对量化误差影响最大;哪些权重是这1%呢?答:Activation绝对值大的那列(channel),所对应的W的那行;
改进:对Activation绝对值最大的那些列,所对应的W的那些行,不进行量化;W的其他行,进行INT4量化;
痛点:有的量化,有的不量化,即混合精度计算,在GPU上执行的效率低;
解决:整个W矩阵全部进行量化;区别对待,对重要的Channel,进行scale放大;(越重要,scale越大一些);scale越大的channel,该channel的量化误差就越小;
原理:
朴素的量化:
其中,Round的量化误差,绝对值在[0, 0.5]之间,是均匀分布,均值是0.25;
当给w乘以一个大于1的scale s,则:
如果Round仍保持在0.25,则w的误差减少s倍;
假设:对1%的W进行s倍增大,且s不是很大时,整个矩阵的scale factor △,不会发生大的变化;
细节:
问:每个s具体是多少?
答:看Activation矩阵X,每一列所有元素的绝对值,取平均值,进行a次方(该a数值是在(0,1)之间网格搜索出来的最优值),和其他列的平均值a次方归一化,就是该列的s;即X哪列的绝对值大,对应W中的该行就s大;
问:group-size是什么?
答:分块量化,量化误差能更小;按X的列,W的行,分成多个group,每个group内部进行量化;