（9）LLM模型量化世界观(下)

🔗 原文链接： https://zhuanlan.zhihu.com/p/691415...

⏰ 发布时间：2024-06-06 12:51:29 (UTC+8)

公式部分因格式转化困难，建议访问上述知乎链接查看

更新记录

更新时间	更新内容
2024.04.09	完成正式版第一版

开篇

大家好，我是小A。围绕LLM模型量化的7个问题，我们在上一篇《LLM模型量化世界观(上)》中介绍了前面3个，这一篇开始我们讨论剩余的4个问题

问题1：浮点数和定点数本质区别是什么？
问题2：QAT是如何学习scale的？
问题3：Weight-only常规比特量化有什么常见方法，二阶导方法如何推导？
问题4：Weight-only极低比特量化有什么开脑洞的方法？
问题5：Activation+Weight量化中交叉维的均衡化都有哪些玩法？
问题6：FP8 量化效果究竟怎么样？
问题7：KV Cache量化都有哪些方法？

Weight-Only极低比特量化

常用的OBS/OBQ/GPTQ/OWQ/AWQ等方法一般用作不小于4bit的量化场景，当比特数进一步下降到小于4bit的时候，往往需要重新审视量化问题，回归压缩存储的初衷。本小节将介绍3种方法

SpQR用分治方法分离出敏感权重，然后对非敏感权重采用二级压缩方法，转化为3bit存储
SqueezeLLM也是先把极端值分离出来，对剩余的权重用加权的k-means聚类的非均匀量化方法
AQLM直接借鉴了近似搜索的方案，利用码本和码字来重新建模量化过程

SpQR

SpQR主要采取分治方法，分成两步

第一步，把敏感的权重挑选出来，用FP16高精度存储
第二步，对剩余权重用二级压缩方式，转换成3bit存储

挑选敏感权重

敏感权重的计算参照了OBS里面的结论，即

\begin{aligned}\Delta_E=\frac{(\text{quant}(w_k)-w_k)^2}{2(H^{-1})_{kk}}\end{aligned}

这里使用了逐层的重建误差，因此 H 相对容易得到。按误差从大到小排，选取前1%认为是敏感值，使用fp16的方式存储

二级压缩

对于剩下的非敏感值，SpQR对输入采用了group-wise量化，其中 \beta_1 \in[8,16] ，远小于常用的128。这导致保存scales和zeros本身的大小不可忽略，因此作者进一步把scales和zeros做了量化，形成二级压缩。具体来说，选择 \beta_2=16 个连续的一阶scales和zeros，用3bit表示；他们共享二阶scales和zeros，用半精度表示。走Llama上的结果如下

SqueezeLLM

SqueezeLLM尝试解决内存墙访存问题，认为权重加载是性能瓶颈，因此将权重压缩到极低比特比较重要，具体策略为

用加权的k-mean方法做聚类，使用非均匀量化
用分治法把outlier识别出来转为高精度存储

作者首先测试了不同比特权重的端到端性能，如下所示，计算部分保持fp16。可见随着比特位数下降，执行速度近似线性提高

当小于4bit的时候，有两个比较重要的insight

量化slot非常宝贵，均匀量化不是最优选择
outlier不可避免，需要分离出来回退到高精度存储

非均匀量化

在3bit的时候，只有8个量化slot，因此需要谨慎选择量化值。一种常见的思路就是用k-mean聚类，这里的关键是损失函数的定义。作者尝试用task loss，而不是简化版的单层重建误差。从前文OBS知道，量化后的task loss误差经过泰勒二阶展开可以如下所示

\Delta_E=E(\mathbf{w}_q)-E(\mathbf{w}_0)=\frac{1}{2}{\Delta_w}^TH\Delta_w

这里的 H 求解还是太贵了，作者使用了费舍尔信息矩阵(FIM, fisher information matrix)矩阵来替换，具体来说就是计算一阶梯度的协方差，相关的数学证明可以参照这里

H\approx F = \frac{1}{|D|}\sum_{d\in D} g_d g_d^T

其中 g_d 就是一阶梯度，另外均值认为是0 随后作者进一步做假设，把 F 的非对角线元素置为0，表示为 \text{diag}(F) 。这样最终表达式可以化简为

\begin{aligned} L(W_Q)&\approx (W-W_Q)^T \text{diag}(F)(W-W_Q)\\&= \sum_{i=1}^N F_{ii} (w_i-Q(w_i))\end{aligned}

因此对于每个 Q(w_i) ，可以使用k-means算法，最小化上面的 L(W_Q) 损失误差，最终得到 k 个离散的一维浮点值。这里3比特的时候 k=8 k-means的结果可视化如下图所示

绿色是原始weight的分布情况，红色是通过FIM矩阵计算的前20个敏感权重
紫色是k-means收敛后的聚类中心，可以看出相比于绿色的均匀量化点，离前20个敏感权重更近了

极端值检测

作者分析了一下MHA的输出proj矩阵和FFN的contraction矩阵的权重分布，如下所示，发现

99.9%的权重挤在最大区间的10%以内的地方
剩下0.1%的权重在最大区间的10%-90%的地方，属于outlier

作者采取了比较直接的分治法思路，定义了阈值 T_\text{min} 和 T_\text{max} ，将权重分成两组

\left\{\begin{aligned}W&=D+S \\ WX&=WD+WS \\D&=W[T_\text{min}\leq w \leq T_\text{max}] \\S&=W[w <T_\text{min} \text{ or } w>T_\text{max}]\end{aligned}\right.

分解之后的sparse矩阵用 CSR(Compressed sparse row)格式存储，同时dequant的时候cuda kernel要做对应的定制化，例如3/4bit 的 CUDA LUT-based kernel

AQLM

AQLM主要基于码本的向量压缩策略，能把比特数推到2bit，精度达到SOTA。

基本建模

整体思路比较直接，部分借鉴了近似搜索的思路，尝试把一个feature做加性的量化拆解(Additive Quantization)。具体来说，对于下列GEMM操作

Y=WX, \quad W\in \mathbb{R}^{d_\text{out}\times d_\text{in}}, \quad X\in \mathbb{R}^{d_\text{in}\times n}

对weight使用group-wise的量化，行优先顺序，每 g 个元素为一组，看成维度为 g 的feature。因此原始weight可以拆成 d_\text{out}\times d_\text{in}/g 个长度为 g 的向量 \mathbf{w}_i
对于每个向量 \mathbf{w}_i ，看成由 M 个大小为 2^B 的码本组合而来，即

\mathbf{w}_i=\sum_{m=1}^M C_m \mathbf{b}_m

其中

C_m \in \mathbb{R}^{g \times2^B} 代表第 m 个码本，每一列是个码本向量
\mathbf{b}_m 代表了长度为 2^B 的one-hot的列向量，代表了选择码本 C_m 的某一个码本向量
\sum_{m=1}^M 代表把选出来的这 M 个码本向量相加

图示过程如下所示

左侧绿色的各自就是按group分组之后的 W ，其中蓝色框是 \mathbf{w}_i
中间的就是若干 \sum_{m=1}^M 过程
虚框内的绿色的就是 M 个码本
最靠右的蓝色的就是二进制的ont-hot向量，这里把二进制转换成了十进制下标

据此我们可以计算一下占用空间大小了(假设浮点数值都用半精度存储)

码本占用大小：跟输入大小无关， g \cdot 2^B \cdot M \cdot 16
码字占用大小：跟输入大小相关， d_\text{out} \cdot (d_\text{in} / g) \cdot B \cdot M
scale系数: 权重的per-channel的系数， d_\text{out} \cdot 16

因此可以算出平均每个权重占用的空间大小

\begin{aligned}\bar{b}=\frac{\text{size in bits}}{\text{number of parameters}}&=\frac{g \cdot 2^B \cdot M \cdot 16+d_\text{out} \cdot (d_\text{in} / g) \cdot B \cdot M+d_\text{out} \cdot 16}{d_\text{out} \cdot d_\text{in}} \\&=\frac{g \cdot 2^B \cdot M \cdot 16}{d_\text{out} \cdot d_\text{in}} + \frac{B\cdot M}{g} + \frac{16}{d_\text{in}}\end{aligned}

在LLM的权重非常大的时候，第一项和第三项基本可以忽略，重点就是第二项。作者对于不同比特设置的超参数也不同

2比特。 B=16 且 M=1 且 g=8 ，此时 \bar{b} \approx 2
3比特。 B=12 且 M=2 且 g=8 ，此时 \bar{b} \approx 3
4比特。 B=16 且 M=2 且 g=8 ，此时 \bar{b} \approx 4

优化求解

所有的 \mathbf{w}_i 拼接起来就是最终的量化后权重 \hat{W}

\left\{\begin{aligned}\hat{W}&=\mathbf{w}_i \oplus \cdots \oplus \mathbf{w}_{d_\text{out}\cdot d_\text{in}/g}\\\mathbf{w}_i&=\sum_{m=1}^M C_m \mathbf{b}_m\end{aligned}\right.

损失误差还是用逐层的重建误差，即

\arg\min_{\hat{W}} ||WX-\hat{W}X||_2^2

由于这里用的是 F 范数，因此不失一般性可以简化成 d_\text{out}=1 和 g=d_\text{in} 来考虑，因此损失函数变成了

\begin{aligned}&||WX-\sum_{m=1}^M C_m b_m X||_2^2\\=\quad& ||WX||^2_2-2\sum_{m=1}^M \langle W,C_mb_m \rangle_{XX^T}+\sum_{i=1}^M\sum_{j=1}^M \langle C_i b_i, C_j b_j \rangle_{XX^T}\end{aligned}

其中符号自定义 \langle A, B \rangle_{XX^T} \overset{\text{def}}{=} \langle AXX^T, B \rangle 由于要求解的是整体码本 C_m 和码字 \mathbf{b}_m ，整个训练过程可以分成了三个阶段

阶段一，学习码字 \mathbf{b}_m 。这里本质上是个整数规划问题，作者采用了beam search的策略，每一步都尝试其中 k 个码本所有可能组合共 2^B \cdot k 个，然后从中选出损失函数最小的前 k 个
阶段二，学习码本 C_m 。当 \mathbf{b}_m 固定之后，对 C_m 其实可以有闭式解，但是求逆计算量很大，因此作者使用了full-batch的梯度下降
阶段三，block-wise微调。就是对一个block内的连续若干层，用重建误差做整体梯度更新

2比特下比GPTQ好很多

小结

对于小于4bit的weight-only量化

SpQR和SqueezeLLM都是要先把outlier分离出来用高精度存储，然后对剩余的权重做量化
SpQR的二级量化方法本质上是为了弥补group-wise量化中group设置太小带来的scales和zeros存储过大问题
SqueezeLLM发现直接用k-means做非均匀量化效果不好，需要让聚类中心更加倾向于敏感的权重，因此用了加权k-means的方法
AQLM彻底放飞自我，看成普通的压缩存储问题，用近似搜索中的加性的量化技巧(Additive Quantization)重新建模

Activation+Weight量化

前面的常规比特(不小于4bit)和极低比特(小于4bit)的weight-only量化本质上解决的是模型如何塞入显存的问题，在GEMM计算时用的还是高精度的FP16。本小节我们开始介绍如何对激活值也做量化，在调用INT8 GEMM TensorCore的同时，精度损失可控。方法主要包括了ZeroQuant/LLM.int8()/SmoothQuant/Outlier Suppression系列和RPTQ方法。

ZeroQuant对激活值做了online的per-token量化，这个也是ZeroQuant中Zero由来，weight保持group-wise量化
LLM.int8()将激活值中的敏感channel分离出来用FP16进行计算，对于剩余部分使用INT8计算
SmoothQuant关注交叉维的均衡化问题，将部分激活值的量化难度转移到权重上
Outlier Suppression系列关注的是激活值每个channel的分布差异
- v1认为差异来源于前面LayerNorm的 \gamma 系数，因此系数先后移到激活值，然后均衡化到权重
- v2额外考虑了每个channel的均值差异，因此增加了shift平移拉齐
RPTQ同样从激活值的channel入手，用聚类方法重排channel顺序，对应权重的交叉维也做调整。

ZeroQuant

这里的Zero含义是对activation做zero-shot的量化，其实就是在runtime的时候online dynamic计算scale，这样要求quantize和dequantize算子重写作者首先测试了Activation和Weight在不同比特数下的精度情况，可以看出Activation比Weight要敏感很多

接着作者首先画了两个图

分析了一下in_proj的激活范围，按per-token统计。如下左图所示，发现取值范围差异很大，并且觉得传统静态的per-token量化方式并不能很好的解决输入本身每个样本方差大的问题。
分析了一下out_proj的权重范围，按per-row统计( Y=WX 形式)。如下右图所示，发现取值范围差异也很大。

据此作者提出两个改进

针对activation提出了动态的per-token，也就是每个样本现场计算量化参数，这个要求修改kernel，并且做non-trivial的kernel fusion
针对weight使用了per-group量化方法，并且在低比特的使用用浮点蒸馏(KLD)的方式做轻量版的QAT

这里KLD的具体方式就是从前往后蒸馏，每次只蒸馏一层，并且用MSE的重建误差作为损失函数。如下所示，当对第 L 层做蒸馏的时候，此时前面的 L-1 已经蒸馏完成。

\mathcal{L}_{\text{LKD,k}}=\text{MSE}(L_k \cdot L_{k-1} \cdot L_{k-2} \cdot ... \cdot L_1(X)- \hat{L}_k \cdot L_{k-1} \cdot L_{k-2} \cdot ... \cdot L_1(X))

最后作者做了些ablation

第一行，对weight和activation都做per-tensor的量化，结果直接挂掉
第二行，对weight做group-wise量化，可以拿到non-trivial的结果了
第三行，进一步对activation做per-token能提高14个点
第四行，继续对weight做LKD蒸馏可以提高0.56个点

LLM.int8()

作者先是使用了 X 的per-token和 W 的per-channel量化( Y=XW 形式)，发现在模型参数逐渐变大的过程中，在6B到6.7B之间会出现outlier激增的现象，导致量化方式不work，如下图所示。

作者首先定义了outlier就是绝对值大于超参数 \alpha=6.0 的元素个数，意外地发现

outlier只存在于MHA的in_proj和out_proj映射矩阵的输入中，以及FFN的第一个expansion矩阵输入中
6.7B模型虽然有150k个这样的值，但是分布极其有规律，只存在于其中6个交叉维特征 h_i 中
统计受outlier值影响的layer或者token比例，横轴是网络尺寸的话，出现了emergence现象，如下左图(a)所示
如果把网络尺寸变成C4 Perplexity，变成了单调递增趋势，说明Perplexity更能揭示outlier出现背后的原因，如下右图(b)所示

作者进一步分析outlier的数值大小和outlier channel个数，发现

随着Perplexity变小，端值的大小呈现emergence现象，如下左图(a)
随着Perplexity变小，outlier channel的个数是缓慢上升的，如下右图(b)

据此自然想到干脆把这些outlier channel用fp16来计算得了，也就是交叉维通道分离，如下所示。

其实比较直观，就是抽取出outlier channel的列，剩下的继续用 X 的per-token和 W 的per-channel量化，最终把两部分加起来，数学表达如下

C_{f16} \approx \sum_{h \in O} X_{f16}^h W_{f16}^h + S_{f16} \cdot \sum_{h \not\in O}X_{i8}^h W_{i8}^h

SmoothQuant

SmoothQuant首先想弄清楚LLM里面activation量化究竟对哪个维度更敏感。如下图所示，通过模拟发现了对activation做per-channel效果非常接近FP16( Y=XW 形式)，这个也验证了LLM.int8()的发现。但是直接对 X 做per-channel会面临无法使用INT8 GEMM Kernel的窘境。

于是一种自然的想法就是在交叉维做均衡化，具体来说就是对activation的每一列乘以不同的scale，把activation分布拉齐之后再做per-tensor，如下所示

这里的关键是如何搜索每一列的scale。这里计算有很多种方式，例如可以把activation的所有列的最大值拉成一样，也就是把act的量化难度转移到weight上。即除以

\mathbf{s}_j=\max{(\lvert \mathbf{X}_j \rvert)}

或者把weight的每一列的的最大值拉成一样，也就是把weight的量化难度转移到act上。即除以

\mathbf{s}_j=\frac{1}{\max{(\lvert \mathbf{W}_j \rvert)}}

于是做了做balance，最终可以用

\mathbf{s}_j=\max{(\lvert \mathbf{X}_j \rvert)}^\alpha / \max{(\lvert \mathbf{W}_j \rvert)}^\alpha

这样其实相当于把act和weight对应通道用双方的最大值做了均衡化，act的通道 j 的最大值变成了

\max{(\lvert \mathbf{X}_j \rvert)}^{1-\alpha} \cdot \max{(\lvert \mathbf{W}_j \rvert)}^\alpha

weight的通道 j 的最大值变成了

\max{(\lvert \mathbf{X}_j \rvert)}^{\alpha} \cdot \max{(\lvert \mathbf{W}_j \rvert)}^{1-\alpha}

随着 \alpha 的变化，作者发现精度变化如下

当 \alpha 大于0.5越来越大的时候，相当于把act的量化难度转移到了weight上，此时如果weight的比特位比较多，例如W16A8，精度曲线还能保持住
当 \alpha 小于0.5越来越小的时候，相当于把weight的量化难度转移到了act上，此时如果act的比特位比较多，例如W8A16，精度曲线还能保持住

对于已经做了均衡化之后的网络，对weight直接使用per-tensor，对activation使用per-token或者per-tensor，效果如下。效果提升了很多，间接说明了均衡化的作用

Outlier Suppression

做了W8A8的量化，跟SmoothQuant的思路类似，都使用了均衡化
文本发现LN的 \gamma 会对channel起到outlier放大作用，因此希望能吸收到后面的weight里面去
对于 X 本身的量化scale搜索，基于per-token的最大值排序，挨个尝试，最后阶段回到grid搜索

Gamma Migration

作者对 XW 中 X 每一列的特征维度做了拆解分析，发现 X 出现outlier的地方往往 \gamma 也是比较大的值，于是推测 \gamma 会加剧 X 中的元素差异程度。

一种自然的想法就是把 \gamma 后置，原来LayerNorm中的 \gamma 直接去掉，LN表达式如下

X'_{t,j} = \frac{X_{t,j}-\mu_t}{\sqrt{\sigma_t^2+\epsilon}}+\frac{\beta_j}{\gamma_j}

\gamma 后置，可以吸收到后续Linear层的weight里面。需要注意这里的shortcut分支，接DeQuant在转换回到fp32/fp16的时候把系数还原回去。

论文中有个完整大图不错

Token-Wise Clipping

做了 \gamma 的后置之后， X 本身也会有outlier，Suppression论文统计每个token的最大值，然后从大到小排序，对截断位置进行挨个搜索。搜索的损失函数就是启发式的最后一层的输出激活值的L2误差。

发现排在前面的几个outlier之间间隔非常大，去掉之后往往对最终损失函数影响很小。最终到了快收敛的地方，改成了更小间隔的grid搜索，达到最终的 s_\text{best} 实验主要是在encoder-only的网络结构RoBERTa上做的，并且尝试推到了6bit

局限性

不考虑非对称情况，后续工作会进一步加上shift操作
无脑均衡化到weight上，不考虑weight的承受能力

Outlier Suppression+

尽可能把各channel的分布拉齐，做了shift和scale两步
shift的计算就是中间值，scale的计算转化为了求解全局截断值 t ，极大地降低了搜索复杂度

表达式改写

本文尝试解决activation量化过程中的各channel分布差异太大的问题，如下所示

8725号channel，值域 [-97, -58]
相比之下6354号channel，值域是 [5.7, 43]

比较直观的做法是逐个channel做零点对齐，然后做缩放，即平移(shift)和缩放(scale)。从经典的Linear层开始考虑，表达式为

\begin{align*} Y=\text{Linear}(X)=XW+\mathbf{b} \tag{1} \end{align*}

其中

Y\in\mathbb{R}^{m \times d} ， X\in\mathbb{R}^{m \times d} ， W\in\mathbb{R}^{d \times n}
\mathbf{b}\in\mathbb{R}^{1\times d}

如果对 X 做平移和缩放，可以得到

\begin{align*}X'=(X-\mathbf{z})\oslash\mathbf{s} \tag{2}\end{align*}

其中

X'\in\mathbb{R}^{m \times n} ， \mathbf{z}\in\mathbb{R}^{1\times n} ， \mathbf{s}\in\mathbb{R}^{1\times n}
\oslash 代表逐元素除法(会自动broadcast)

用 X' 表示 X ，带入Linear表达式，可以得到

\begin{align*}Y=(X'\odot s+z)W+b=X'(s^T\odot W)+(zW+b) \tag{3}\end{align*}

其中 \odot 代表逐元素乘法(会自动broadcast) 另外一方面， X 本身一般是 \text{LN} 的输出，如下所示

\begin{align*}X=\text{LN}(X'')=\text{Norm}(X'')\odot \mathbf{\gamma} +\mathbf{\beta} \tag{4}\end{align*}

其中

X''\in\mathbb{R}^{m \times d}
\mathbf{\gamma}\in\mathbb{R}^{1\times d} ， \mathbf{\beta}\in\mathbb{R}^{1\times d}

把(4)式带入(2)式，可以得到

\begin{aligned}X'&=(\text{LN}(X'')-z)\oslash s \\&=(\text{Norm}(X'')\odot \gamma+\beta-z) \oslash s \\&=\text{Norm}(X'') \odot (\gamma\oslash s) + (\beta-z)\oslash s\end{aligned}

因此最后可得

\begin{aligned}\left\{\begin{aligned}X'&=\text{Norm}(X'') \odot (\gamma\oslash s) + (\beta-z)\oslash s \\ Y&=X'(s^T\odot W)+(zW+b)\end{aligned}\right.\end{aligned}

图示如下

确定z和s

我们希望所有channel的零点尽可能对齐，一种启发式方法就是直接用中间点来表示 z ，即

z_j = \frac{\max({X_{:, j}})+\min({X_{:, j}})}{2}

一般来说确定 s 比较复杂，但论文中没有对 s 中的每个分量逐个搜索，而是转化为统一截断值 t ，只需要对 t 搜索一次。这里 t 从所有零点对齐之后的激活值的最大值开始 K 网格搜索，如下所示

t = \max(X-z) \cdot \frac{k}{K},\quad k=1,\cdots,K

有了全局的截断值 t 之后，就可以算出每个分量的scale值，如下所示

s_j=\max(1.0, \frac{X_{:,j}-z_j}{t})

完整算法流程如下所示

伪代码里的Eq.(6)和Eq.(7)就是重建误差和softmax输出误差，这里暂时略过

RPTQ

来自后摩智能的论文，通过对交叉维的channel做聚类实现channel重排，然后对weight使用GPTQ量化，对activation使用分cluster的量化

重排方法

计算交叉维每个channel的min值和max值，看成ndim=2的样本点，然后做k-means聚类，如下图中(d)所示

方法比较朴实，细节上有几个要注意的点

LayerNorm后面有reorder操作的时候，可以做kernel-fusion一步到位输出(repo里面也写了专门的cuda算子)
Q和K由于要做bmm计算，因此R2需要保持一致
short-cut由于要把前面层的输出做融合，因此一般不做channel重排

重排之后，对weight做了GPTQ的量化，对activation分组做带零点的线性量化。注意

由于GTPQ会使用group-wise的量化，因此重排对每个gropu的邻居是有影响的，可能使得量化效果变好
对activation做分组量化，沿着交叉维上被切分了很多组，每组的量化scale和零点都不同，在实际加速中，要彻底用上INT8_GEMM的kernel，需要比较复杂的系数交换。例如BMM(Q,K)操作，Q和K交叉维的分组scale需要转移到各自projection过程的权重上。

小结

激活值的异常值比权重多很多的，因此量化难度也大很多

早期ZeroQuant使用per-token的方法，但由于输入长度不确定，因此使用online统计的方式处理变长问题
后来大家逐渐意识到了激活值量化的关键是per-channel的分布差异，因此要么把量化系数往前放到LayerNorm的 \gamma 上，要么放到旁边的权值里面去。
Outlier Suppression+额外考虑了shift平移，更加符合直观理解
RPTQ脑洞属于比较大的，直接通过聚类把channel顺序做调整

FP8量化

FP8是前几年英伟达重点推广的新格式，目前也逐渐被工业界使用起来，本节回顾FP8的几篇经典工作，主要包含以下几个方面

FP8基础知识。主要介绍规格数、非规格数和特殊数的概念。
FP8 Nvidia。基于IEEE-754魔改了一下E4M3，挤压了特殊数的位置，让值域更大
FP8 Qualcomm。主要详细介绍了FP8的fake-quantization的过程。
FP8 AMD。主要探究了不同FP8格式在PTQ场景下的优劣，考察了CV和NLP的各种任务。
FP8 Microsoft。完善了Nvidia的TE库的FP8功能，从分布式通信、优化器和分布式策略三方面做扩充。

FP8基础知识

浮点数包含有三种

规格数 (normal number)。指数位不全为0且不全为1。
非规格数 (subnormal number)。指数位全0。
特殊数 (non-number)。指数位全1。

规格数

规格数的指数位不全为0且不全为1，因此指数位取值是 [1,254] ；指数偏置是127，因此值域是 [-126,127]
前面知道尾数高位隐藏的是1，所以尾数从 1.00xx000 - 1.11xx111 ，转化为十进制就是 [1,2)
综上知道规格数的范围是 \pm [1,2)\cdot 2^{[-126,127]} ，全域展开如下

(-2\cdot 2^{127}, -1\cdot 2^{-126}] \cup [1\cdot 2^{-126}, 2\cdot 2^{127})

非规格数

容易知道规格数不能表达0和0附近的数，因此非规格数就是充当补位的作用
非规格数的指数全为0，减去指数偏置127，因此理应是-127；但是考虑渐进特性，设置成了-126，后面会进一步解释
非规格数的隐藏位高位是0，不是1，所以尾数从 0.00xx000 - 0.11xx111 ，转化为十进制就是 [0,1)
综上知道非规格数的范围是 \pm [0, 1)\cdot 2^{126} ，全域展开如下，指数设置成-126才能恰好填补了中间的部分。

(-1\cdot 2^{-126}, 0] \cup[0, 1 \cdot 2^{-126})=(-1 \cdot 2^{-126}, 1 \cdot 2^{126})

特殊数

指数位全1，包括了无穷(如正无穷)和NaN(如除以0的结果)
注意NaN一般不区分+NaN和-NaN

FP8 Nvidia

NV的FP8主要贡献点是对FP8的E4M3格式做了细微的变化，增加其表示范围，原始论文是《FP8 Formats for Deep Learning》相比于IEEE-754标准，E5M2几乎没有做修改，但是E4M3做了部分修改。如下所示

原始的IEEE-754会把指数的 2^e-1 取值留给特殊数，NV为了扩大E4M3的表示范围，想办法削减特殊数的占用
取消了Inf值的表示，NaN的表示只保留了一种
最大规范数的指数多了1，从 2^4-2-7=7 增加到了 2^4-1-7=8
最大规范数的尾数减少一个slot，从 (1.111)_2=1.875 变成 (1.110)_2=1.75
因此最大规范数从IEE-754的 1.875\cdot2^7=240 增加到了 1.75\cdot 2^7=448

本文还给出了FP8常用的训练和推理流程

训练
- 所有GEMM的输入都转化为FP8格式，保证GEMM过程是FP8操作，输出保留高精度
- 权重和前馈激活值用E4M3，反馈梯度用E5M2
- 注意在MobileNet-v2上还有比较明显的掉点
推理。
- 使用E4M3的FP8格式
- 激活值用per-tensor的缩放系数，权重用per-channel的缩放系数，缩放方式为abs_max
- 常规GEMM不加缩放系数也有不错的精度，但是对于残差连接等操作，必须用缩放系数

FP8 Qualcomm

高通的FP8算是早期将FP8应用在CV主干网络和NLP的BERT的工作，并且给出了在PTQ和QAT场景下的基本方案，原始论文是《FP8 Quantization: The Power of the Exponent》本文比较有价值的地方是说清楚了如何做FP8的模拟量化。

如上所示，浮点数本质上以指数增长的区间长度来划分数轴，因此给定正实数 x_i ，首先可以下面式子来确定所属的区间

x_i \in [2^{\lfloor \log_2 x_i \rfloor}, 2^{\lfloor \log_2 x_i \rfloor+1})

在上述区间内进一步做均匀划分，如果尾数位是 m ，那么均匀分成 2^m 段，每一段的间隔可以通过下面式子算出

s_i=\frac{2^{\lfloor \log_2 x_i \rfloor+1}-2^{\lfloor \log_2 x_i \rfloor}}{2^m}=2^{\lfloor \log_2 x_i \rfloor-m}

有了量化间隔，就可以将 x_i 转化为对应的浮点数 x_i^{(q)} ，如下所示

\begin{aligned}x_i^{(q)}&=\lfloor \frac{x_i-2^{\lfloor \log_2 x_i \rfloor}}{s_i} \rceil \cdot s_i + 2^{\lfloor \log_2 x_i \rfloor} \\&=\lfloor \frac{x_i}{s_i}-\frac{2^{\lfloor \log_2 x_i \rfloor}}{s_i} \rceil \cdot s_i + 2^{\lfloor \log_2 x_i \rfloor} \\&=\lfloor \frac{x_i}{s_i}\rceil \cdot s_i -\frac{2^{\lfloor \log_2 x_i \rfloor}}{s_i} \cdot s_i + 2^{\lfloor \log_2 x_i \rfloor} \\&=\lfloor \frac{x_i}{s_i}\rceil \cdot s_i\end{aligned}

注意上面 2^{\lfloor \log_2 x_i \rfloor} / s_i 是整数，因此可以直接从 \lfloor \cdot \rceil 中提出来跟定点数量化一样，我们还得考虑边界条件。假设浮点的指数位是 e ，尾数位是 m ，那么一般情况下

最大规范正数 c_1=(2-2^{-m}) \cdot 2^{2^e-1-b} ，其中指数部分为 2^e-1 ，指数偏置是 b
最小规范正数 c_2=1 \cdot 2^{1-b}=2^{1-b} ，其中指数部分为 1 ，指数偏置是 b
最小非规范正数 c_3=2^{-m} \cdot 2^{0-(b-1)}=2^{1-b-m} ，其中指数部分最小取值是 0 ，但是由于非规范数的渐进特性，指数偏置变成 b-1

在FP8的使用过程中往往会加上per-tensor的缩放系数 \gamma ，即

x_i = \gamma \cdot x_i '

这意味着对原始输入 x_i 先除以系数 \gamma 得到 x_i' ，然后再用FP8的格式来表示 x_i' 。此时 x_i' 的量化间隔 s_i' 为

s_i'=2^{\lfloor \log_2 x_i' \rfloor-m}

那么原始 x_i 的量化间隔为

\begin{align*}s_i&=\gamma s_i'=\gamma \cdot 2^{\lfloor \log_2 x_i/\gamma \rfloor-m} \\ &= 2^{\lfloor \log_2 x_i - \log_2 \gamma \rfloor+ \log_2 \gamma -m} \\&= 2^{\lfloor \log_2 x_i +(b- \log_2 \gamma) \rfloor- (b-\log_2 \gamma) -m} \tag{5}\end{align*}

另一方面，容易知道 x_i' 的量化间隔 s_i' 在进入非规范数的时候会强行变成最小非规范数 c_3=2^{1-b-m} ，因此转化成 x_i 就是

c_3'=\gamma \cdot2^{1-b-m} = 2^{1-(b-\log_2 \gamma)-m} \tag{6}

进一步研究进入非规范数的条件，为

2^{\lfloor \log_2 x_i' \rfloor} < c_2=2^{1-b}

即

\begin{align*}\lfloor \log_2 x_i - \log_2 \gamma \rfloor +b < 1 \\\Rightarrow \lfloor \log_2 x_i +(b- \log_2 \gamma) \rfloor < 1 \tag{7}\end{align*}

将式子(5)(6)和(7)整合起来，并且用 \hat{b}=b-\log_2 \gamma 和 p_i=\log_2 s_i 做变量替换，可以得到

p_i=\log_2 s_i=\left\{\begin{aligned}\lfloor \log_2 x_i +\hat{b} \rfloor- \hat{b} -m, &\text{ if } \lfloor \log_2 x_i + \hat{b} \rfloor \ge 1 \\1-\hat{b}-m , &\text{ otherwise }\end{aligned}\right.

至此我们就得到了FP8模拟量化的完整表达式，这里的 \gamma 可以看成可学习的指数偏置 \hat{b} 作者发现在QAT的时候，与其学习 \gamma ，不如学习 c_1 ，这样数值更稳定。从上可以知道他们直接是可以相互换算的。 PTQ在CV和NLP任务上的结果

FP8 AMD

AMD的FP8主要探究了不同FP8格式在PTQ场景下的优劣，考察了CV和NLP的各种任务。原始论文是《Efficient Post-training Quantization with FP8 Formats》首先直观上展示了不同FP8格式和INT8的slot情况，以MSE指标看，E3M4比较适中

本文的流程框图如下所示，其中重点关注的是2个部件

标准量化流程(Standard Quantization Scheme)
- 跟INT8类似，对于weight用了额外的per-channel的缩放系数，activation用了per-tensor的缩放系数
- 缩放系数的选取就是用普通的abs_max值
- 对于CV模型跳过了第一层和最后一层的量化
扩展量化流程(Extend Quantization Scheme)
- 对于LayerNorm/BatchNorm/Element-wise操作，使用了FP8数据类型做运算
- 混合精度。对于Activation和Weight的不同分布特点，使用不同格式的FP8格式。具体如下，NLP的激活值范围很广，属于range-bound，所以用E5M2的格式；CV的激活，以及CV和NLP的权重，分布趋近于高斯，属于precision-bound，所以用E3M4格式。
- direct/static/dynamic量化。E5M2格式数值范围广，不需要scaling过程，direct量化；E3M4，可以选择static量化，提前calibration好scaling参数，也可以选用dynamic量化，动态确定scaling参数

作者对比了混合精度相比于固定格式的FP8的优势

FP8 MS

NV的TE库里只有对GEMM的FP8支持，缺少了分布式通信、优化器和分布式训练的支持。因此MS的FP8完善了上述FP8的相关组件，做到了真-FP8训练。原始论文是《FP8-LM: Training FP8 Large Language Models》

FP8分布式通信

回忆BP16的混合精度训练，梯度由BF16计算得到，但是在all-reduce的时候往往转化成FP32来做。如果使用FP8，并且不想在all-reduce的时候提高精度，此时无论是pre-scale还是post-scale都会出现问题。对于pre-scaling，如下所示，每张卡的梯度在除以N的时候容易会下溢出

g=g_1/N+g_2/N+\cdots+g_N/N

对于post-scaling，如下所示，每张卡的梯度在累加的时候容易上溢出

g=(g_1+g_2+\cdots+g_N)/N

因此作者用了auto-scaling，每张卡的梯度绑定一个系数 s_i ，即

g_i'=s_i \cdot g_i

这里 g_i' 会用FP8格式来表示，其中 s_i 是会做动态更新，具体来说

当 g_i' 中达到FP8最大值的比例超过某个阈值(例如0.001%)，那么将 s_i 缩小一半，即 s_i \leftarrow s_i /2
当 g_i' 中达到FP8最大值的比例小于该阈值超过固定步数(例如1000步)，那么将 s_i 增大一倍，即 s_i \leftarrow s_i\cdot 2

因此在做all-reduce之前，会得到各个卡的梯度和对应的系数，即一系列 (g_i', s_i) 值。此时可以选择最小的一个系数

\begin{aligned}s_g=\text{min}(s_1, s_2, \cdots, s_N)\end{aligned}

然后把各自的梯度做重新归一化

g_i''=\text{FP8}(s_g\cdot(g_i'/s_i))

最后再做FP8的all-reduce

g=g_1''+g_2''+\cdots +g_N''

这里最终的系数 s=N \cdot s_g

FP8优化器

在BF16混合精度训练中，优化器一般选用Adam，里面包含了

master weight和一阶和二阶统计量，他们都是FP32的格式
gradient是BF16，但是通信前转成了FP32，grad_buffer使用FP32表示

因此每个权重在优化器中的显存占用为16bytes

在FP8训练场景中

master weight依旧需要高精度，因为有时候gradient更新量非常小，master weight需要高精度捕捉这些微小的变动
gradient用上述的FP8分布式通信方式，可以用FP8存储
Adam中的一阶统计量用FP8，二阶统计量用FP16

因此每个权重在优化器中的显存占用为

FP8分布式策略

分布式策略包括常见的4D并行，即DP/TP/PP和SP(Sequence Parallel)。其中DP和PP在FP8下跟原来的混合精度方案没有差别，但是在TP和SP会有不同，如下所示

小结

FP8有E5M2和E4M3等多种格式，适用于不同的场景

E5M2是标准的IEEE-754设计的格式，而E4M3是压缩了特殊数的空间，让值域范围更大
FP8的量化模拟比定点数复杂很多，需要考虑规范数和非规范数的边界条件
在极端的训练场景下，FP8复杂程度跟QAT不相上下，每个tensor还得绑定学习对应的scale，也就是指数bias，模型不容易收敛
在推理场景，FP8对于精度的保持效果还不错，常规PTQ策略基本能达到不掉点的水平

KV Cache 量化

在超长序列场景中，KV Cache往往会占用更多的显存容量。一般来说我们都用FP8做KV Cache的量化，但如果想要进一步降低比特数，则需要一些特殊的方法。本小节介绍一篇比较新的WKVQuant论文，对KV Cache做了4比特的量化。

WKVQuant

本文针对所有weight和KV-cache做INT4量化，主要创新点有3方面

提出了POQ (Past Only Quantization)，即保留当前token的activation为FP16，将过去的KV-cache做INT4量化
二维量化(Two-dimensional Quantization)，即对KV-cache同时使用per-token和per-channel量化
提出了CRC (Cross-block Reconstruction Regularization)，即把跨越多个block的重建误差为损失函数对超参进行finetune

首先作者的目的是对所有计算过程沿用FP16(包括GEMM和BatchMatMul)，但是对所有weight和KV-cache做INT4的量化，这个也是标题WKVQuant的由来。如下所示

Past Only Quantization

这个比较简单，就是在decode阶段，对于当前token的激活值，使用FP16的值，计算完成后才量化成INT4存储下来。示意图如下，比较直观就不赘述了

Two-dimensional Quantization

对于QKV的input_project计算过程，假设 X \in \mathbb{R}^{T \times C_\text{in}} ， W \in \mathbb{R}^{C_\text{in} \times C_\text{out}} 以及 B \in \mathbb{R}^{1 \times C_\text{out}} 。则输出KV-cache为 Y \in \mathbb{R}^{T \times C_\text{out}} ，表达式如下

Y=XW+B

可以对 Y 做逐channel的shift偏移和scale缩放，参数分别为 \delta \in \mathbb{R}^{1\times C_\text{out}} 和 s\in \mathbb{R}^{1\times C_\text{out}} ，因此

\left\{\begin{align*}Y &= XW+B \tag{8}\\ Y' &= (Y-\delta)\ \oslash s \tag{9}\\Y'' &= Q(Y') \odot s + \delta \quad \tag{10}\\ Z &= f(Y'') \tag{11}\end{align*}\right.

这里的(8)和(9)联立可以得到

\begin{aligned}Y'=(XW+B-\sigma) \oslash s&=X(W\oslash s) + (B-\sigma)\oslash s \\&=X W'+B'\end{aligned}

这里我们可以看到

可以将(9)中 Y' 的shift偏移和scale缩放计算吸收到前面的input_project里面，相当于对 Y 做的per-channel量化吸收到了前面 W 的per-channel量化中
(10)的 Q(Y') 就是对 Y' 做per-token的量化
(11)中的 f(Y'') 代表了网络后续的操作

这里对 W 的量化使用了Omniquant中的量化方式，是一种带zero point的量化，如下所示

\left\{\begin{aligned}W_q&=\text{clamp}(\lfloor\frac{W}{h}\rceil+z, 0, 2^{N-1}) \\h&=(\gamma \text{max}(W)-\beta \text{min}(W))/2^{N-1} \\z&=-\lfloor\beta \text{min}(W)/h \rceil\end{aligned}\right.

Cross-block Reconstruction Regularization

有上可以知道需要确定参数有4个，分别是 \sigma ， s ， \gamma 和 \beta 。这里用了跨多层的重建误差为损失函数，对上述4个参数做优化，如下所示

数学表达式为

\arg\min_{\sigma,s,\gamma,\beta} \text{ MAE}(\hat{y}_{i+k-1}, y_{i+k-1})

写在最后

至此，针对LLM量化开头提到的7个问题，我们这里可以进行简单总结

浮点数和定点数。本质上定点数就是一组元素集合共享量化参数，组的划分方式决定了是per-tensor/per-token/per-channel还是per-group量化，极端情况下当集合元素只有一个的时候，那跟浮点数表达能力一致
QAT对scale的学习。只需要使用链式法则进行直接推导，便可以得到中间锯齿两边截断的梯度形式
Weight-only常规比特量化。二阶方法从数学严谨的OBS出发，不断进行条件放松和数学近似，演变到求解速度可以接受的GPTQ和OWQ，同时AWQ也借鉴SmoothQuant的思路，把均衡化思想带到了Weight-only量化。
Weight-only极低比特量化。比特位数低于4比特之后，量化异常值一般单独对待处理，例如SpQR和SqueezeLLM，而AQLM更是把量化问题看成常规压缩问题，用近似搜索中的加性的量化技巧(Additive Quantization)重新建模
Activation+Weight量化。从早期ZeroQuant关注per-token量化，到后续工作都意识到channel的分布差异才是激活值量化的关键，后续Outlier Suppression v2更是同时考虑了shift偏移和scale缩放。
FP8量化。FP8量化在训练场景还有不低的使用门槛，但是在推理场景基本都能比较轻松的做到精度不掉
KV Cache量化。常规8比特(如FP8 KV Cache)基本都是开箱即用，但是更低比特(例如4比特)则需要用权重量化和激活量化的方法进行组合使用(例如per-token和per-channel)

PS：由于笔者小A并没有亲手撸过上述内容的所有细节，大部分是通过研究代码和精读优秀文章的方式bottom-up总结而来，本质上是个拾人牙慧的知识搬运工，所以终究是纸上谈兵。因此希望各方有实际经验的大佬猛锤，思维碰撞才生火花，真理越辩越明。

如果想了解transformer在NLP/多模态/AIGC的算法知识，LLM分布式训练的知识，以及LLM量化/推理加速/部署服务化相关的知识，可以关注我aaronxic哟~

参考资料

量化那些事之FP8与LLM-FP4

FP8 量化-原理、实现与误差分析