20240621日志：大模型压缩-从闭源大模型蒸馏

1. 核心内容

本文提出在一个贝叶斯估计框架内估计闭源语言模型的输出分布，包括先验估计和后验估计。先验估计的目的是通过闭源模型生成的语料库（可能包含模型的粗粒度信息）得到先验分布；后验估计使用代理模型来更新先验分布并生成后验分布。利用这两个分布来进行知识蒸馏。

2. 方法

该文章的创新点是在知识蒸馏的过程中，使用一个代理模型作为教师模型和学生模型的中介，该项目配置如Table. 1

Table. 1 项目配置

项目	方法
benchmarks	BBH\ARC\AGIEval\MMLU\CSQA\GSM8K\
teacher model	GPT-4
proxy model	LLaMA-33B
student model	LLaMA-7B/13B

一些参数表示如下表

Table. 2 参数表示

变量	含义
$\mathcal{T}$	闭源的教师模型
$\mathcal{S}$	学生模型
$\mathcal{M}$	开源的代理模型
$X$	输入的token序列
$Y$	输出的token序列
$p_{Y_t}$	$\mathcal{T}$ 输出的概率Pr $Y_{t}$ \| $X, Y_{< t})$
$q_{Y_t}$	$\mathcal{S}$ 输出的概率Pr $Y_{t}$ \| $X,Y_{<t})$
$P_{Y_t}$	与 $p_{Y_t}$ 相关的离散随机变量

用指示函数 $\mathbb{I}_{Y_t=\boldsymbol{w}}$ （其实不是空心的I应该是空心的1，没法在CSDN打出来）表示 $\mathcal{T}$ 在 $t$ 时刻产生的one-hot编码标签。
传统的目标函数可以表示为
$\mathcal{L}_{t}^{\text{traditional}}=-\sum_{w\in\mathbb{V}}\mathbb{I}_{Y_{t}=w}\log q_{Y_{t}=w}+\sum_{w\in\mathbb{V}}p_{Y_{t}=w}\log\frac{p_{Y_{t}=w}}{q_{Y_{t}=w}}\tag{1}$ 式中 $\mathbb{V}$ 表示词典， $w$ 是词典中的一个token，可以看出， $\mathcal{L}_{t}^{\text{traditional}}$ 由两部分组成，第一部分表示由硬标签（Fig.2）产出的交叉熵损失(交叉熵与相对熵在第三章详细说明)，第二部分表示用软标签计算出的KL损失，一般情况下由于 $p_{Y_{t}}$ 很难得到，第二项是被忽略的。
在这里插入图片描述

Fig.2 硬标签与软标签

这篇论文就是解决第二项的问题。

2.1 先验估计

先验估计的目的是使用 $\mathcal{T}$ 生成的语料库 $\mathcal{C}$ ，得到每一步 $t$ 的近似 $p_{Y_{t}}$ 的粗粒度估计 $\hat{p}_{Y_t}$ ，来自改良的n-gram算法（基于第n个项目的出现只与前面n-1个项目有关）来实现，对于给定一个输出token序列 $Y_{\leq t}\in\mathcal{C}$ ，假设 $Y_{t}=w_t$ 其中 $w_t$ 是 $\mathbb{V}$ 中的一个token，对于 $\mathbb{V}$ 中的某个token $w$ 如果有 $w=w_t$ ，有
$\hat{p}_{Y_t=w}=\frac{\#(Y_t=w,Y_{t-1}=w_{t-1},\ldots,Y_{t-n}=w_{t-n})}{\gamma\#(Y_{t-1}=w_{t-1},\ldots,Y_{t-n}=w_{t-n})}+\frac{\gamma-1}{\gamma}\tag{2}$ 或者
$\hat{p}_{Y_t=w}=\frac{\#(Y_t=w,Y_{t-1}=w_{t-1},\ldots,Y_{t-n}=w_{t-n})}{\gamma\#(Y_{t-1}=w_{t-1},\ldots,Y_{t-n}=w_{t-n})}\tag{3}$ 式中， $\#$ 代表语料库 $\mathcal{C}$ 中出现某一token的数量， $n$ 代表窗口大小， $\gamma$ 是个超参数，由此可得到一个 $p_{Y_{t}}$ 的粗略估计 $\hat{p}_{Y_t}$ 。

2.2 后验估计

后验估计用来改善先验估计，后验估计使用贝叶斯估计框架，引入 $\mathcal{T}$ 的一个代理模型 $\mathcal{M}$ （大于 $\mathcal{S}$ ）， $\mathcal{M}$ 已经由 $\mathcal{T}$ 生成的 $\mathcal{C}$ 微调，该估计使用代理 $\mathcal{M}$ 生成的连续样本来细化 $\hat{p}_{Y_{t}}$ 。
假设 $p_{Y_{t}}$ 的值可以用一个离散（更好理解）的随机变量 $P_{Y_t}$ 描述， $P_{Y_t}$ 的数值取自m个数值 $p^{1},p^{2},\ldots,p^{m}$ ，在0~1服从均匀分布。根据 $\hat{p}_{Y_t}$ ，可以重写 $P_{Y_t}$ 的概率质量函数（连续的叫概率密度函数，离散的叫这个）为
$\mathbb{E}(P_{Y_t})=\sum_{i=1}^mp^i\Pr(P_{Y_t}=p^i)=\hat{p}_{Y_t}\tag{4}$
只要期望 $\mathbb{E}(P_{Y_t})=\hat{p}_{Y_t}$ ，概率质量函数就可以变化。把 $X$ 和 $Y_{<t}$ 喂给 $\mathcal{M}$ 得到 $t$ 时刻的样本 $\hat{w}\in\mathbb{V}$ ，给定 $\hat{w}$ 和 $w\in\mathbb{V}$ ，事件 $A$ 定义为如果 $\hat{w}=w$ ，A=1；否则A=0。
如果事件A=1发生，根据贝叶斯定理：
$\Pr(P_{Y_t=w}=p^i|A=1)\propto\Pr(A=1|P_{Y_t=w}=p^i)\Pr(P_{Y_t=w}=p^i)=p^i\Pr(P_{Y_t=w}=p^i)\tag{5}$ 式中 $w\in\mathbb{V},i\in\{1,2,\ldots,m\}$ ，通过下式得出一个归一化因子，则 $\operatorname*{Pr}(P_{Y_{t}=w}=p^{i}|A=1)$ 可以用 $\frac1\eta p^i\Pr(P_{Y_t=w}=p^i)$ 来计算
$\eta=\sum_{i=1}^mp^i\Pr(P_{Y_t=w}=p^i)\tag{6}$ 如果事件A=0发生，根据贝叶斯定理：
$\Pr(P_{Y_{t}=w}=p^{i}|A=0)\propto\Pr(A=0|P_{Y_{t}=w}=p^{i})\Pr(P_{Y_{t}=w}=p^{i})=(1-p^{i})\Pr(P_{Y_{t}=w}=p^{i})\tag{7}$ 式中 $w\in\mathbb{V},i\in\{1,2,\ldots,m\}$ ，同样通过下式得出一个归一化因子
$\begin{aligned}\eta=\sum_{i=1}^m{(1-p^i)}\Pr(P_{Y_t=w}=p^i)\end{aligned}\tag{8}$ 则 $\operatorname*{Pr}(P_{Y_{t}=w}=p^{i}|A=0)$ 可由 $\frac1\eta(1-p^i)\Pr(P_{Y_t=w}=p^i)$ 得出。
这样在A无论为0还是1都能有所替换，一次迭代结束， $\mathrm{Pr}(P_{Y_{t}}=p^{i})$ 由 $\operatorname*{Pr}(P_{Y_{t}=w}=p^{i}|A=0)$ 和 $\operatorname*{Pr}(P_{Y_{t}=w}=p^{i}|A=1)$ 替换，然后进入下一次迭代。经过多轮采样，可以得到最终的概率质量函数 $\operatorname*{Pr}(P_{Y_{t}}=p^{i}|\mathcal{M})$ ， $p_{Y_{t}}$ 可以用期望来代替
$\mathbb{E}(P_{Y_t}|\mathcal{M})=\sum_{i=1}^mp^i\Pr(P_{Y_t}=p^i|\mathcal{M})\tag{9}$ $\mathbb{E}(P_{Y_t}|\mathcal{M})$ 即为后验估计。
该过程可以用下图3表示
在这里插入图片描述

Fig.3 后验估计过程

2.3 目标函数

第 $t$ 步的目标函数由三部分组成，用指示函数 $\mathbb{I}_{Y_t=\boldsymbol{w}}$ 表示 $\mathcal{T}$ 在 $t$ 时刻产生的one-hot编码标签。第一部分的目标函数是交叉熵损失 $\mathcal{L}_{t}^{\mathrm{ce}} = -\sum_{w\in\mathbb{V}}\mathbb{I}_{Y_{t}=w}\log q_{Y_{t}=w}$ ，第二部分基于先验估计 $\mathcal{L}_{t}^{\mathrm{kl}} = \sum_{w\in\mathbb{V}}\hat{p}_{Y_{t}=w}\log\frac{\hat{p}_{Y_{t}=w}}{q_{Y_{t}=w}}$ ，第三部分基于后验估计 $\mathcal{L}_{t|\mathcal{M}}^{\mathrm{kl}}=\sum_{w\in\mathbb{V}}\mathbb{E}(P_{Y_{t}=w}|\mathcal{M})\log\frac{\mathbb{E}(P_{Y_{t}=w}|\mathcal{M})}{q_{Y_{t}=w}}$ ，最终得到目标函数
$\mathcal{L}=\frac{1}{T}\sum_{t=1}^{T}(\mathcal{L}_{t}^{\mathrm{ce}}+\alpha\mathcal{L}_{t}^{\mathrm{kl}}+\beta\mathcal{L}_{t|\mathcal{M}}^{\mathrm{kl}})\tag{10}$ 式中 $\alpha$ 和 $\beta$ 都是超参数。
总结一下如图4
在这里插入图片描述

Fig. 4 总体目标函数

3. 交叉熵损失函数与Kullback-Leibler（KL）损失函数

在信息论中，期望使用公式来表示事件所包含的信息的量度。

信息量，期望一个事件发生的概率越小，信息量就越大；而大概率的信息量较小，同时期望两个事件同时发生的信息量等于两个事件的信息量相加，由此可以规定一个事件的信息量为
$I(x_i) = -\log_b P(x_i)\tag{11}$
信息熵 𝐻(𝑋)，也称为熵，是随机变量𝑋的期望信息量，可以通过对其所有可能结果的信息量求加权平均来计算：
$-\sum_{i=1}^{n} P(x_i) \log_b P(x_i)\tag{12}$ 信息熵用来评估一个随机变量的不确定性，不确定性越大（对投色子，各数字概率密度均匀，取出任何数的概率相同），熵越大；不确定性越小（对扑克牌，普通牌与大小王的概率密度差距很大，取出普通牌的不确定性小），熵越小。

交叉熵假设随机变量𝑋的真实概率密度p，预测概率密度q，定义q对p的平均信息量的估计，叫做交叉熵，定义为公式
$H(p,q)=\sum p_iI_i^q=-\sum p_ilog_2(q_i)\tag{13}$ 交叉熵越小，预测的分布与真实的分布差异越小。且交叉熵总是大于熵的值。

KL散度也称为相对熵，是一种衡量两个概率分布差异的指标。KL散度是不对称的，即从分布P到分布Q的KL散度与从Q到P的KL散度不同。对于两个概率分布𝑃和𝑄定义在相同的概率空间上，KL散度定义为：
$\mathrm{KL}(P\parallel Q)=\sum_{x}[P(x)(I_P-I_Q)]=\sum_{x}P(x)\log\left(\frac{P(x)}{Q(x)}\right)\tag{14}$
对于连续概率分布，求和变成积分。当两分布完全相同，则 $\mathrm{KL}(P\parallel Q)=0$ ，KL熵用来衡量两分布的相似程度，KL熵越小，两分布越相似。