多分类交叉熵

1. 基本概念：熵与交叉熵

要理解多分类交叉熵损失的由来，首先需要掌握信息论中的两个基础概念：熵（Entropy）和交叉熵（Cross-Entropy）。

熵（Entropy）
熵衡量一个随机变量的不确定性。对于一个离散随机变量 $X$ （例如类别分布），其熵定义为： $-\sum_{i=1}^{C} p_i \log(p_i)$
- $C$ ：可能的类别数。
- $p_i$ ：类别 $i$ 发生的真实概率。
- 意义：熵越大，分布的不确定性越高。例如，若所有类别概率相等，熵最大；若某类别概率为 1，其余为 0，熵为 0。
交叉熵（Cross-Entropy）
交叉熵衡量两个概率分布 $P$ （真实分布）和 $Q$ （预测分布）之间的差异，定义为： $-\sum_{i=1}^{C} p_i \log(q_i)$
- $p_i$ ：真实分布 $P$ 中类别 $i$ 的概率。
- $q_i$ ：预测分布 $Q$ 中类别 $i$ 的概率。
- 意义：交叉熵越小，说明预测分布 $Q$ 越接近真实分布 $P$ 。交叉熵总是大于等于熵 $H (P)$ （根据 KL 散度的非负性）。

在分类问题中，交叉熵损失函数正是基于这一概念，用于量化模型预测概率与真实标签之间的差距。

2. 多分类问题的设置

在多分类任务中，假设有 $C$ 个类别，每个样本属于其中一个类别。以下是问题的数学建模：

真实标签
真实标签通常采用 one-hot 编码 表示：
- 如果样本属于第 $k$ 类，则标签为 $[y_1, y_2, \dots, y_C]$ ，其中 $y_k = 1$ ，其他 $y_i = 0$ （ $\neq k$ ）。
- 因此，真实分布 $P$ 是确定的： $p_i = y_i$ 。
模型预测
模型通过 softmax 函数 将线性输出转化为概率分布： $p_i = \frac{e^{z_i}}{\sum_{j=1}^{C} e^{z_j}}$
- $z_i = \theta_i^T x$ ：第 $i$ 类的线性输出（logit），其中 $\theta_i$ 是类别 $i$ 的参数向量， $x$ 是输入特征。
- $p_i$ ：模型预测样本属于第 $i$ 类的概率，且满足 $\sum_{i=1}^{C} p_i = 1$ 。
- 意义：softmax 将任意实数 $z_i$ 转换为概率，确保输出是一个合法的概率分布。

3. 交叉熵损失的推导

多分类交叉熵损失的推导基于信息论中的交叉熵定义，结合分类问题的特性。

交叉熵定义
根据交叉熵的公式，真实分布 $P$ （由 $y_i$ 表示）和预测分布 $Q$ （由 $p_i$ 表示）之间的交叉熵为： $-\sum_{i=1}^{C} y_i \log(p_i)$
损失函数
在机器学习中，我们将交叉熵直接作为损失函数 $L$ ： $-\sum_{i=1}^{C} y_i \log(p_i)$
- 解释：由于 $y_i$ 是 one-hot 编码，只有真实类别 $k$ 的 $y_k = 1$ ，其他 $y_i = 0$ 。因此，损失简化为： $L = -\log(p_k)$
  - $k$ ：真实类别的索引。
  - 意义：损失只与模型对正确类别的预测概率 $p_k$ 有关。 $p_k$ 越接近 1， $log(p_k)$ 越小，损失越低。
推导过程
1. 真实分布： $P$ 是确定的（例如， $[0, 0, 1, 0]$ ），由标签 $y_i$ 给出。
2. 预测分布： $Q$ 是模型通过 softmax 输出的概率分布 $p_i$ 。
3. 目标：最小化 $H (P, Q)$ ，使 $p_i$ 接近 $y_i$ 。

4. 为什么使用交叉熵损失？

交叉熵损失在多分类问题中被广泛采用，有以下几个原因：

与最大似然估计（MLE）的联系
- 在统计学中，最大似然估计的目标是最大化数据的似然函数。
- 对于一个样本，似然函数是模型正确预测的概率： $L = p_k$ （ $k$ 是真实类别）。
- 对数似然： $log(L) = \log(p_k)$ ，
- 最小化交叉熵 $log(p_k)$ 等价于最大化对数似然。
- 推导：
  - 假设有 $N$ 个独立样本，总对数似然为： $\log L(\theta) = \sum_{n=1}^{N} \log(p_{n,k_n})$
  - 最小化平均交叉熵： $-\frac{1}{N} \sum_{n=1}^{N} \sum_{i=1}^{C} y_{n,i} \log(p_{n,i}) = -\frac{1}{N} \sum_{n=1}^{N} \log(p_{n,k_n})$
  - 因此，最小化交叉熵等价于最大化似然。
梯度计算简便
- 交叉熵损失与 softmax 函数结合时，梯度形式非常简洁： $\frac{\partial L}{\partial z_k} = p_k - y_k$
- 意义：梯度直接是预测概率与真实标签的差值，便于反向传播和参数优化。
惩罚错误预测
- 当 $p_k$ 很小时（即模型对正确类别的置信度低）， $log(p_k)$ 变得很大，从而对错误预测施加较大惩罚。
- 这激励模型提高对正确类别的预测概率。

5. 总结

多分类交叉熵损失函数的由来和推导可以总结为：

信息论基础：交叉熵衡量真实分布与预测分布的差异。
多分类建模：真实标签用 one-hot 编码表示，预测概率通过 softmax 函数生成。
损失函数： $-\sum_{i=1}^{C} y_i \log(p_i)$ ，对于单个样本简化为 $L = -\log(p_k)$ 。
优化联系：最小化交叉熵等价于最大化对数似然。
梯度简洁：结合 softmax，梯度为 $p_k - y_k$ ，便于梯度下降优化。

通过这一损失函数，模型能够有效学习多分类任务中的类别分布，提高分类准确性。

1. 多分类交叉熵损失函数的定义

对于多分类任务，假设有 $C$ 个类别，交叉熵损失函数的公式为：

$\text{CE} = -\sum_{i=1}^{C} y_i \log(p_i)$

变量说明：
- $C$ ：类别总数。
- $y_i$ ：真实标签的 one-hot 编码。如果样本属于第 $k$ 类，则 $y_k = 1$ ，其他 $y_i = 0$ 。
- $p_i$ ：模型预测样本属于第 $i$ 类的概率，通常通过 softmax 函数计算： $p_i = \frac{e^{z_i}}{\sum_{j=1}^{C} e^{z_j}}$
  - $z_i = \theta_i^T x$ ：第 $i$ 类的线性输出。
  - $\theta_i$ ：第 $i$ 类对应的参数向量。
  - $x$ ：输入特征向量。
目标：通过调整参数 $\theta_i$ （每个类别对应一组参数），使预测概率 $p_i$ 尽可能接近真实标签 $y_i$ 。

2. 梯度下降的基本原理

梯度下降通过以下公式更新模型参数：

$\theta_{\text{new}} = \theta - \eta \nabla L(\theta)$

$\eta$ ：学习率，控制参数更新的步长。
$\nabla L(\theta)$ ：损失函数 $L(\theta)$ 对参数 $\theta$ 的梯度。

在多分类问题中，参数 $\theta$ 通常是一个矩阵，形状为 $\text{特征数})$ ，每行对应一个类别的参数向量。梯度 $\nabla L(\theta)$ 也具有相同的形状。

3. 多分类交叉熵损失的梯度计算

我们需要计算损失函数 $\text{CE}$ 对每个类别参数 $\theta_k$ 的梯度，即 $\frac{\partial \text{CE}}{\partial \theta_k}$ 。由于 $\theta_k$ 是一个向量，梯度也是一个向量。

推导过程

使用链式法则分解梯度：

$\frac{\partial \text{CE}}{\partial \theta_k} = \frac{\partial \text{CE}}{\partial z_k} \cdot \frac{\partial z_k}{\partial \theta_k}$

(1) 计算 $\frac{\partial \text{CE}}{\partial z_k}$

损失函数为：

$\text{CE} = -\sum_{i=1}^{C} y_i \log(p_i)$

对 $z_k$ 求偏导数：

$\frac{\partial \text{CE}}{\partial z_k} = -\sum_{i=1}^{C} y_i \cdot \frac{1}{p_i} \cdot \frac{\partial p_i}{\partial z_k}$

计算 $\frac{\partial p_i}{\partial z_k}$
由于 $p_i = \frac{e^{z_i}}{\sum_{j=1}^{C} e^{z_j}}$ 是 softmax 函数，我们需要分别考虑 $i = k$ 和 $\neq k$ 的情况：
- 当 $i = k$ 时： $\frac{\partial p_k}{\partial z_k} = p_k (1 - p_k)$ （softmax 对自身变量的导数类似于 sigmoid）。
- 当 $\neq k$ 时： $\frac{\partial p_i}{\partial z_k} = -p_i p_k$ （由于 $p_i$ 的分母包含 $e^{z_k}$ ，增加 $z_k$ 会减少 $p_i$ ）。
代入损失函数的导数
将 $\frac{\partial p_i}{\partial z_k}$ 代入：

$\frac{\partial \text{CE}}{\partial z_k} = -\left[ y_k \cdot \frac{1}{p_k} \cdot p_k (1 - p_k) + \sum_{i \neq k} y_i \cdot \frac{1}{p_i} \cdot (-p_i p_k) \right]$

化简：
- 第一项： $y_k (1 - p_k)$ ，
- 第二项： $\sum_{i \neq k} y_i \cdot (-p_k) = -p_k \sum_{i \neq k} y_i$ 。
合并： $\frac{\partial \text{CE}}{\partial z_k} = -y_k (1 - p_k) - p_k \sum_{i \neq k} y_i$
利用 one-hot 编码特性
因为 $y$ 是 one-hot 向量， $\sum_{i=1}^{C} y_i = 1$ ，且如果 $y_k = 1$ ，则 $\sum_{i \neq k} y_i = 0$ ；如果 $y_k = 0$ ，则 $\sum_{i \neq k} y_i = 1$ 。我们可以进一步化简： $\frac{\partial \text{CE}}{\partial z_k} = -y_k (1 - p_k) + p_k (1 - y_k)$ 展开： $y_k + y_k p_k + p_k - y_k p_k = p_k - y_k$

结果： $\frac{\partial \text{CE}}{\partial z_k} = p_k - y_k$

这个结果非常简洁，表示损失对 $z_k$ 的变化率等于预测概率与真实标签的差值。

(2) 计算 $\frac{\partial z_k}{\partial \theta_k}$

线性输出定义为：

$z_k = \theta_k^T x$

对 $\theta_k$ 求梯度：

$\frac{\partial z_k}{\partial \theta_k} = x$

解释： $z_k$ 是 $\theta_k$ 和 $x$ 的内积，梯度是一个向量，与输入特征 $x$ 相同。

(3) 合并梯度

应用链式法则：

$\frac{\partial \text{CE}}{\partial \theta_k} = \frac{\partial \text{CE}}{\partial z_k} \cdot \frac{\partial z_k}{\partial \theta_k} = (p_k - y_k) x$

完整梯度：
对于每个类别 $k$ （ $k = 1, 2, ..., C$ ），梯度为： $\nabla_{\theta_k} \text{CE} = (p_k - y_k) x$

4. 梯度下降的训练过程

在多分类问题中，训练过程包括以下步骤：

前向传播
- 对于每个类别 $i$ ：
  - 计算线性输出 $z_i = \theta_i^T x$ ，
  - 通过 softmax 函数计算概率： $p_i = \frac{e^{z_i}}{\sum_{j=1}^{C} e^{z_j}}$
计算损失
- 使用预测概率 $p_i$ 和真实标签 $y_i$ 计算交叉熵损失： $\text{CE} = -\sum_{i=1}^{C} y_i \log(p_i)$
反向传播
- 计算损失对每个类别参数 $\theta_k$ 的梯度： $\nabla_{\theta_k} \text{CE} = (p_k - y_k) x$
更新参数
- 对每个类别的参数 $\theta_k$ 进行更新： $\theta_k = \theta_k - \eta (p_k - y_k) x$
  - $\eta$ 是学习率。
重复迭代
- 对训练数据集重复上述步骤，直到损失收敛或达到预设的迭代次数。

5. 总结

多分类交叉熵损失函数在梯度下降中的应用过程可以概括为：

损失函数： $\text{CE} = -\sum_{i=1}^{C} y_i \log(p_i)$
梯度： $\nabla_{\theta_k} \text{CE} = (p_k - y_k) x$
参数更新： $\theta_k = \theta_k - \eta (p_k - y_k) x$
关键点：
- 梯度 $p_k - y_k) x$ 表明参数调整方向取决于预测概率 $p_k$ 与真实标签 $y_k$ 的差值。
- 这种形式与二分类问题中的梯度 $(p - y) x$ 类似，但多分类中需要为每个类别分别计算。

通过不断迭代，梯度下降使模型的预测概率分布逐渐接近真实标签分布，从而提高分类性能。

6. 交叉熵损失的梯度推导（简要说明）**

为了完整性，我们简要说明梯度计算过程：

目标：计算 $-\sum_{i=1}^{C} y_i \log(p_i)$ 对线性输出 $z_k$ 的偏导数。
链式法则： $\frac{\partial L}{\partial z_k} = \sum_{i=1}^{C} \frac{\partial L}{\partial p_i} \cdot \frac{\partial p_i}{\partial z_k}$
- $\frac{\partial L}{\partial p_i} = -\frac{y_i}{p_i}$ 。
- $\frac{\partial p_i}{\partial z_k}$ ：
  - 若 $i = k$ ： $\frac{\partial p_k}{\partial z_k} = p_k (1 - p_k)$ ，
  - 若 $\neq k$ ： $\frac{\partial p_i}{\partial z_k} = -p_i p_k$ 。
合并： $\frac{\partial L}{\partial z_k} = -\frac{y_k}{p_k} \cdot p_k (1 - p_k) + \sum_{i \neq k} (-\frac{y_i}{p_i}) \cdot (-p_i p_k)$ 化简后： $\frac{\partial L}{\partial z_k} = p_k - y_k$
对参数的梯度： $\frac{\partial L}{\partial \theta_k} = (p_k - y_k) x$
- $x$ ：输入特征向量。