信息熵+互信息(信息增益)

news2025/4/26 14:40:33

文章目录

信息增益
- 信息量
- 信息熵
- 条件熵
- 信息增益

交叉熵->信息熵->KL散度

信息增益

信息量

信息奠基人香农（Shannon）认为“信息是用来消除随机不确定性的东西”，也就是说衡量信息量的大小就是看这个信息消除不确定性的程度。

“太阳从东边升起”，这条信息并没有减少不确定性，因为太阳肯定是从东边升起的，这是一句废话，信息量为0。

”2018年中国队成功进入世界杯“，从直觉上来看，这句话具有很大的信息量。因为中国队进入世界杯的不确定性因素很大，而这句话消除了进入世界杯的不确定性，所以按照定义，这句话的信息量很大。

根据上述可总结如下：信息量的大小与信息发生的概率成反比。概率越大，信息量越小。概率越小，信息量越大。

设某一事件发生的概率为P(x)，其信息量表示为：
$\mathrm{I}(\mathrm{x})=-\log (\mathrm{P}(\mathrm{x}))\tag{1}$
其中 $\mathrm{I}(\mathrm{x})$ 表示信息量，这里 $l o g$ 表示以e为底的自然对数。

信息熵

信息熵也被称为熵，用来表示所有信息量的期望。
期望是试验中每次可能结果的概率乘以其结果的总和。
所以信息量的熵可表示为：（这里的 $X$ 是一个离散型随机变量）
$\mathrm{H}(\mathbf{X})=-\sum_{\mathrm{i}=1}^{\mathrm{n}} \mathrm{P}\left(\mathrm{x}_{\mathrm{i}}\right) \log \left(\mathrm{P}\left(\mathrm{x}_{\mathrm{i}}\right)\right)\quad\left(\mathbf{X}=\mathrm{x}_{1}, \mathrm{x}_{2}, \mathrm{x}_{3} \ldots, \mathrm{x}_{\mathrm{n}}\right)\tag{2}$

使用明天的天气概率来计算其信息熵：
在这里插入图片描述
$\mathrm{H}(\mathbf{X})=-(0.5 * \log (0.5)+0.2 * \log (0.2)+0.3 * \log (0.3))\tag{3}$

对于0-1分布的问题，由于其结果只用两种情况，是或不是，设某一件事情发生的概率为 $\mathrm{P}(\mathrm{x})$ ，则另一件事情发生的概率为 $\mathrm{P}(\mathrm{x})$ ，所以对于0-1分布的问题，计算熵的公式可以简化如下：

$\begin{array}{c} \mathrm{H}(\mathbf{X})=-\sum_{\mathrm{n}=1}^{\mathrm{n}} \mathrm{P}\left(\mathrm{x}_{\mathrm{i}} \log \left(\mathrm{P}\left(\mathrm{x}_{\mathrm{i}}\right)\right)\right) \\ =-[\mathrm{P}(\mathrm{x}) \log (\mathrm{P}(\mathrm{x}))+(1-\mathrm{P}(\mathrm{x})) \log (1-\mathrm{P}(\mathrm{x}))] \\ =-\mathrm{P}(\mathrm{x}) \log (\mathrm{P}(\mathrm{x}))-(1-\mathrm{P}(\mathrm{x})) \log (1-\mathrm{P}(\mathrm{x}))\tag{4} \end{array}$

给出熵和条件熵的定义。在信息论与概率统计中，熵(entropy)是表示随机变量不确定性的度量。设 $X$ 是一个取有限值的离散随机变量，其概率分布为：

$P(X=x_i)=p_i,\quad i=1,2,\cdots,n \tag{5}$
则随机变量 $X$ 的熵定义为：
$H(X)=-\sum_{i=1}^np_i \log p_i \tag{6}$
在公式2，若 $p_i=0$ ,则定义 $0\log 0=0$ 。通常，公式2中的对数以2为底或以 $e$ 为底(自然对数)，这时熵的单位分别称作比特(bit)或纳特(nat)。由此定义可知，熵只依赖于 $X$ 的分布，而与 $X$ 的取值无关，所以也可将 $X$ 的熵记作 $H (p)$ , 即
$H(p)=-\sum_{i=1}^{n}p_i\log p_i\tag{7}$

条件熵

条件熵 $H (Y ∣ X)$ 表示在已知随机变量 $X$ 的条件下随机变量 $Y$ 的不确定性。随机变量 $X$ 给定的条件下随机变量 $Y$ 的条件熵(conditional entropy) $H (Y ∣ X)$ ，定义为 $X$ 给定条件下， $Y$ 的条件概率分布的熵对 $X$ 的数学期望：
$H(Y|X)=\sum_{i=1}^np_i H(Y|X=x_i)\tag{8}$
这里 $p_i=P(X=x_i), i=1,2,\cdots, n$ 。
当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到时，所对应的熵与条件熵分别称为经验熵(empirical entropy)和经验条件熵(empirical conditional entropy).

信息增益

信息增益(information gain)表示得知特征 $X$ 的信息而使得类 $Y$ 的信息的不确定性减少的程度。
特征 $X$ 对训练数据集 $Y$ 的信息增益 $g (Y, X)$ ,定义为集合 $Y$ 的经验熵 $H (Y)$ 与特征 $X$ 给定条件下 $Y$ 的经验条件熵 $H (Y ∣ X)$ 之差，即：
$H(Y|X)\tag{9}$

一般地，熵 $H (Y)$ 与条件熵 $H (Y ∣ X)$ 之差称为互信息(mutual information)。决策树学习中的信息增益等价于寻训练数据集中类与特征的互信息。

决策树学习应用信息增益准则选择特征。给定训练数据集 $Y$ 和特征 $X$ ,经验熵 $H (Y)$ 表示对数据集 $Y$ 进行分类的不确定性。而经验条件熵 $H (Y ∣ X)$ 表示在特征 $X$ 给定的条件下对数据集 $Y$ 进行分类的不确定性。那么它们的差，即信息增益，就表示由于特征 $X$ 而使得对数据集 $Y$ 的分类的不确定性减少的程度。
显然，对于数据集 $Y$ 而言，信息增益依赖于特征，不同的特征往往具有不同的信息增益，信息增益大的特征具有更强的分类能力，