文章目录
- 信息增益
- 信息量
- 信息熵
- 条件熵
- 信息增益
交叉熵->信息熵->KL散度
信息增益
信息量
信息奠基人香农(Shannon)认为“信息是用来消除随机不确定性的东西”,也就是说衡量信息量的大小就是看这个信息消除不确定性的程度。
“太阳从东边升起”,这条信息并没有减少不确定性,因为太阳肯定是从东边升起的,这是一句废话,信息量为0。
”2018年中国队成功进入世界杯“,从直觉上来看,这句话具有很大的信息量。因为中国队进入世界杯的不确定性因素很大,而这句话消除了进入世界杯的不确定性,所以按照定义,这句话的信息量很大。
根据上述可总结如下:信息量的大小与信息发生的概率成反比。概率越大,信息量越小。概率越小,信息量越大。
设某一事件发生的概率为P(x),其信息量表示为:
I
(
x
)
=
−
log
(
P
(
x
)
)
(1)
\mathrm{I}(\mathrm{x})=-\log (\mathrm{P}(\mathrm{x}))\tag{1}
I(x)=−log(P(x))(1)
其中
I
(
x
)
\mathrm{I}(\mathrm{x})
I(x)表示信息量,这里
l
o
g
log
log表示以e为底的自然对数。
信息熵
信息熵也被称为熵,用来表示所有信息量的期望
。
期望是试验中每次可能结果的概率乘以其结果的总和。
所以信息量的熵可表示为:(这里的
X
X
X是一个离散型随机变量)
H
(
X
)
=
−
∑
i
=
1
n
P
(
x
i
)
log
(
P
(
x
i
)
)
(
X
=
x
1
,
x
2
,
x
3
…
,
x
n
)
(2)
\mathrm{H}(\mathbf{X})=-\sum_{\mathrm{i}=1}^{\mathrm{n}} \mathrm{P}\left(\mathrm{x}_{\mathrm{i}}\right) \log \left(\mathrm{P}\left(\mathrm{x}_{\mathrm{i}}\right)\right)\quad\left(\mathbf{X}=\mathrm{x}_{1}, \mathrm{x}_{2}, \mathrm{x}_{3} \ldots, \mathrm{x}_{\mathrm{n}}\right)\tag{2}
H(X)=−i=1∑nP(xi)log(P(xi))(X=x1,x2,x3…,xn)(2)
使用明天的天气概率来计算其信息熵:
H
(
X
)
=
−
(
0.5
∗
log
(
0.5
)
+
0.2
∗
log
(
0.2
)
+
0.3
∗
log
(
0.3
)
)
(3)
\mathrm{H}(\mathbf{X})=-(0.5 * \log (0.5)+0.2 * \log (0.2)+0.3 * \log (0.3))\tag{3}
H(X)=−(0.5∗log(0.5)+0.2∗log(0.2)+0.3∗log(0.3))(3)
对于0-1分布的问题,由于其结果只用两种情况,是或不是,设某一件事情发生的概率为 P ( x ) \mathrm{P}(\mathrm{x}) P(x),则另一件事情发生的概率为 1 − P ( x ) 1 - \mathrm{P}(\mathrm{x}) 1−P(x),所以对于0-1分布的问题,计算熵的公式可以简化如下:
H ( X ) = − ∑ n = 1 n P ( x i log ( P ( x i ) ) ) = − [ P ( x ) log ( P ( x ) ) + ( 1 − P ( x ) ) log ( 1 − P ( x ) ) ] = − P ( x ) log ( P ( x ) ) − ( 1 − P ( x ) ) log ( 1 − P ( x ) ) (4) \begin{array}{c} \mathrm{H}(\mathbf{X})=-\sum_{\mathrm{n}=1}^{\mathrm{n}} \mathrm{P}\left(\mathrm{x}_{\mathrm{i}} \log \left(\mathrm{P}\left(\mathrm{x}_{\mathrm{i}}\right)\right)\right) \\ =-[\mathrm{P}(\mathrm{x}) \log (\mathrm{P}(\mathrm{x}))+(1-\mathrm{P}(\mathrm{x})) \log (1-\mathrm{P}(\mathrm{x}))] \\ =-\mathrm{P}(\mathrm{x}) \log (\mathrm{P}(\mathrm{x}))-(1-\mathrm{P}(\mathrm{x})) \log (1-\mathrm{P}(\mathrm{x}))\tag{4} \end{array} H(X)=−∑n=1nP(xilog(P(xi)))=−[P(x)log(P(x))+(1−P(x))log(1−P(x))]=−P(x)log(P(x))−(1−P(x))log(1−P(x))(4)
给出熵和条件熵的定义。在信息论与概率统计中,熵(entropy)是表示随机变量不确定性的度量。设 X X X 是一个取有限值的离散随机变量,其概率分布为:
P
(
X
=
x
i
)
=
p
i
,
i
=
1
,
2
,
⋯
,
n
(5)
P(X=x_i)=p_i,\quad i=1,2,\cdots,n \tag{5}
P(X=xi)=pi,i=1,2,⋯,n(5)
则随机变量
X
X
X 的熵定义为:
H
(
X
)
=
−
∑
i
=
1
n
p
i
log
p
i
(6)
H(X)=-\sum_{i=1}^np_i \log p_i \tag{6}
H(X)=−i=1∑npilogpi(6)
在公式2,若
p
i
=
0
p_i=0
pi=0,则定义
0
log
0
=
0
0\log 0=0
0log0=0。通常,公式2中的对数以2为底或以
e
e
e为底(自然对数),这时熵的单位分别称作比特(bit)或纳特(nat)。由此定义可知,熵只依赖于
X
X
X的分布,而与
X
X
X的取值无关,所以也可将
X
X
X的熵记作
H
(
p
)
H(p)
H(p), 即
H
(
p
)
=
−
∑
i
=
1
n
p
i
log
p
i
(7)
H(p)=-\sum_{i=1}^{n}p_i\log p_i\tag{7}
H(p)=−i=1∑npilogpi(7)
条件熵
条件熵
H
(
Y
∣
X
)
H(Y|X)
H(Y∣X)表示在已知随机变量
X
X
X的条件下随机变量
Y
Y
Y的不确定性。随机变量
X
X
X给定的条件下随机变量
Y
Y
Y的条件熵(conditional entropy)
H
(
Y
∣
X
)
H(Y|X)
H(Y∣X),定义为
X
X
X 给定条件下,
Y
Y
Y的条件概率分布的熵对
X
X
X的数学期望:
H
(
Y
∣
X
)
=
∑
i
=
1
n
p
i
H
(
Y
∣
X
=
x
i
)
(8)
H(Y|X)=\sum_{i=1}^np_i H(Y|X=x_i)\tag{8}
H(Y∣X)=i=1∑npiH(Y∣X=xi)(8)
这里
p
i
=
P
(
X
=
x
i
)
,
i
=
1
,
2
,
⋯
,
n
p_i=P(X=x_i), i=1,2,\cdots, n
pi=P(X=xi),i=1,2,⋯,n。
当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到时,所对应的熵与条件熵分别称为经验熵(empirical entropy)和经验条件熵(empirical conditional entropy).
信息增益
信息增益(information gain)表示得知特征
X
X
X的信息而使得类
Y
Y
Y的信息的不确定性减少的程度。
特征
X
X
X对训练数据集
Y
Y
Y的信息增益
g
(
Y
,
X
)
g(Y,X)
g(Y,X),定义为集合
Y
Y
Y的经验熵
H
(
Y
)
H(Y)
H(Y)与特征
X
X
X给定条件下
Y
Y
Y的经验条件熵
H
(
Y
∣
X
)
H(Y|X)
H(Y∣X)之差,即:
g
(
Y
,
X
)
=
H
(
Y
)
−
H
(
Y
∣
X
)
(9)
g(Y,X)=H(Y) - H(Y|X)\tag{9}
g(Y,X)=H(Y)−H(Y∣X)(9)
一般地,熵 H ( Y ) H(Y) H(Y)与条件熵 H ( Y ∣ X ) H(Y|X) H(Y∣X)之差称为互信息(mutual information)。决策树学习中的信息增益等价于寻训练数据集中类与特征的互信息。
决策树学习应用信息增益准则选择特征。给定训练数据集
Y
Y
Y和特征
X
X
X,经验熵
H
(
Y
)
H(Y)
H(Y)表示对数据集
Y
Y
Y进行分类的不确定性。而经验条件熵
H
(
Y
∣
X
)
H(Y|X)
H(Y∣X)表示在特征
X
X
X给定的条件下对数据集
Y
Y
Y进行分类的不确定性。那么它们的差,即信息增益,就表示由于特征
X
X
X而使得对数据集
Y
Y
Y的分类的不确定性减少的程度。
显然,对于数据集
Y
Y
Y而言,信息增益依赖于特征,不同的特征往往具有不同的信息增益,信息增益大的特征具有更强的分类能力,
g g g越大,说明越确定.
根据信息增益准则的特征选择方法是:对训练数据集(或子集) Y Y Y,计算其每个特征的信息增益,并比较它们的大小,选择信息增益最大的特征。