机器学习的数学基础(三)—

1. 随机变量
2. 概率分布
- 2.1 离散型变量和概率质量函数
- 2.2 连续型变量和概率密度函数
3. 边缘概率
4. 条件概率
5. 条件概率的链式法则
6. 独立性和条件独立性
7. 期望、方差和协方差
- 7.1 期望
- 7.2 方差
- 7.3 协方差
8. 常用概率分布
- 8.1 均匀分布 $U (a, b)$
- 8.2 Bernoulli分布
- 8.3 Multinoulli分布
- 8.4 高斯分布(正态分布) $N(x;\mu,\sigma^2)$
- 8.5 多维正态分布
- 8.6 指数分布
- 8.7 Laplace分布
- 8.8 Dirac分布
- 8.9 经验分布
9. 贝叶斯规则
10. 部分信息论
- 10.1 自信息和香农熵
- 10.2 KL散度和交叉墒
参考

1. 随机变量

随机变量是可以随机地取不同值的变量。一个随机变量只是对可能的状态的描述，它必须伴随一个概率分布来指定每个状态的可能性。
随机变量可以是离散的或者连续的。离散随机变量拥有有限或者可数无限多的状态(这些状态不一定非要是整数，它们可能只是一些被命名的状态而没有数值)。连续随机变量伴随着实数值。

2. 概率分布

概率分布用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。描述概率分布的方式取决于随机变量是离散的还是连续的。

2.1 离散型变量和概率质量函数

离散型变量的概率分布可以用概率质量函数来描述，用大写字母 $\mathrm{P}$ 来表示。概率质量函数将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。 $\mathrm{x}=x$ 的概率用 $\mathrm{P}(x)$ 来表示。概率为1表示 $\mathrm{x}=x$ 是确定，概率为0表示 $\mathrm{x}=x$ 是不可能发生的。用如下符号表示随机变量服从何种分布：
$\mathrm{x}\sim \mathrm{P}(\mathrm{x}).$
概率质量函数可以同时作用于多个随机变量，这种多个变量的概率分布称为联合概率分布， $\mathrm{P}(\mathrm{x}=x,\mathrm{y}=y)$ 表示 $\mathrm{x}=x$ 和 $\mathrm{y}=y$ 同时发生的概率，可以简写为 $\mathrm{P}(x,y)$ 。
如果一个函数 $\mathrm{P}$ 是随机变量 $\mathrm{x}$ 的概率质量函数，必须满足如下几个条件：
1. $\mathrm{P}$ 的定义域必须是 $\mathrm{x}$ 所有可能状态的集合。
2. $\forall x\in \mathrm{x}, 0\le \mathrm{P}(x)\le 1$ 。
3. $\displaystyle\sum_{x\in \mathrm{x}}\mathrm{P}(x)=1$ 。

2.2 连续型变量和概率密度函数

但研究的对象是连续型随机变量时，用概率密度函数来描述它的概率分布。如果一个函数 $\mathrm{p}$ 是概率密度函数，必须满足下面几个条件：
1. $\mathrm{p}$ 的定义域必须是 $\mathrm{x}$ 所有可能状态的集合。
2. $\forall x\in \mathrm{x}, \mathrm{p}(x)\ge0$ 。
3. $\displaystyle\int \mathrm{p}(x)dx=1$ 。
概率密度函数 $\mathrm{p}(x)$ 并没有直接对特定状态给出概率，可以对概率密度函数求积分来获得点集的真实概率质量。在单随机变量的例子中， $x$ 落在区间 $[a, b]$ 的概率是 $\displaystyle\int_a^b \mathrm{p}(x)dx$ 。

3. 边缘概率

在已知一组变量的联合概率分布时，要求出其中一个子集的概率分布。这种定义在子集上的概率分布被称为边缘概率分布。
对于离散型随机变量，假设有离散型随机变量 $\mathrm{x}$ 和 $\mathrm{y}$ ，已知 $\mathrm{P}(x,y)$ ，可以通过求和法则来计算 $\mathrm{P}(x)$ ：
$\forall x\in \mathrm{x}, \mathrm{P}(\mathrm{x}=x)=\sum_{y}\mathrm{P}(\mathrm{x}=x, \mathrm{y}=y).$
对于连续型随机变量，需要用积分代替求和：
$\mathrm{p}(x)=\int \mathrm{p}(x, y)dy.$

4. 条件概率

在很多情况下，我们更关心的是某个事件在给定其他事件发生时出现的概率，这种概率称为条件概率，将给定 $\mathrm{x}=x$ ， $\mathrm{y}=y$ 发生的条件概率记作 $\mathrm{P}(\mathrm{y}=y|\mathrm{x}=x)$ 。这个条件概率可以通过如下的公式计算：
$\mathrm{P}(\mathrm{y}=y| \mathrm{x}=x)=\frac{\mathrm{P}(\mathrm{x}=x, \mathrm{y}=y)}{\mathrm{P}(\mathrm{x}=x)}.$
条件概率只在 $\mathrm{P}(\mathrm{x}=x)\gt0$ 时有定义。

5. 条件概率的链式法则

任何多维随机变量的联合概率分布，都可以分解成只有一个变量的条件概率相乘的形式：
$\mathrm{P}(\mathrm{x}^{(1)}, \cdots, \mathrm{x}^{(n)})=P(\mathrm{x}^{(1)})\prod_{i=2}^n \mathrm{P}(\mathrm{x}^{(i)}|\mathrm{x}^{(1)}, \cdots, \mathrm{x}^{(i-1)}).$
这个规则称为概率的链式法则，它可以直接从条件概率的定义中得到。
比如：
$\begin{aligned}\mathrm{P}(\mathrm{a}, \mathrm{b}, \mathrm{c})&=\mathrm{P}(\mathrm{a}|\mathrm{b}, \mathrm{c})\mathrm{P}(\mathrm{b}, \mathrm{c})\\&=\mathrm{P}(\mathrm{a}|\mathrm{b}, \mathrm{c})\mathrm{P}(\mathrm{b}|\mathrm{c})\mathrm{P}(\mathrm{c}). \end{aligned}$

6. 独立性和条件独立性

两个随机变量 $\mathrm{x}$ 和 $\mathrm{y}$ ，如果它们的概率分布可以表示为两个因子的乘积形式，并且一个因子只包含 $\mathrm{x}$ ，另一个因子只包含 $\mathrm{y}$ ，则称这两个随机变量是相互独立的：
$\forall x\in \mathrm{x}, y\in \mathrm{y}, \mathrm{p}(\mathrm{x}=x, \mathrm{y}=y)=\mathrm{p}(\mathrm{x}=x)\mathrm{p}(\mathrm{y}=y).$
如果关于 $\mathrm{x}$ 和 $\mathrm{y}$ 的条件概率分布对于 $\mathrm{z}$ 的每一个值都可以写成乘积的形式，那么这两个随机变量 $\mathrm{x}$ 和 $\mathrm{y}$ 在给定随机变量 $\mathrm{z}$ 时是条件独立的：
$\forall x\in \mathrm{x}, y\in \mathrm{y}, z\in \mathrm{z}, \mathrm{p}(\mathrm{x}=x, \mathrm{y}=y| \mathrm{z}=z)=\mathrm{p}(\mathrm{x}=x|\mathrm{z}=z)\mathrm{p}(\mathrm{y}=y|\mathrm{z}=z).$
$\mathrm{x}\perp \mathrm{y}$ 表示 $\mathrm{x}$ 和 $\mathrm{y}$ 相互独立， $\mathrm{x}\perp \mathrm{y}|\mathrm{z}$ 表示 $\mathrm{x}$ 和 $\mathrm{y}$ 在给定 $\mathrm{z}$ 时条件独立。

7. 期望、方差和协方差

7.1 期望

函数 $f (x)$ 关于某分布 $\mathrm{P}(\mathrm{x})$ 的期望或者期望值是指当 $x$ 由 $\mathrm{P}$ 产生， $f$ 作用于 $x$ 时， $f (x)$ 的平均值。对于离散型随机变量，期望可以通过求和得到：
$E_{x\sim \mathrm{P}}[f(x)]=\sum_{x}\mathrm{P}(x)f(x).$
对于连续型随机变量，期望可以通过积分得到：
$E_{x\sim \mathrm{p}}[f(x)]=\int \mathrm{p}(x)f(x)dx.$
期望是线性的： $E_{\mathrm{x}}[\alpha f(x)+\beta g(x)]=\alpha E_{\mathrm{x}}[f(x)]+\beta E_{\mathrm{x}}[g(x)].$

7.2 方差

方差衡量的是对 $x$ 依据它的概率分布进行采样时，随机变量 $\mathrm{x}$ 的函数值会呈现多大的差异：
$\begin{aligned}Var(f(x))&=E[(f(x)-E[f(x)])^2]\\ &=E[f^2(x)]-2E[f(x)E[f(x)]]+E[E^2[f(x)]]\\ &=E[f^2(x)]-2E^2[f(x)]+E^2[f(x)]\\ &=E[f^2(x)]-E^2[f(x)]\end{aligned}$
当方差很小时， $f (x)$ 的值形成的簇比较接近它们的期望值。方差的平方根被称为标准差。

7.3 协方差

协方差在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度：
$\begin{aligned}Cov(f(x), g(y))&=E[(f(x)-E[f(x)])(g(y)-E[g(y)])]\\ &=E[f(x)g(y)-E[f(x)]g(y)-E[g(y)]f(x)+E[f(x)]E[g(y)]]\\ &=E[f(x)g(y)]-2E[f(x)]E[g(y)]+E[f(x)]E[g(y)]\\ &=E[f(x)g(y)]-E[f(x)]E[g(y)]\end{aligned}$
协方差的绝对值如果很大，则意味着变量值变化很大，并且它们同时距离各自的均值很远。如果协方差是正的，那么两个变量都倾向于同时取得相对较大的值；如果协方差是负的，那么其中一个变量倾向于取得相对较大的值的同时，另一个变量倾向于取得相对较小的值。
协方差和相关性是有联系的，如果两个变量相互独立，那么它们的协方差为零；如果两个变量的协方差不为零，那么它们一定是相关的。
如果两个变量的协方差为零，它们之间一定没有线性关系。
随机向量 $x\in \mathbb{R}^n$ 的协方差矩阵是一个 $n\times n$ 的矩阵，并且满足 $Cov(x)_{i, j}=Cov(x_i, x_j)$ ，该矩阵的对角元是方差： $Cov(x_i, x_i)=Var(x_i)$ 。

8. 常用概率分布

8.1 均匀分布 $U (a, b)$

实数区间上的均匀分布 $U (a, b)$ ，其中 $a$ 和 $b$ 是区间的端点且满足 $b\gt a$ ，均匀分布的概率密度函数为：
$\begin{aligned}u(x;a, b)=\left\{\begin{aligned}0\quad, &x\notin [a, b]\\ \frac{1}{b-a},&x\in [a, b].\end{aligned}\right.\end{aligned}$
期望：
$\begin{aligned}E(x)&=\int_a^b \frac{x}{b-a}dx =\left.\frac{x^2}{2(b-a)}\right|_a^b=\frac{b^2-a^2}{2(b-a)}=\frac{a+b}{2}.\end{aligned}$
方差：
$\begin{aligned}Var(x)&=E(x^2)-E^2(x)\\ &=\int_a^b \frac{x^2}{b-a}dx-\frac{(a+b)^2}{4}\\ &=\left. \frac{x^3}{3(b-a)}\right|_a^b-\frac{(a+b)^2}{4}\\ &=\frac{b^3-a^3}{3(b-a)}-\frac{(a+b)^2}{4}\\ &=\frac{b^2+ab+a^2}{3}-\frac{a^2+2ab+b^2}{4}\\ &=\frac{4b^2+4ab+4a^2-3a^2-6ab-3b^2}{12}\\ &=\frac{a^2-2ab+b^2}{12}=\frac{(a-b)^2}{12}\end{aligned}$

8.2 Bernoulli分布

Bernoulli分布是单个二值随机变量的分布，它由单个参数 $\psi\in[0,1]$ 控制， $\psi$ 给出了随机变量等于1的概率，它的概率质量函数为：
$\begin{aligned}\mathrm{P(x}=x)=\psi^x(1-\psi)^{1-x}=\left\{\begin{aligned}1-\psi,&x=0\\ \psi\quad,&x=1.\end{aligned}\right.\end{aligned}$
期望：
$E(\mathrm{x})=0\times(1-\psi)+1\times \psi=\psi.$
方差：
$Var(x)=E(x^2)-E^2(x)=\psi-\psi^2=\psi(1-\psi).$

8.3 Multinoulli分布

Multinoulli分布是指在具有 $k$ 个不同状态的单个离散型随机变量上的分布，其中 $k$ 是一个有限值。Multinoulli分布由向量 $p\in[0, 1]^{k-1}$ 参数化，其中每一个分量 $p_i$ 表示第 $i$ 个状态的概率，最后第 $k$ 个状态的概率可以通过 $\displaystyle1-\sum_{i=1}^kp_i$ 给出，其中 $\displaystyle\sum_{i=1}^kp_i\le1$ 。
Multinoulli分布经常用来表示对象分类的分布，因此通常不需要计算该分布的期望和方差。

8.4 高斯分布(正态分布) $N(x;\mu,\sigma^2)$

高斯分布的概率密度函数为：
$N(x;\mu,\sigma^2)=\sqrt{\frac{1}{2\pi\sigma^2}}exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right).$
高斯分布的概率密度函数如下图所示。高斯分布由两个参数控制， $\mu\in \mathbb{R}$ 和 $\sigma\in(0, \infty)$ ，概率密度函数的峰值在 $x=\mu$ 处取到。
另一种更高效的参数化分布的方式是使用 $\beta\in(0, \infty)$ 来控制分布的精度：
$N(x;\mu,\beta^{-1})=\sqrt{\frac{\beta}{2\pi}}exp\left(-\frac{\beta}{2}(x-\mu)^2\right)$
在这里插入图片描述
期望：
$\begin{aligned}E(x)&=\int_{-\infty}^{\infty}\sqrt{\frac{1}{2\pi\sigma^2}}exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)xdx\\ &=\int_{-\infty}^{\infty}\sqrt{\frac{1}{2\pi\sigma^2}}exp\left(-\frac{y^2}{2}\right)(\mu+\sigma y)\sigma dy(换元y=\frac{x-\mu}{\sigma})\\ &=\int_{-\infty}^{\infty}\sqrt{\frac{1}{2\pi}}exp\left(-\frac{y^2}{2}\right)(\mu+\sigma y)dy\\ &=\sigma\int_{-\infty}^{\infty}y\sqrt{\frac{1}{2\pi}}exp\left(-\frac{y^2}{2}\right)dy+\mu\int_{-\infty}^{\infty}\sqrt{\frac{1}{2\pi}}exp\left(-\frac{y^2}{2}\right)dy\end{aligned}$
其中 $\displaystyle\int_{-\infty}^{\infty}y\sqrt{\frac{1}{2\pi}}exp(-\frac{y^2}{2})dy$ 是奇函数在对称区间上的积分，结果为0， $\displaystyle\int_{-\infty}^{\infty}\sqrt{\frac{1}{2\pi}}exp(-\frac{y^2}{2})dy$ 是标准正态分布 $N (x; 0, 1)$ 的总概率，结果为1。因此期望 $E(x)=\sigma\times0+\mu\times1=\mu.$
方差：
$\begin{aligned}Var(x)&=E[(x-E(x))^2]\\ &=E[(x-\mu)^2]\\ &=\int_{-\infty}^{\infty}\sqrt{\frac{1}{2\pi\sigma^2}}exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)(x-\mu)^2dx\\ &=\int_{-\infty}^{\infty}\sqrt{\frac{1}{2\pi}}exp\left(-\frac{y^2}{2}\right)\sigma^2y^2dy(换元y=\frac{x-\mu}{\sigma})\\ &=\sigma^2\sqrt{\frac{1}{2\pi}}\int_{-\infty}^{\infty}y^2exp\left(-\frac{y^2}{2}\right)dy.\\ 令I&=\int_{-\infty}^{\infty}y^2exp\left(-\frac{y^2}{2}\right)dy\\ I^2&=(\int_{-\infty}^{\infty}y^2exp\left(-\frac{y^2}{2}\right)dy)^2\\ &=\int_{-\infty}^{\infty}y_1^2exp\left(-\frac{y_1^2}{2}\right)dy_1\int_{-\infty}^{\infty}y_2^2exp\left(-\frac{y_2^2}{2}\right)dy_2\\ &=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}y_1^2y_2^2exp\left(-\frac{y_1^2+y_2^2}{2}\right)dy_1dy_2\\ &=\int_0^{2\pi}\int_0^{\infty} r^4cos^2(\theta)sin^2(\theta)exp\left(-\frac{r^2}{2}\right)rdrd\theta(换元y_1=rcos(\theta),y_2=rsin(\theta))\\ &=\int_0^{2\pi}\int_0^{-\infty}-cos^2(\theta)sin^2(\theta)4x^2exp(x)dxd\theta(换元x=-\frac{r^2}{2})\\ &=\int_0^{2\pi}cos^2(\theta)sin^2(\theta) d\theta\int_{-\infty}^04x^2exp(x)dx\\ &=\int_0^{2\pi} sin^2(\theta)-sin^4(\theta)d\theta(点火公式)\times\left. 4(x^2-2x+2)e^x\right|_{-\infty}^0\\ &=4\times(\frac{1}{2}\times\frac{\pi}{2}-\frac{3}{4}\times\frac{1}{2}\times \frac{\pi}{2})\times8\\ &=2\pi.\\ Var(x)&=\sigma^2\sqrt{\frac{1}{2\pi}}I=\sigma^2\sqrt{\frac{1}{2\pi}}\sqrt{2\pi}=\sigma^2. \end{aligned}$
采用正态分布在很多应用中都是一个明智的选择：
1. 我们想要建模的很多分布的真实情况是很接近正态分布的。中心极限定理说明了很多独立随机变量的和近似服从正态分布。
2. 在具有相同方差的所有可能的概率分布中，正态分布在实数上具有最大的不确定性。因此正态分布是对模型加入的先验知识量最少的分布。

8.5 多维正态分布

正态分布可以推广到 $\mathbb{R}^n$ 空间，这种情况下称为多维正态分布，它的参数是一个正定对称矩阵 $\Sigma$ ：
$N(x;\mu,\Sigma)=\sqrt{\frac{1}{(2\pi)^n|\Sigma|}}exp\left(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right).$
其中参数 $\mu$ 是向量，表示分布的均值， $\Sigma$ 是分布的协方差矩阵。
一个高效化的参数化分布的方式：
$N(x;\mu, \beta^{-1})=\sqrt{\frac{|\beta|}{(2\pi)^n}}exp\left(-\frac{1}{2}(x-\mu)^T\beta(x-\mu)\right).$

8.6 指数分布

指数分布：
$\mathrm{p}(x;\lambda)=\lambda I(x\ge0)exp(-\lambda x).$
其中 $I(x\ge0)$ 是指示函数，当 $x\lt0$ 时，值为0，否则为1。

8.7 Laplace分布

Laplace分布：
$Laplace(x;\mu,\gamma)=\frac{1}{2\gamma}exp(-\frac{|x-\mu|}{\gamma}).$

8.8 Dirac分布

Dirac分布：
$\mathrm{p}(x)=\delta(x-\mu).$
Dirac分布在除了 $x=\mu$ 以外的所有点的值为0，但是积分为1。

8.9 经验分布

经验分布：
$\mathrm{\hat{p}}(x)=\frac{1}{m}\sum_{i=1}^m\delta(x-x^{(i)}).$
经验分布将概率密度 $\frac{1}{m}$ 赋给 $m$ 个点 $x^{(1)}$ ， $\cdots$ ， $x^{(m)}$ 中的每一个，这些点是给定的数据集或者采样的集合。只有在定义连续型随机变量的经验分布时， $\delta(x)$ 是必要的；对于离散型随机变量，经验分布可以被定义为一个Multinoulli分布，对于每一个可能的输入，其概率可以简单地设为在训练集上那个输入值的经验频率。

9. 贝叶斯规则

$\mathrm{P(xy)}=\mathrm{P(x|y)P(y)}=\mathrm{P(y|x)P(x)}$
贝叶斯公式：
$\mathrm{P(x|y)}=\frac{\mathrm{P(y|x)P(x)}}{\mathrm{P(y)}}$
此外 $\mathrm{P(y)}$ 通常使用 $\displaystyle\mathrm{P(y)}=\sum_{x}\mathrm{P(y|}x)\mathrm{P(}x)$ 来计算。

10. 部分信息论

10.1 自信息和香农熵

信息论的基本想法是一个不太可能的事情居然发生了，要比一个非常可能的事件发生，能提供更多的信息。我们想要通过这种基本想法来量化信息，特别是：
1. 非常可能发生的事件信息量要比较少，并且极端情况下，确保能够发生的事件应该没有信息量。
2. 较不可能发生的事件具有更高的信息量。
3. 独立事件应具有增量的信息。例如，投掷的硬币两次正面向上传递的信息量，应该是投掷一次硬币正面朝上的信息量的两倍。
为了满足上述三个性质，定义一个事件 $\mathrm{x}=x$ 的自信息为 $I(x)=-\log\mathrm{P(}x)$ ，其中 $\log$ 表示自然对数。自信息的单位是奈特，1奈特是以 $\displaystyle\frac{1}{e}$ 的概率观测到一个事件时获得的信息量。
当 $\mathrm{x}$ 是连续的，我们使用类似的关于信息的定义，但是有些来源于离散形式的性质就丢失了。例如，一个具有单位密度的事件信息量仍然为零，但是不能保证它一定发生。
自信息只处理单个的输出。可以用香农熵来对整个概率分布中的不确定性总量进行量化：
$H(\mathrm{x})=E_{\mathrm{x\sim P}}[I(x)]=-E_{\mathrm{x\sim P}}[\log \mathrm{P}(x)].$
也记作 $H(\mathrm{P})$ 。一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。它给出了对依据概率分布 $\mathrm{P}$ 生成的符号进行编码所需的比特数在平均意义上的下界( $\log是以2为底时，单位为比特$ )。那些接近确定性的分布具有较低的墒；那些接近均匀分布的概率分布具有较高的墒。当 $\mathrm{x}$ 是连续的，香农熵称为微分墒。
计算Bernoulli分布的香农熵：
$\begin{aligned}H(\mathrm{P})&=-E[\log \mathrm{P}(x)]\\ &=-E[log(\psi^x(1-\psi)^{1-x})]\\ &=-E[x\log\psi+(1-x)\log(1-\psi)]\\ &=-E(x)\log\psi-(1-E(x))\log(1-\psi)\\ &=-\psi\log\psi-(1-\psi)\log(1-\psi)\end{aligned}.$
下图中水平轴是 $x$ ，表示二值随机变量等于1的概率，当 $x$ 接近0时，分布几乎是确定的，因为随机变量总等于0；当 $x$ 接近1时，分布也几乎是确定的，因为随机变量总等于1；当 $x = 0.5$ 时，熵是最大的，因为分布在两个结果上是均匀的。
在这里插入图片描述

10.2 KL散度和交叉墒

如果对于同一个随机变量 $\mathrm{x}$ 有两个单独的概率分布 $\mathrm{P(x)}$ 和 $\mathrm{Q(x)}$ ，可以使用KL散度来衡量两个分布的差异：
$D_{KL}(\mathrm{P||Q})=E_{\mathrm{x\sim P}}[\log \frac{\mathrm{P(}x)}{\mathrm{Q(}x)}]=E_{\mathrm{x\sim P}}[\log \mathrm{P(}x)-\log \mathrm{Q(}x)].$
在离散型变量的情况下，KL散度衡量的是，当我们使用一种被设计成能够使得概率分布 $\mathrm{Q}$ 产生的消息的长度最小的编码，发送包含由概率分布 $\mathrm{P}$ 产生的符号的信息时，所需要的额外信息量。
性质：
1. 非负性。
2. KL散度等于0，当且仅当 $\mathrm{P}$ 和 $\mathrm{Q}$ 在离散型变量的情况下是相同的分布，或在连续型变量的情况下是“几乎处处”相同的。
3. 不对称性： $D_{KL}(\mathrm{P||Q})\ne D_{KL}(\mathrm{Q||P})$ 。
一个和KL散度密切联系的量是交叉熵：
$H(\mathrm{P, Q})=H(\mathrm{P})+D_{KL}(\mathrm{P||Q})=-E_{\mathrm{x\sim P}}[\log \mathrm{Q(}x)].$
针对 $\mathrm{Q}$ 最小化交叉熵等于最小化KL散度。
当计算时，遇到 $0\log0$ 处理为 $\lim\limits_{x\rightarrow 0}x\log x=0$ 。