【AI】数学基础—

随着联结主义学派的兴起，概率统计已经取代了数理逻辑，成为了人工智能研究的主流工具

数理统计的关注点是 无处不在的可能性

对随机事件发生的可能性进行规范的数学描述是概率论的公理化过程

频率学派认为先验分布式固定的，模型参数靠最大似然估计计算

贝叶斯学派认为先验分布是随机的，模型参数靠后验概率最大化计算

3.1 概念

3.1.1 随机事件e

在相同条件下可重复执行

相同条件下，事件发生的可能性不变
事先知道所有实验结果
实验开始前，不知道本次实验结果

3.1.2 样本空间

随机实验E的所有结果构成的集合 $S=\{e\}$

3.1.3 事件的表示——Venn图

在这里插入图片描述

$S\bigcap T$
$S\bigcup T$
$S-T=S\bigcap \overline{T}$
$\overline{S}\bigcap \overline{T}$
S,T,U相互独立
S,T,U是 $\Omega$ 的一个划分

3.1.4 事件与概率

在这里插入图片描述

将事件映射到实数域

3.1.5 概率与频率

$A$ 在 $N$ 次实验中发生频率 $f_n(A)=\frac{n_A——A发生的次数}{N——总的发生次数}$

大数定理 ： $f_n(A)$ 的稳定值 $P$ 为 $A$ 发生的概率 $f_n(A)\xrightarrow{n\rightarrow \infty}p(A)$

随着重复试验次数的增加，特定事件出现的频率值就会呈现出稳定性，逐渐趋近于某个常数

概率：一个可独立重复的随机试验中，单个结果出现频率的极限

3.1.6 古典概率

随机试验E结果只包含有限个基本事件，且每个基本事件发生的可能性相同。
$p(A)=\frac{\vert A\vert}{\vert \Omega\vert}\quad\left\{ \begin{aligned} &排列：&有序地选择n个&\quad A_{m}^n=\frac{m!}{(m-n)!}\\ &组合：&无序地选择n个&\quad C_{m}^n=\frac{m!}{n!(m-n)!} \end{aligned} \right.$
只针对单个随机事件

eg：8个球，摸到每个球概率相等，1-8号，其中1-3为红球，4-8为黄球

设事件 $A$ 表示摸到红球，摸到红球的概率表示为 $p(A)=\frac{\vert A\vert}{\vert \Omega\vert}=\frac{3}{8}$

3.1.7 条件概率

用于刻画两个随机事件之间的关系（类比内积，通过运算将关系映射为数值），根据已有信息对样本空间进行调整后得到的新的概率分布

$P(A\mid B)=\frac{P(AB)}{P(B)},表示事件A在事件B已经发生的条件下发生的概率$

A和B两个事件共同发生的频率称为 联合概率 ，记为 $P (A B)$

如果两个事件发生互不影响相互独立，则其联合概率 $P (A B) = P (A) P (B)$
对于相互独立的事件，条件概率就是自身概率 $P(A\mid B)=P(A)$

二元条件概率

在这里插入图片描述

3.1.8 芝麻开门问题

5把钥匙，只有一把能打开房门，求第三次将房门打开的概率

若无放回：事件A定义为第三次打开房门，意味着前两次都没打开，该事件为B，题目所求为 $P (A B)$ ，由条件概率 $P(AB)=P(A\vert B)P(B)$ ， $P(A\vert B)=\frac{1}{3},P(B)=\frac{4}{5}\times \frac{3}{4}=\frac{3}{5}$

所以 $P(AB)=\frac{1}{5}$

若有放回，易知每次取一把钥匙能否开门是相互独立的，即 $\frac{1}{5}$

若有放回，恰好第三次打开：恰好说明前两次没有打开， $P(AB)=\left(\frac{4}{5}\times \frac{4}{5}\right)\times \frac{1}{5}=\frac{16}{125}$

若5把钥匙中有2把能打开，随意逐把开，且每把试过后不能重复开，那么第三次打开的概率为：第三次取得钥匙正好是2把中的一把，故 $P(A)=\frac{C^1_2A_4^4}{A^5_5}=\frac{2}{5}$

若第三次恰好打开：说明前两次没有打开，2把中的第1把必须是第三个位置，第2把在第4次或者第5次尝试，所以 $P(A)=\frac{C_2^1C_2^1A_3^3}{A^5_5}=\frac{1}{5}$

若有放回，第三次能打开的概率为：由于有放回，每次抽到正确钥匙的事件是相互独立的， $P(A)=\frac{2}{5}$

若有放回，恰好第三次打开的概率：有放回，则每次选钥匙是独立的，恰好第三次打开，说明前两次没打开， $P(A)=\frac{3}{5}\times\frac{3}{5}\times\frac{2}{5}=\frac{18}{125}$

3.2 随机变量

3.2.1 分类

离散型：一个样本点代表一个事件

有限个 $X=\left\{H,T\right\}\rightarrow P(x)\in(0,1)$
连续型：一个样本区间代表一个事件

3.2.2 概率函数

$P (X) = P ro b (X = x)$ 随机变量取到某一种情况的概率

离散型随机变量概率分布

找X的所有可能值
计算相应取值的概率
$p(x_i)\ge 0,i=1,2,\cdots,n$ ， $\sum p(x_i)=1$
$\begin{array}{c|lcr} x&x_1&x_2&\cdots&x_n\\ \hline p(x_i)&p(x_1)&p(x_2)&\cdots&p(x_n) \end{array}$

连续型随机变量

概率密度函数(PDF)

用函数形式描述事件的不确定性

由来：区间内数据的频率，将离散的数据分组，统计每一个小区间频数 $\rightarrow$ 频率
$\begin{array}{c|lcr} 区间&频数&频率\\ \hline a_1&f_n(a_1)&p(a_1)\\ a_2&f_n(a_2)&p(a_2)\\ \vdots&\vdots&\vdots\\ a_n&f_n(a_n)&p(a_n)\\ \end{array}$
绘制频率直方图

在这里插入图片描述

当数据足够多，区间可划分地足够小，可将频直方图近似为一条曲线，即概率密度 $f_X(x)$

连续性随机变量的概密与分布函数

在这里插入图片描述

概率密度函数体现的并非连续随机变量的真实概率，而是不同取值可能性之间的相对关系。

对连续型随机变量来说，其可能取值的数目为不可列无限个，当归一化的概率被分配到这无限个点上时，每个点的概率都是一个无穷小量，取极限的话就等于零。

概率密度函数的作用就是对这些无穷小量加以区分，无穷小量之间是有相对大小的( $\frac{1}{x},\frac{2}{x}$ 在 $x\rightarrow \infty$ 时都是无穷小，但后者是前者的两倍)，由概率密度函数刻画。

概密表示概率

已知概率密度函数 $f (x)$ ，随机变量 $X$ 在 $(a, b]$ 上的概率可表示为 $P(a<X\le b)=\int_{a}^bf(x)dx$

简单随机抽样
$样本\left\{ \begin{aligned} ①&\quad x_1,x_2,\cdots,x_n是相互独立的随机变量\\ ②&\quad x_1,x_x,\cdots,x_n与总体X同分布 \end{aligned} \right.$
在ML中，可将 $x_1,x_2,\cdots,x_n$ 看作不同维度上的变量

联合分布函数 $F(x_1,x_2,\cdots,x_n)=\prod\limits_{i=1}^n F(x_i)$
联合概率密度 $f(x_1,x_2,\cdots,x_n)=\prod\limits_{i=1}^nf(x_i)$

3.2.3 概率公理

非负性： $P(A)\ge 0$

加法公式：

$p(A\bigcup B)=p(A)+p(B)-p(AB)$
$p(A\bigcup B\bigcup C)=p(A)+p(B)+p(C)-p(AB)-p(AC)-p(BC)+p(ABC)$

正则性： $p(\Omega)=1$

3.3 二维随机变量

3.3.1 联合函数

$(X, Y)$ 为二维变量，表示一个事件由两个维度决定

$F(x,y)=P(X\le x\bigcap Y\le y)$ ，表示随机点 $(X, Y)$ 位于 $(x, y)$ 左下方的概率

在这里插入图片描述

性质

$F (x, y)$ 分别关于X，Y单调不减
$0\le F(x,y)\le 1\left\{\begin{aligned}F(-\infty,0)=0&&F(-\infty,+\infty)=1\\F(0,-\infty)=0&&F(-\infty,-\infty)=0\end{aligned}\right.$
$F (x, y)$ 关于 $X, Y$ 右连续
$\forall x_1\le x_2,y_1\le y_2$ ， $P\left\{x_1< X\le x_2,y_1<Y\le y_2 \right\}=F(x_2,y_2)-F(x_1,y_2)-F(x_2,y_1)+F(x_1,y_1)$

3.3.2 二维离散型随机变量 (x,y)

有限对 $(X, Y)$ ：研究 $(x, y)$ 同时取定这一事件发生的概率

联合概率分布
$\ Y y 1 y 2 ⋯ y n x 1 p 11 p 12 ⋯ p 1 n x 2 p 21 p 22 ⋯ p 2 n ⋮ ⋮ ⋮ ⋱ ⋮ x n p n 1 p n 2 ⋯ p n n \begin{array}{c|lcr} X\backslash Y&y_1&y_2&\cdots&y_n\\ \hline x_1&p_{11}&p_{12}&\cdots&p_{1n}\\ x_2&p_{21}&p_{22}&\cdots&p_{2n}\\ \vdots&\vdots&\vdots&\ddots&\vdots\\ x_n&p_{n1}&p_{n2}&\cdots&p_{nn} \end{array}$
$p_{ij}\ge 0$ ， $\sum\limits_{i=1}^\infty\sum\limits_{j=1}^\infty p_{ij}=1$

eg：

$X = 1, 2, 3, 4$ ， $Y=1,2,\cdots,X$ ，求 $(x, y)$ 的联合概率分布

$(X = i, Y = j)$ ， $i = 1, 2, 3, 4$ ， $y\le X,y=1,2,\cdots,i$

$P(X=i,Y=j)=P(X=i)P(Y=j\mid X=i)=\frac{1}{4}\frac{1}{i}$
$\ y 1 2 3 4 1 1 4 1 8 1 12 1 16 2 0 1 8 1 12 1 16 3 0 0 1 12 1 16 4 0 0 0 1 16 \begin{array}{c|cccc} x\backslash y&1&2&3&4\\ \hline 1&\frac{1}{4}&\frac{1}{8}&\frac{1}{12}&\frac{1}{16}\\ 2&0&\frac{1}{8}&\frac{1}{12}&\frac{1}{16}\\ 3&0&0&\frac{1}{12}&\frac{1}{16}\\ 4&0&0&0&\frac{1}{16}\\ \end{array}$

3.3.3 二维连续型随机变量

研究 $(X, Y)$ 位于某一范围这一事件发生的概率

概率密度

$f(x,y)\ge 0$ ，对于 $\forall (x,y)$ ，有二维随机变量的分布函数 $F(x,y)=\int_{-\infty}^x\int_{-\infty}^yf(u,v)dudv$

$P\{(x,y)\in G\}=\iint\limits_{G} f(x,y)dxdy$

$P\{(x,y)\in G\}=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} f(x,y)dxdy=1$

eg：

$(X, Y)$ ，有 $f(x,y)=\begin{cases}ke^{-(2x+3y)}&,x>0,y>0\\0&,其他\end{cases}$

(1) 求参数k

$\int_{0}^{+\infty}\int_{0}^{+\infty}f(x,y)dxdy=1=k\int_{0}^{+\infty}e^{-2x}dx\int_{0}^{+\infty} e^{-3y}dy=\frac{k}{6}e^{-2x}\mid_{0}^{+\infty}\cdot e^{-3y}\mid_{0}^{+\infty}=\frac{k}{6}\Rightarrow k=6$

(2) 求分布函数 $F (x, y)$
$\begin{aligned} F(x,y)&=\begin{cases} \int_{0}^{x}\int_{0}^{y}f(x,y)dxdy&,x>0,y>0\\ 0&,其他 \end{cases}\\ &=\begin{cases} \int_{0}^{x}2e^{-2x}dx \int_{0}^{y}3e^{-3y}dy&,x>0,y>0\\ 0&,其他 \end{cases}\\ &=\begin{cases} 2e^{-2x}\mid_{0}^x e^{-3y}dy\mid_{0}^y&,x>0,y>0\\ 0&,其他 \end{cases}\\ &=(e^{-2x}-1)(e^{-3y}-1) \end{aligned}$
(3) 求 $P(Y\le X)$ 的概率
$\begin{aligned} P\{Y\le X\}&=\int_{0}^{+\infty}dx\int_{0}^xf(x,y)dy\\ &=\int_{0}^{+\infty}dx\int_{0}^x6e^{-2x}e^{-3y}dy\\ &=\int_{0}^{+\infty}(-2)e^{-2x}dx\int_{0}^x(-3y)e^{-3y}dy=\int_{0}^{+\infty}(-2)e^{-2x}\cdot e^{-3y}\mid_{0}^xdx\\ &=-2\int_{0}^{+\infty}(e^{-5x}-e^{-2x})dx=\frac{3}{5} \end{aligned}$

3.3.4 边缘分布

二维随机变量 $(X, Y)$ 有整体分布函数 $F (x, y)$ ， $X, Y$ 都是随机变量—— $F_X(X),F_Y(y)$

令 $y\rightarrow \infty$ ，则 $F(x,y)\rightarrow F_X(x)$

$F_X(x)=P(X\le x)=P\{X\le x,Y<+\infty\}=F(x,+\infty)$

令 $x\rightarrow \infty$ ，则 $F(x,y)\rightarrow F_Y(y)$

$F_Y(y)=P(Y\le y)=P\{X< +\infty,Y\le y\}=F(+\infty,y)$

离散型

分布律 $P\{X=x,Y=y\}=p_{ij},i,j=1,2,\cdots$

X边缘分布： $P\{X=x_i\}=P\{X\le x_i,y<+\infty\}=\sum\limits_{j=1}^{+\infty}p_{ij}\overset{\Delta}{=}p_i,i=1,2,\cdots$
Y边缘分布： $P\{Y=y_i\}=P\{x<+\infty,Y\le y_i\}=\sum\limits_{i=1}^{+\infty}p_{ij}\overset{\Delta}{=}p_j,j=1,2,\cdots$

eg：
$\ y 0 10 20 0 0.35 0.04 0.025 1 0.025 0.15 0.04 2 0.02 0.1 0.25 \begin{array}{c|ccc} x\backslash y&0&10&20\\ \hline 0&0.35&0.04&0.025\\ 1&0.025&0.15&0.04\\ 2&0.02&0.1&0.25 \end{array}$
X,Y边缘分布
$\begin{array}{c|c} X&\\ \hline 0&0.415\\ 1&0.215\\ 2&0.37 \end{array}\qquad \begin{array}{c|c} Y&\\ \hline 0&0.395\\ 10&0.215\\ 20&0.315 \end{array}\\$
$P(X=2\vert Y=20)=\frac{P(X=2,Y=20)}{P(Y=20)}=\frac{0.25}{0.315}$

连续型

对于 $(X, Y)$ 有概率密度 $(x, y)$ ，及其联合分布函数 $F (x, y)$

$f_X(x)=\int_{-\infty}^{+\infty}f(x,y)dy$ ， $f_Y(y)=\int_{-\infty}^{+\infty}f(x,y)dx$

$F_X(x)=F(x,+\infty)=\int_{-\infty}^x\int_{-\infty}^{+\infty}f(x,y)dxdy=\int_{-\infty}^x\int_{-\infty}^{+\infty}f(x,y)dydx=\int_{-\infty}^xf_X(x,y)dx$

$F_Y(y)=F(+\infty,y)=\int_{-\infty}^y\int_{-\infty}^{+\infty}f(x,y)dxdy=\int_{-\infty}^y\int_{-\infty}^{+\infty}f(x,y)dxdy=\int_{-\infty}^yf_Y(x,y)dy$

eg：

$f(x,y)=\begin{cases}6&,x^2\le y<x\\0&,其他\end{cases}$

在这里插入图片描述

$f_X(x)=\begin{cases} \int_{-\infty}^{+\infty}f(x,y)dy&,0\le x\le 1\\ 0&,其他 \end{cases} =\begin{cases} \int_{x^2}^{x}6dy&,0\le x\le 1\\ 0&,其他 \end{cases}= \begin{cases} 6(x-x^2)&,0\le x\le 1\\ 0&,其他 \end{cases}$

$f_Y(y)=\begin{cases} \int_{-\infty}^{+\infty}f(x,y)dx&,0\le y\le 1\\ 0&,其他 \end{cases} =\begin{cases} \int_{y}^{\sqrt{y}}6dy&,0\le y\le 1\\ 0&,其他 \end{cases}= \begin{cases} 6(\sqrt{y}-y)dy&,0\le y\le 1\\ 0&,其他 \end{cases}$

3.4 数据的数字特征

3.4.1 数学期望

反映数据平均水平

离散型期望

$\left\{ \begin{aligned} &P(X=x_k)=p_k,k=1,2,\cdots\\ &EX=\sum\limits_{k=1}^nx_kp_k \end{aligned} \right.$

连续型随机变量

$X\sim f(x)=\begin{cases}\frac{1}{b-a}&,a<x<b\\0&,其他\end{cases}$

$EX=\int_{-\infty}^{+\infty}xf(x)dx=\int_a^b\frac{x}{b-a}dx=\frac{a+b}{2}$

二维离散型

$(X,Y)\sim P\{X=x_i,Y=y_i\}=p_{ij},i=1,2,\cdots$ ，求 $Z = g (X, Y)$

变量函数，将两个值映射为一个值

x,y取定不同的值，有不同的结果

函数期望 $EZ=E[g(x,y)]=\sum\limits_{i=1}^{\infty}\sum\limits_{j=1}^{\infty}[g(x_i,y_j)p_{ij}]$

eg：
$\ Y 0 1 2 0 0.1 0.25 0.15 1 0.15 0.2 0.15 \begin{array}{c|ccc} X\backslash Y&0&1&2\\ \hline 0&0.1&0.25&0.15\\ 1&0.15&0.2&0.15 \end{array}$
求 $Z=sin\frac{\pi(X+Y)}{2}$
$EZ=E\left[sin\frac{\pi(x+y)}{2}\right]=sin\frac{0+0}{2}\pi\cdot 0.1+sin\frac{0+1}{2}\pi\cdot 0.25+sin\frac{0+2}{2}\pi\cdot0.15\\+sin\frac{1+0}{2}\pi\cdot 0.15+sin\frac{1+1}{2}\pi\cdot 0.2+sin\frac{1+2}{2}\pi\cdot0.15=0.25$

二维连续型随机变量

$(X, Y)$ 连续型变量函数 $Z = g (X, Y)$ ， $EZ=E\left[g(x,y)\right]=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}g(x,y)f(x,y)dxdy$

eg：

$f(x,y)=\begin{cases}\frac{3}{2x^3y^2}&,\frac{1}{x}1\\0&,其他\end{cases}，求EY$
在这里插入图片描述

$\begin{aligned} EY&=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}yf(x,y)dxdy=\int_1^{+\infty}dx\int_{\frac{1}{x}}^x\frac{3y}{2x^3y^2}dy=\int_{1}^{+\infty}\frac{3}{2x^3}lny\vert_{1/ x}^xdx\\ &=\frac{3}{2}\int_{1}^{+\infty}\frac{lnx}{x^3}dx=\frac{3}{2}\int_{1}^{+\infty}lnxd\left(-\frac{1}{x^2}\right)=\frac{3}{4} \end{aligned}$

期望性质

$E (C) = C$
$E (CX) = CEX$
$E (a X + bY + C) = a EX + b E Y + C$
$X, Y$ 相互独立，则有 $E(X\cdot Y)=EX\cdot EY$

eg：性质求期望

20个人，10个站，无人下车则车不停，X表示停车次数，求EX

设 $\begin{cases}0&,第i站无人下车\\1&,第i站有人下车\end{cases}，i=1,2,\cdots,10$

第 $i$ 站有人下车 $\iff$ 1-其他站全下完车 $P\{X_i=1\}=1-\left(\frac{9}{10}\right)^{20}$ 第 $i$ 站有人下车的期望是 $EX_i=x_i p_i=1-\left(\frac{9}{10}\right)^{20}$

$EX=E(X_1+X_2+\cdots+X_{10})=10\times\left[1-\left(\frac{9}{10}\right)^{20}\right]$

3.4.2 方差

反映数据分散程度

$DX=E(X-EX)^2=E[X^2+(EX)^2-2XEX]=EX^2+(EX)^2-2(EX)^2=EX^2-(EX)^2=S^2(标准差平方)$

在这里插入图片描述

随机变量与期望距离的平方的期望

3.4.3 协方差

描述两个随机变量之间的相互关系，就需要用到协方差和相关系数——描述两个随机变量之间的线性关系

协方差 度量了两个随机变量之间的线性关系，即变量 $Y$ 能否表示成以另一变量 $X$ 为自变量的 $a X + b$ 形式

$Cov(X,Y)=E[(X-EX)(Y-EY)]=E(XY)-EX\cdot EY\begin{cases}=0,X与Y相互独立\\>0,正相关\\<0,负相关\end{cases}$

在这里插入图片描述

$X,Y相互独立\Rightarrow Cov(X,Y)\approx 0$

相关系数

根据协方差可以进一步求出相关系数，相关系数是绝对值不大于1的常数

等于1意味着两者满足完全正相关；
等于-1意味着两者满足完全负相关
等于0意味着两者不相关

3.5 随机变量的分布

3.5.1 均匀分布

$X\sim U(a,b)$ ，每一件事出现的可能性相等

$f(x)=\frac{1}{b-a},a\le x\le b$

$EX=\frac{a+b}{2}$
$DX=\frac{(a-b)^2}{12}$

在这里插入图片描述

3.5.2 伯努利实验

一次随机实验，只出现两种结果

$A$ 事件 $p$ ， $\overline{A}$ 事件 $q = 1 - p$

$f(k;p)=\begin{cases}p&,k=1\\1-p&,k=0\end{cases}$

$EX = p$
$DX=EX^2-(EX)^2=p-p^2=p(1-p)=pq$

3.5.3 二项分布

$n$ 重伯努利实验 $X\sim B(n,p)$

$n$ 次实验独立
每次实验只有两种结果 $A$ 和 $\overline{A}$
每次实验 $A$ 出现的概率都不变

$P\{X=k\}=C_n^kp^k(1-p)^{n-k}=\left(\begin{aligned}n\\k\end{aligned}\right)p^k(1-p)^{n-k}=P(X\vert n,p)，k=0,1,\cdots,n$

$\sum\limits_{k=0}^n\left(\begin{aligned}n\\k\end{aligned}\right)p^k(1-p)^{n-k}=1$

在这里插入图片描述

最后结果是每次选择的累计量

在这里插入图片描述

$EX = n p$
$D X = n pq$

3.5.4 多项式分布

二项式 $(x+y)^n=\sum\limits_{k=0}^n \left(\begin{aligned}n\\k\end{aligned}\right)x^ky^{n-k}=\sum\limits_{k=0}^n \left(\begin{aligned}n\\k\end{aligned}\right)y^kx^{n-k}$

在这里插入图片描述

多项式概密
$\begin{aligned} f(X=x_1,X=x_2,\cdots,X=x_k)&=\begin{cases}\frac{n!}{x_1!x_2!\cdots x_k!}p_1^{x_1}p_2^{x_2}\cdots p_k^{x_k}&,\sum\limits_{i=0}^k x_i=n\\0&，其他\end{cases}\\ &=\frac{\Gamma(\sum X_i+1)}{\prod[\Gamma(\sum X_i+1)]}\prod\limits_{i=1}^kp_i^{x_i} \end{aligned}$

伽马函数

$\Gamma(z)=\int_{0}^{\infty}x^{z-1}e^{-x}dx$

$\Gamma(z+1)=z\int_{0}^{\infty}x^{z-1}e^{-x}dx=z\Gamma(z)$

$\Gamma(1)=\int_{0}^{\infty}x^{1-1}e^{-x}dx=1$

$\Gamma(n)=(n-1)!$

3.5.5 Beta分布

$X\sim B(\alpha,\beta)$

在这里插入图片描述

$f(x;\alpha,\beta)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1}=\frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha,\beta)}$