本博客为《概率论与数理统计－－茆诗松（第二版）》阅读笔记，目的是查漏补缺

前置知识

数学符号

连乘符号： $\text{[math]}$ ；总和符号： $\text{[math]}$ ；“任意”符号：∀；“存在”符号：∃

第一章：随机事件及其概率

随机事件及基础定义

随机现象所有基本结果的全体称为这个随机现象的基本空间。常用Ω={w}表示,其中元素w就是基本结果。在统计学中，基本结果w 是抽样的基本单元,故基本结果又称为样本点,基本空间又称为样本空间。

随机事件：随机现象某些基本结果组成的集合，称为随机事件，简称事件。事件的关系：包含（A $\text{[math]}$ B）、并（A $\text{[math]}$ B）、交（A $\text{[math]}$ B）、不相容、对立（ $\text{[math]}$ ）。

两个事件的独立性：对任意两个事件 A与B，若有 P(AB)=P(A)P(B)，则称事件A与B相互独立简称A与B独立。否则称事件A与B不独立。

多个事件的独立性：

条件概率

条件概率的一般定义如下：（P(A)与P(A|B)不同，本质上是事件B的发生，改变了基本空间，从而改变了P(A)）

条件概率的性质：

条件概率是概率，首先满足概率的三条公理：

非负性：P（A|B）≥0

正则性：P（Ω|B）=1

可加性：假如事件A1与A2互不相容，且P（B）>0，则： $\text{[math]}$

由三条公理，可推出满足以下性质：

$\text{[math]}$

$\text{[math]}$

$\text{[math]}$ （对于任意的A1、A2而言，不再需要二者不相容）

当B=Ω时，条件概率转化为无条件概率。

特殊性质：

乘法公式：任意两个事件的交的概率等于一事件的概率乘以在这事件已发生条件下另一事件的条件概率，只要它们的概率都不为零即可。第一个等式成立要求P（B）>0，第二个等式成立要求P（A）>0

$\text{[math]}$

假如事件A与B独立，且P（B）>0，则有： $\text{[math]}$ 。反之亦然。

一般乘法公式：

贝叶斯公式

全概率公式：设A与B是任意两个事件，假如 $\text{[math]}$ ，则 $\text{[math]}$

贝叶斯公式（由全概率公式推出）：意思就是P（B_i）已知，且P（A|B_i）可以通过试验等手段获得，则通过贝叶斯公式可以计算在给定事件A的情况下，任意事件B_i发生的条件概率。

第二章：随机变量及其概率分布

随机变量

随机变量分为：离散随机变量、连续随机变量

累积概率分布函数(CDF)

离散、连续随机变量都有各自的分布函数。

分布函数F(x)的基本性质：

离散随机变量

离散随机变量常用分布列来表示概率分布（分布列还有两种图表示方法：线条图与概率直方图）：

常见的离散分布有：二项分布、泊松分布等

二项分布

贝努里实验：只有两个结果（成功与失败）的试验。

n重贝努里实验：由n次相同的、独立的贝怒里试验组成的随机试验称为n重贝努里实验。

设X为n重贝努里实验成功的次数，则随机变量X可能取值为：0，1，…，n，其概率分布为：

在概率论中，称随机变量X服从二项分布 b(n, p) , 并记作 $\text{[math]}$ 。二项分布的数学期望： $\text{[math]}$

泊松分布

若随机变量服从泊松分布，即 $\text{[math]}$ ，这意味着X仅取0，1，2，…等一切非负整数，且取这些值的概率为：

泊松分布 $\text{[math]}$ 的数学期望就是参数 λ。

连续随机变量

概率密度函数（PDF）

连续随机变量不能再用分布列来表示，而要改用概率密度函数（就是连续的概率曲线），数学定义如下：

连续随机变量的分布函数F(x)可以用其密度函数p(x)表示出来：

连续随机变量：分布函数F(x)是密度函数p(x)的积分，密度函数p(x)是分布函数F(x)的求导

连续随机变量的数学期望：

数学期望E(X)的总结：

连续随机变量常见的分布有：正态分布 $\text{[math]}$

方差

在概率论和统计学中，数学期望E(X)是分布的位置特征数，它总位于分布的中心，随机变量X的取值总在其周围波动。

方差是度量随机变量X和其数学期望（E(X)，即均值）之间的偏离程度（称X-E(X)为偏差）的特征数，即度量随机变量X的离散程度，定义如下：

切比雪夫不等式

切比雪夫不等式对连续和离散两类随机变量都成立，定义如下：

第三章：多维随机变量

联合分布函数

在有些随机现象中，每个基本结果w只用一个随机变量 $\text{[math]}$ 描述是不够的，而要同时用多个,譬如同时用n 个随机变量 $\text{[math]}$ ,去描述。

多维随机变量的概率分布可以用联合分布函数来表示，定义如下：

对于联合分布函数 $\text{[math]}$ ，使一个随机变量比如 $\text{[math]}$ ，则可以得到另一个变量的分布函数 $\text{[math]}$ (或 $\text{[math]}$ )，称为联合分布函数 $\text{[math]}$ 的边缘分布函数，简称边缘分布。

对于多维连续随机变量（以二维为例），其联合分布函数如下：

条件分布和边缘密度函数

连续随机变量的条件分布：（X,Y）是二维连续随机变量，p(x,y)是其联合密度函数， $\text{[math]}$ 和 $\text{[math]}$ 是其边缘密度函数。

在给定Y=y下X的条件密度函数为： $\text{[math]}$

在给定X=x下Y的条件密度函数为： $\text{[math]}$

构造联合分布p(x,y)

用一个变量的分布与这个变量给定下另一个变量的条件分布可给出联合分布:

全概率公式的密度函数形式

假如能获得X的密度函数 $\text{[math]}$ 及在X给定下Y的条件密度函数 $\text{[math]}$ ，则由其乘积的积分可得Y的边缘分布：

贝叶斯公式的密度函数形式

将上面两个式子进行合并，可得贝叶斯公式的密度函数形式如下，贝叶斯公式的离散形式已在第一章中讨论：

协方差

多维随机变量的数学期望与方差只利用其边缘分布所提供的信息，没有涉及诸个分量之间关系的信息。这里将提出一个新的特征数——协方差，它将能反映多维随机变量各分量间的关系。

X与Y的协方差是X的偏差与Y的偏差乘积的数学期望，定义如下：

协方差的性质：

$\text{[math]}$

$\text{[math]}$

若X与Y独立， $\text{[math]}$ ，则 $\text{[math]}$

相关系数

两个随机变量之间的关系可分为独立和相依(即不独立),在相依中又可分为线性相依和非线性相依,由于非线性相依种类繁多,至今尚无实用指标来区分他们,但线性相依度可用线性相关系数来刻划，这一段将研究刻划两个变量之间线性相关程度的特征数：相关系数。

定义如下：

变量独立性的判别

“独立”与“不相关”

两个随机变量间的独立与不相关是两个不同概念。“相关”是指线性相关，“不相关”只说明两个随机变量之间没有线性关系，而“独立”说明两个随机变量之间既无线性关系,也无非线性关系，所以“独立”必导致“不相关”,反之不然。

变量独立性判别

其实遵从的是最简单的条件，以下条件任意一条即可(参考)：

$\text{[math]}$ 满足此即可判定AB相互独立，反映在CDF上，其实就是两个函数的每个点相乘等于其联合分布的对应点而已，宏观看起来，无非就是两个函数相乘等于概率密度函数，也就是: $\text{[math]}$

相应的，pdf可以判定，cdf也可以判定，因为积分操作是线性的: $\text{[math]}$

与其他变量的联合分布的边缘密度等于自己的概率密度，则相互独立。其对应条件概率 $\text{[math]}$ 条件，反映在连续性变量中，就是 $\text{[math]}$

随机变量的矩

容易看出，一阶原点矩就是数学期望，二阶中心矩就是方差。

特别低，样本的高阶矩定义如下：

样本的方差与标准差：

第五章：参数估计

参数估计问题：参数估计中所讨论的参数不仅仅指总体分布 $\text{[math]}$ 中所含的参数θ，还包括分布的各种特征数（均值、方差、标准差等），精确的确定这些参数是困难的，我们只能通过样本提供的信息对它们作出某种估计，这就是参数估计问题。

参数估计就是根据样本统计量的数值对总体参数进行估计的过程。

θ是总体的一个待估参数，其一切可能取值构成的参数空间记为 $\text{[math]}$ 。

参数估计的形式有两种：点估计与区间估计。点估计是估计出一个分布中未知参数的值，区间估计则是估计出一个分布中未知参数所在的范围。

点估计

参数的点估计，是要构造一个统计量 $\text{[math]}$ ，然后使用 $\text{[math]}$ 去估计θ，称 $\text{[math]}$ 为θ的点估计或估计量，或简称估计。将样本观测值带入后便得到了θ的一个点估计值 $\text{[math]}$

矩法估计

矩法估计的核心就是：用样本矩估计总体矩,用样本矩的相应函数估计总体矩的函数。（就是先用总体矩去构造一个表达所求参数θ的函数，然后用样本矩估计(代替)总体矩，计算参数θ）

具体的方法就是：通过计算样本 $\text{[math]}$ 的矩，来充当分布X的矩，从而估计出总体分布X的参数θ。流程如下：

计算例子如下：

矩法估计的优点是计算简单，且在总体分布未知场合也可使用。它的缺点是不唯一，譬如泊松分布 P(λ)，由于其均值和方差都是λ，因而可以用 $\text{[math]}$ 去估计λ,也可以用 $\text{[math]}$ 去估计λ;此外样本各阶矩的观测值受异常值影响较大,从而不够稳健。

点估计的评价标准

参数的点估计实质上是构造一个估计量去估计未知参数，上节讲的矩法估计是用各种矩去构造估计量的一种方法。自然也可以用其他估计量去估计，为此就需要有评价估计好坏的准则。

无偏性

我们希望所得的估计 $\text{[math]}$ 从平均意义上来讲与θ越接近越好，当其差值为0时便产生了无偏估计的概念：

对于θ的两个无偏估计，可以通过比较他们的方差来判断哪个更好，但对于有偏估计而言，比较方差意义不大，我们关心的是估计值围绕其真值波动的大小，因而引入均方误差准则：

即当估计是有偏估计时，用MSE来进行比较。

// TODO: 无偏估计这一块不是很明白

极大似然估计

概念

极大似然估计的思想：设总体含有待估参数θ，它可以取很多值,我们要在θ的一切可能取值之中选出一个使样本观测值（已经确定）出现的概率为最大的θ值(记为 $\text{[math]}$ ）作为θ的估计,并称 $\text{[math]}$ 为θ的极大似然估计。极大似然估计常用 $\text{[math]}$ （Maximum Likelihood Estimation）表示。

直白来讲，极大似然估计就是使得目前观测值出现概率最大的θ值。其基本思想是在给定数据的情况下，通过最大化似然函数来估计概率分布或模型参数。

具体来说：对于给定的观测数据集合，假设这些数据来自于一个未知的概率分布或模型，MLE方法的目标是找到最优的模型参数，使得这个模型产生这些数据的概率最大。换句话说，就是寻找一个参数估计值，使得该参数下的观测数据出现的概率最大。

下面有个例子很好的对其进行解释：

// 当随机变量是独立时，其联合概率为各自概率相乘

下面以连续分布的情况为例，给出极大似然估计的定义：

求极大似然估计的方法

寻求分布中位置参数θ的极大似然估计，首先要写出似然函数 $\text{[math]}$ ，即样本 $\text{[math]}$ 的联合分布；其次，要建立一个新的观点，让θ变换，这是同一组样本的观察值 $\text{[math]}$ 出现的概率 $\text{[math]}$ 将随着θ的改变而改变。求θ的极大似然估计，就是求使 $\text{[math]}$ 达到最大的点 $\text{[math]}$ 。

1）可以通过求导获得极大似然估计

当似然函数 $\text{[math]}$ 关于参数θ可导时，常常通过求导方法来获得似然函数 $\text{[math]}$ 极大值对应的参数值θ。

为求导方便，常对似然函数 $\text{[math]}$ 取对数，称 $\text{[math]}$ 为对数似然函数，它与 $\text{[math]}$ 在同一点上达到最大。当 $\text{[math]}$ 对θ的每一分量可微时，可通过 $\text{[math]}$ 对θ的每一分量求偏导并令其为0求得极大似然估计 $\text{[math]}$ 。称： $\text{[math]}$ 为似然方程，其中k是θ的维数。

2）从定义出发直接求 $\text{[math]}$ 的极值点

当似然函数的非零区域与未知参数有关时，通常无法通过解似然方程来获得参数的极大似然估计,这时可从定义出发直接求 $\text{[math]}$ 的极大值点。

极大似然估计的性质

1）极大似然估计的不变原则

2）极大似然估计的渐近正态性

当样本量趋向于无穷大时，极大似然估计的分布接近于正态分布。这个结论是统计学中极为重要的一种性质，它可以用于构造置信区间和假设检验等。

具体来说，假设我们有一个来自某个分布的随机样本，样本量为 $\text{[math]}$ ，用 $\text{[math]}$ 表示该分布的参数。假设我们想要使用极大似然估计 $\text{[math]}$ 来估计参数 $\text{[math]}$ ，那么当样本量趋向于无穷大时， $\text{[math]}$ 的分布会趋向于正态分布，其均值为 $\text{[math]}$ ，方差为 $\text{[math]}$ ，其中 $\text{[math]}$ 是 Fisher 信息矩阵在参数 $\text{[math]}$ 处的值。

换句话说，如果我们有一个足够大的样本，那么我们可以使用极大似然估计来构造置信区间，置信区间的中心值是极大似然估计，置信区间的宽度则是标准误差的倍数，其中标准误差是 $\text{[math]}$ 。

需要注意的是，这个结论只在一定条件下成立，例如样本必须是独立同分布的，并且极大似然估计的方差不能为零。此外，这个结论只是一个渐近结果，也就是说只有当样本量趋向于无穷大时才成立，对于小样本可能并不适用。

区间估计

点估计虽能给出参数一个明确的数值，但是不能提供估计参数的估计误差大小（精度），点估计主要为许多定性研究提供一定的参考数据，或在对总体参数要求不精确时使用，而在需要用精确总体参数的数据进行决策时则很少使用。

置信区间是用来估计总体参数θ真实值的一个区间，其定义如下：

对于置信区间的理解，可以参考马同学的回答：https://www.zhihu.com/question/26419030?sort=created。对于置信区间，有以下需要强调：

置信区间要求估计量是个常数

置信区间是随机区间，总体的参数是固定的，变的是不同的观测样本计算出的置信区间。比如95%的置信区间，表示在1000次抽样中，计算得到的1000个置信区间，约有950个包含正确的参数。

正态分布的区间估计

在区间估计中，当总体为正态分布时，常见的区间估计场景有以下几种：

方差已知，估计均值

方差未知，估计均值

均值未知，估计方差

总体思路就是根据正态分布的性质转化为标准正态分布，根据分为点求解区间即可。

非正态分布的区间估计

对于非正态分布，可以使用中心极限定理，近似地使用上述结果

中心极限定理：设从任意一个总体中抽取样本量为N的样本，当N充分大时，样本均值的分布近似服从于正态分布。

贝叶斯估计

统计学中有两大学派：频率学派（又称经典学派)和贝叶斯学派，它们的理论与方法都建立在概率论基础上。

以上的统计推断（点估计、区间估计）中，皆用到了两种信息：

(1) 总体信息,即总体分布或总体所属分布族给我们的信息。

(2) 样本信息，即样本提供给我们的信息。这是最“新鲜”的信息,并且越多越好,希望通过样本对总体或总体的某些特征作出较精确的统计推断。没有样本就没有统计学可言。

基于总体、样本这两种信息进行统计推断的统计学就称为经典统计学。然而在我们周围还存在着第三种信息——先验信息，它也可用于统计推断。先验信息,即在抽样之前有关统计问题的一些信息。对先验信息进行加工获得的分布称为先验分布。

基于总体、样本、先验这三种信息进行统计推断的统计学称为贝叶斯统计学。贝叶斯统计学与经典统计学的差别就在于是否利用先验信息。贝叶斯统计在重视使用总体信息和样本信息的同时,还注意先验信息的收集、挖掘和加工,使它数量化,形成先验分布，参加到统计推断中来,以提高统计推断的质量。

贝叶斯统计起源于英国学者贝叶斯(Bayes，T.R. 1702(?)-1761)死后发表的一篇论文“论有关机遇问题的求解”,在此文中提出了著名的贝叶斯公式和一种归纳推理的方法, 之后, 被一些统计学家发展成一种系统的统计推断方法。到上世纪30年代已形成贝叶斯学派,到50~60年代已发展成一个有影响的统计学派,其影响还在日益扩大。

贝叶斯学派的最基本的观点是:任一未知量θ都可看作随机变量，可用一个概率分布去描述,这个分布称为先验分布。因为任一未知量都有不确定性，而在表述不确定性的程度时,概率与概率分布是最好的语言。

如今两派的争论焦点已从“未知量是否可看作随机变量”转换为“如何利用各种先验信息合理地确定先验分布”。

两个学派的区别如下：（参考：贝叶斯学派与频率学派有何不同？）

频率派把模型参数看成未知的常量，用极大似然法MLE（一种参数点估计方法）求解参数，往往最后变成最优化问题。这一分支又被称为统计学习。频率派认为概率是事物的固有属性，是一个确定的常量，它就在那里，只是我们暂时不知道而已，要估计出这个确定的概率，可以做重复实验并计算重复实验中事件发生的频率，用频率近似概率（依据是“大数定律”），样本量越大，这个近似就越好。