目录
学习视频链接:
1. 三要素及关系
2. 期望和方差的定义及基本性质
2.1 期望(均值)定义:
在实际工作中很难获得随机变量的分布或者概率密度,用矩描述随机变量
2.2 期望基本性质:
2.3 方差定义
2.4 凸函数下期望不等式
3. 均方意义下确定参数对随机变量的最优估计
4. 两组随机变量函数映射下的最佳逼近
4.1 条件期望的引入
4.2 条件期望的性质
a. 条件期望仍然是随机变量
b. 条件期望保留了期望的线性性质
c. 条件期望的期望,是无条件期望
d. 条件期望的提出性
关于条件期望计算的一个例子:
4.3 均方意义下,利用条件期望获得一个随机变量对另外一个随机变量的最佳估计
4.4 一个随机变量对另外一个随机变量的最佳估计结论
5. 参数化模型下的最优估计
5.1 参数化模型和非参数化模型
5.2 频率学派参数化模型的最优估计
5.3 方差和偏差的Tradeoff
5.4 两种估计量的简单对比
5.5 方差与样本方差
6. 条件方差
学习视频链接:
2.概率论复习_哔哩哔哩_bilibili
1. 三要素及关系
数据(data)
模型(model)
决策(Decision)
统计:由数据总结模型
概率:给定模型做决策,模型属于先验知识
仿真:由模型产生数据,蒙特卡洛,适用于真实数据很难获得的场景
大数据:由大量数据直接做决策,此处可能由于大量数据而无法收敛到一个可靠模型
2. 期望和方差的定义及基本性质
2.1 期望(均值)定义:
在实际工作中很难获得随机变量的分布或者概率密度,用矩描述随机变量
期望是随机变量的一阶矩,是一个数。
物理中表示刚体的重心,用一个点表示一个物体。
2.2 期望基本性质:
期望的基本性质恒成立。
2.3 方差定义
如果均值可以描述随机变量的中心未知,那么方差描述的是随机变量的散度(Dispersion)
2.4 凸函数下期望不等式
一般情况,非线性函数下期望的函数和函数的期望不相等:
对于凸函数,存在
进一步:
因此:
简单解释,凸函数图像类似:
凸函数具有性质:二阶导数大于等于0,存在任意a点,使得所有的x满足
是与有关的线性函数。
当X是随机变量,两边取期望:
此时,取,因此存在:
简单证明完毕。
3. 均方意义下确定参数对随机变量的最优估计
虑一组数据采样后得到的随机变量,现在我们需要采用一些方法去逼近该随机变量。
常用的方法,可以认为该随机变量来自于对一个确定数值的采样,因此用一个常数去尝试逼近。
在开始探讨方法之前,需要先定义逼近方法的评估手段,最常用的是比较两种数据的距离,一般我们可以采用均方误差来表示:
由于开根号在正数据域上不影响原始函数的单调性,因此可以直接去掉开根号展开优化,因此上述问题可以描述为:寻找一个待估计的常数,使得到的距离最小,用数学语言描述为:
为求上述最小距离对应的,一种简便的方法是可以直接对原始函数求导,并令导数为0求得:
得到:
因此,得到此时:
换句话说,期望就是在均方距离定一下,对随机变量的固定值最佳逼近。另外,方差此时就是最佳逼近下的误差,或者也称为残差:
4. 两组随机变量函数映射下的最佳逼近
4.1 条件期望的引入
上述问题进一步延申,如果存在两种不同的随机数据X和Y
在统计信号处理领域,我们希望构建某种模型/函数后,完成对产生一种映射,使得:
上述属于问题变成需要寻找某个函数g,使得距离最小。这是在函数空间中寻找最优函数。属于泛函优化,比较困难,需要引入新的工具:条件期望
4.2 条件期望的性质
a. 条件期望仍然是随机变量
可以认为消除了关于X的随机特性,但条件Y的随机性却是保留的,因此是以Y有关的随机变量
上式消除了X的随机特性,但是关于Y的随机变量
b. 条件期望保留了期望的线性性质
c. 条件期望的期望,是无条件期望
形式化证明过程:
是和有关的随机变量,因此取期望需要乘的概率密度函数,再积分:
代入的定义本身:
积分合并,并交换顺序:
根据联合概率密度定义:
因此:
根据边缘概率密度定义:
因此,最终:
d. 条件期望的提出性
条件期望中存在Y的因子,可以提出:本质上算X的期望,此时条件参数Y的随机性暂时消失,此时与Y相关的都是确定性的数据:
关于条件期望计算的一个例子:
如果是独立同分布的:
那么
如果此时n如果也是随机性,即:求和的个数也具有随机性,可以采用条件期望计算,此时需要假设N与独立:
4.3 均方意义下,利用条件期望获得一个随机变量对另外一个随机变量的最佳估计
此时回到上述问题,即:
思路是将后面的暂时变成确定性的数,此时沿用上述结论,
得到的最优估计应该就是,但由于此时属于条件,因此此时的最优估计应该是,即:
根据条件期望的期望性质,得到:
此时,也就得到了的最优估计,即:
上述的过程有点草率,下面进入严格证明:
均方意义下,一个随机变量对另外一个随机变量进行逼近,最优逼近就是条件期望:
如果上式中交叉项为0,就可以直接得到上述结论,即:
因此,下面的重点寻求证明
上式中除了之外,其他都是关于的随机变量,因此,再次利用:
计算条件期望:
上式最后一般用到了在对X求期望时不存在与X有关的随机变量,此时由于:
最终:
因此,最有逼近为:
4.4 一个随机变量对另外一个随机变量的最佳估计结论
经管上述结果比较完美,但在实际工作中,由于条件期望非常难求,因此需要兼顾好算和性能优异两个指标,寻求其他的估计方法。
5. 参数化模型下的最优估计
5.1 参数化模型和非参数化模型
统计信号处理的具体工作:
获得一批采样数据:
希望通过上述数据,建立模型Model,模型一般非两类:参数化模型和非参数化模型
参数化模型:对随机数据的分布有具体认识,即知道数据服从什么分布,如:
但是分布中的参数未知。
例如,对应高斯分布:
非参数化模型:近年来,在机器学习中越来越流行,例如聚类Clustering Classification,关心的是数据分几类,但对具体的分布参数可以不感兴趣。
在统计信号处理中,我们希望构建一个有采集数据到待估计参数的映射函数:
该映射函数,可以称为是Estimator,对应机器学习中称为Feature,在统计学习中称为Feature Extraction。
5.2 频率学派参数化模型的最优估计
在频率学派的统计学范畴,我们认为待估计的参数尽管未知,但是确定的参数。
在贝叶斯派中,未知参数认为也是随机的,将在后续介绍。
在确定性参数假设下,统计信号处理需要寻找:
根据刚刚的推导,最优估计应该是:
但由于的确定性的参数,因此没有随机性:
上述过程尽管说明了就是 本身,但是没有给用户提供任何映射的函数,因此解决不了实际问题。
5.3 方差和偏差的Tradeoff
重新观察估计方差:
上式中,都是确定性参数,因此交叉项为0:
因此:
上式将估计的均方误差分为了两项,即:方差+偏差
随机误差对应方差Variance,系统误差对应的是偏差Bias。
5.4 两种估计量的简单对比
既然最优估计的证明过程没有给出实际可操作的映射函数,那么我们需要自己构建估计的具体映射。
例如采样一个直流信号的电压:
其中真值是A
构造一种估计:
该估计也是无偏的:
但:
因此该估计经过无偏,但是估计的方差与噪声方差一致。
我们构造另外一个估计:
显然,该估计也是无偏的:
上式中,用到了:
其中是确定性的常数。
另外,在是不相关的假定下,上式中:
因此:
对比和的两种估计,尽管都是无偏估计,但是估计的方差要小于,这也是多次采样去平均的意义。
另外,当时,,该特性称为估计的Consistent相合估计。
5.5 方差与样本方差
在常规的实验中,我们一般采用如下两个公式处理数据:
数据平均的效果刚刚已经展现,
此时可以发现,样本方差的计算定义为:
其中分母不是而是,本质上是在估计方差,而除是确保该估计是无偏的。
如果在上述估计中,如果知道带估计量的真值,那么:
这样才是无偏的,但是实际中,我们不知道的真值,因此用样本平均替代替代,此时如果要保证估计的无偏性,那么需要除1,此时用替代 计算的方差有,也称为是样本方差,下面是证明过程,我们计算:
其中用到了
因此,上式为:
假定当独立同分布,那么:
因此:
代入:
而由于:
因此:
也就是:
即是方差的无偏估计。
6. 条件方差
基于上述已推导的结论,我们知道条件期望:
那么我们同样定义条件方差:
此时存在公式:
证明过程:
而上式中,和都不存在随机变量X,因此:
因此:
其中:
而:
因此:
证明结束。