本文根据 MIT 计算机科学离散数学课程整理(Lecture 22 ~ Lecture 24)。
1 非负整数期望性质
用 N 表示非负整数集合,R 是 N 上的随机变量,则 R 的期望可以表示成:
证明:
换一个形式,把每一列写到一起,既
同时期望也可以写成
应用:
对于一个系统,每一个单位时间都有 p 的概率损坏,求系统发生损坏的期望时间。
随机变量为单位时间,满足非负整数,故
2 期望的线性性质
对于随机变量 满足
对于常数 a, b 有
证明:
只需证明对于随机变量 X 和 Y,满足
应用:
帽子检查问题(Hat-Check Problem):标号为 1~n 的球放置在对应标号为 1~n 的位置,把所有的球重新排列,R 表示球在原来正确对应编号位置的个数,求 R 的期望。
用 表示第 i 个球是否在正确的位置,可以求得分布为:
则有:,根据期望线性性质有:
实际上可以求得R 的概率分布为:
对于 ,
3 事件发生的期望次数
给定概率空间为 S,事件 ,用随机变量 T 表示事件发生的个数,则有:
1. 这些事件发生个数的期望值为事件发生概率相加,即:
2.
证明:
定义:
则有:
应用:
抛 n 个硬币,求硬币朝上的个数期望。
用 表示事件为第 i 个硬币朝上,期望可以表示成事件概率之和:
实际上不使用该性质,期望可以直接表示成:,经过化简得到结果也是
所以:
4 期望乘法规则
如果随机变量 相互独立,则有
证明:
只需证明对于两个相互独立的随机变量 X 和 Y,有 成立。
由独立的概率性质可知:
则有:
5 马尔可夫不等式 (Markov's Thm.)
对于非负随机变量 R,
证明
大于等于 x 的部分,显然期望也大于等于 x,即
由非负的前提, ,
,即
推论
令 ,得到推论:
6 切比雪夫不等式 (Chebyshev's Thm.)
对任意随机变量 R,,其中 表示 R 的方差。
证明
,令 ,满足马尔可夫使用条件, 则有
推论
记 为 R 的标准差,且满足 ,令 ,得到推论
对于 的特殊情况,,推论表达式并不成立。然而原表达式为 ,是成立的。
7 一侧切比雪夫不等式 (Cantelli's inequality)
对任意随机变量 R,,有
证明
下面证明 ,反向同理。
令 ,即证明:
若 ,则 ,显然成立。下面考虑 的情况。
下面证明:
令 ,
令
问题转化为证明:
,求得极小值点为:,代入得到
8 切诺夫界 (Chernoff bound)
之间相互独立, 服从伯努利分布 ,记 ,,记 ,则有
证明
其中 ,满足马可夫不等式条件,则有:
注意到 ,
得到:
由不等式:,得到:
拓展
之间相互独立, 满足 ,上式仍然成立。
9 案例应用一
加州大学伯克利分校某计科教授论文中,对于 RISC 和 Z8002 两种指令集架构做出了如下统计:
对最后一项比值求和取均值得到 1.2 ,于是给出结论为: Z8002 的平均代码量比 RISC 长 20%。
然而如果把统计量改为 ,区平均值求得 1.105,按照该逻辑结论应为: RISC 的平均代码量比 Z8002 长 10.5%。
问题在于,对于统计量 Z 和 R,如果 ,并不能推出 ,即
论文中求得 ,并不能说明
10 案例应用二
如果有 n 个作业,表示为 ,m 个网络服务器,表示为 。服务器需要处理作业请求, 需要服务器处理时间为 ,记 。采用什么方法把任务分配给服务器,使得每个服务器处理的期望时间为 。
采用将 n 个作业随机分配给 m 个服务器的方法,可以达到期望时间。
用 表示作业 被分配给服务器 处理,由于是随机分配,可以得到分布:
第 i 个服务器的总期望负载期望表示为:
而且有:
可以证明,发生服务器负载比期望大很多的概率很小。用 表示第 i 个服务器的实际负载,则有:
,而且有 ,根据切洛夫界拓展,可知:
假设取 ,
如果使用 1000 台服务器,粗略估计最坏服务器超过负载均衡 10% 的概率也是很小的值。