概率随机变量以及分布

news2025/4/21 8:51:37

一、基础定义及分类

1、随机变量

随机变量是一个从样本空间（所有可能结果的集合）到实数集的函数。（随机变量的值可以是离散的，也可以是连续的。）

事件可以定义为随机变量取特定值的集合。

2、离散型随机变量

随机变量的取值是可数的，即有限个或可数无限个。取值之间有“间隔”，不是连续变化的。每个取值都有一个特定的概率，且所有取值的概率之和等于1。

概率质量函数（PMF）：对于所有的 x，有 P(X=x)≥0；所有可能取值的概率之和等于1。

例如：假设由5个黑球，3个白球，每次取一个球不放回，直到取到黑球为止，X为取到白球的数量，求取到黑球的概率。

解：列出渠道黑球可能（0白1黑、1白1黑、2白1黑、3白1黑），将白球数量列为X，则

P(X=0)= 5/8；P(X=1)= 3/8 * 5/7 =15/56；P(X=2)= 3/8 *2/7* 5/6=5/56；P(X=3)= 3/8 *2/7* 1/6* 5/5 =1/56

画出概率分布表：

X	0	1	2	3
P	5/8	15/56	5/56	1/56

验证：5/8 + 15/56 + 5/56+ 1/56 =1

3、连续型随机变量

取值可以是某个区间内任意实数的随机变量。随机变量的取值是连续的，可以在一个或多个区间内取任意值。取值是不可数的，即有无限多个可能的取值。每个取值区间都有一个特定的概率，且整个取值范围的概率密度函数积分等于1。在任意一点的概率都是0。在函数曲线上某个点的概率其实是取的该点附近值的大小。

概率密度函数（PDF）；对于一维实随机变量X，如果存在非负可积函数f(x)，使得对于任意实数x，a $\leq$ b 存在 P(a<X $\leq$ b)= $\int _a^b$ f(x) dx；对于所有的 x，有f(x) $\geq$ 0 ；整个取值范围的积分等于1，即 $\int _{-\infty}^{+\infty}$ f(x) dx=1 。概率密度函数的积分其实就是求曲线在某个区间内的面积。

例如：假设密度函数，求k

解：根据函数列出 $\int _{-\infty}^{+\infty}$ f(x)dx= $\int _{0}^{2}$ f(x)dx = $\int _{0}^{2}$ kx+1dx = $(\dfrac{k}{2}$ * $x^2$ +x) $|_0^2$ =2k+2=1 => k =-1/2

二、分布函数

1、定义

描述随机变量取值分布情况的函数，无论是离散型随机变量还是连续型随机变量，都可以通过分布函数来描述其概率特性。分布函数通常指的是累积分布函数（Cumulative Distribution Function, CDF），用 F(x) 表示。

2、使用方法

积分布函数（CDF） ；对于随机变量 X，其累积分布函数 F(x) 定义为随机变量 X 取值小于或等于 x 的概率： F(x)=P(X≤x) 。

随着 x 的增加，F(x) 是非减的，即 F(x1)≤F(x2)对于所有的 x1≤x2 成立。 F(x)的值域在 0 到 1 之间，即 0≤F(x)≤1。任意点 x 都是右连续的。对于离散型随机变量，F(x) 在任意点 x 是右连续，对于连续型随机变量，F(x) 在任意点 x 是连续的。

常用公式： F(x) = P(X≤x) ； P(X≤a) = F(a) ； P(X>a) = 1-P(X≤a) = 1-F(a)； P(a<X≤b) = P(X≤b)-P(X≤a)=F(b)-F(a)

例如离散型：假设概率分布表如下（求分布函数F(x) ）：

X	-1	2	3
P	1/2	1/3	1/6

根据x取值划分（ ${-\infty}$ ，-1）、（-1，2），（2，3），（3， ${\infty}$ ）

则：F(x)=P(X≤-1)=0 ；F(x)=P(-1≤X<2)=1/2;F(x)=P(2≤X<3)=5/6 ; F(x)=P(3≤X< ${\infty}$ )=1

例如连续型：假设函数如图，求分布函数F(x)：

根据x取值划分（ ${-\infty}$ ，0）、（0，2）、（2， ${\infty}$ ）

F(X)= $\int _{0}^{2}$ f(x)dx = $\int _{0}^{2}$ -1/2 * x +1 dx = -1/4 * $x^{2}$ + x

3、常见分布

3.1离散型

3.1.1、0-1分布

伯努利分布： $C_n^k$ $p^k$ ${(1-p)}^{n-k}$

3.1.2 几何分布

在独立重复的伯努利试验中，首次成功所需的试验次数: P(X=k)= ${(1-p)}^{k-1}$ ⋅ p

3.1.3、二项分布

n 次伯努利试验中成功的次数，那么 X 服从参数为 n 和 p 的二项分布，记作 X∼B(n,p) ：P(X=k)= $C_n^k$ $p^k$ ${(1-p)}^{n-k}$

3.1.4、泊松分布

固定时间或空间内事件发生次数的离散型概率分布。适用于事件发生的概率较小且事件之间相互独立的情况。 P(X=k)=λ^k / k! * e^-λ

3.1.5、均匀分布

续均匀分布中，所有可能的结果是连续的，并且在相同长度间隔的分布概率是相同的。

均匀分布的概率密度函数（PDF）：对于连续型随机变量 X，如果它服从区间 [a,b]上的均匀分布，其概率密度函数为：f(x)= 1 / (b-a) ，其实就是面积为1，宽为 b-a 的长方形区域，那它的高就是1 / (b-a)

3.2、连续型

3.2.1、指数分布

概率密度函数 x 是随机变量，表示事件发生的时间间隔；λ 是率参数，表示单位时间内事件发生的平均次数。其对应的分布函数如图：

3.2.2、正态分布

表达形式： X $\sim$ N(μ,σ^2)

概率密度函数 （x 是随机变量；μ 是均值；σ是标准差；σ^2是方差），其基本性质为 y=f(x)以x=u为对称轴；x=u时，f(x)取到最大值 ；y=f(x)以x轴为渐近线，x±σ为拐点 ；σ固定，μ 变化，图像左右移动；μ 固定，σ变小，最高点上移，σ变大，最高点下移。