拉普拉斯分布,又称双指数分布,是概率论中的一种连续概率分布。拉普拉斯分布是由法国数学家皮埃尔-西蒙·拉普拉斯在研究误差理论时提出的,在数据集中经常用于描述具有尖峰和长尾特征的分布。
拉普拉斯分布的定义
拉普拉斯分布的概率密度函数(PDF)定义为:
其中:
1)μ 是位置参数,它表示分布的中心,类似于正态分布中的均值。
2)b>0 是尺度参数,决定分布的宽度。b 越大,分布越“扁平”;反之,b 越小,分布越“尖锐”。
3)x 是随机变量。
这个概率密度函数可以分为两部分来看:左边的是一个常数,用来确保整个概率分布的面积为 1,而右边的指数函数描述了概率密度如何随 x 偏离 μ 而指数递减。
拉普拉斯分布的形状
从数学形式上看,拉普拉斯分布具有下列特征:
尖峰:拉普拉斯分布在 μ 处具有尖锐的峰值,而正态分布的峰值相对较为平缓。这意味着拉普拉斯分布更适合描述“尖峰状”数据,即大多数数据集中在均值附近,但也存在一些异常值。
双指数衰减:拉普拉斯分布在离开中心 μ 的两侧都呈现指数衰减。这种快速的衰减使得拉普拉斯分布的尾部相比正态分布略微“肥胖”,因此它能够更好地描述具有异常值或极值的现象。
(正态分布图片)
拉普拉斯分布的期望与方差
拉普拉斯分布的期望和方差可以通过简单的积分得出:
这意味着拉普拉斯分布的中心位置就是其位置参数 μ。
方差是尺度参数 b 的平方的两倍。尺度参数 b 控制了分布的“宽度”,因此 b 越大,数据的离散程度越高。
以上两点都可以从上面的图中看出来。
拉普拉斯分布的分布函数
拉普拉斯分布的分布函数可以通过对分布函数进行积分得到,不过注意由于绝对值的存在,所以积分时候要分范围讨论:
这个分布函数描述了拉普拉斯分布在任意 x 处累积的概率。下面是一张分布函数的图:
后面可能会单独写一下拉普拉斯分布变量的生成,感觉需要求一个反函数,我先在wiki上面截个图下来(里面的sgn是符号函数,变量x大于0为1,小于0为-1,等于0为0):
有缘再会!