数据分布之指数分布(sample database classicmodels _No.10)
准备工作,可以去下载 classicmodels 数据库具体如下
点击:classicmodels
也可以去 下面我的博客资源下载
https://download.csdn.net/download/tomxjc/88685970
文章目录
- 数据分布之指数分布(sample database classicmodels _No.10)
- 什么是指数分布?
- 指数分布代码
- SQL 查询说明
- 截图
- 判断和结论
- 判断
- 结论
什么是指数分布?
数据分布类型分析
指数分布(Exponential Distribution):
如果经过分组统计后,组的计数逐渐减少,尤其在初始的几个组中频率较高,然后逐步下降,则这可能符合指数分布的特点。
指数分布通常用于描述事件之间的时间间隔,如付款时间的间隔。它具有无记忆性,且通常是右偏的,这意味着较小的间隔频率较高,间隔时间越长的频次越低。
指数分布代码
WITH PaymentIntervals AS (
SELECT
customerNumber,
DATEDIFF(paymentDate, LAG(paymentDate) OVER (PARTITION BY customerNumber ORDER BY paymentDate)) AS interval_days
FROM payments
WHERE customerNumber IS NOT NULL
),
RangeStats AS (
-- 计算最小值、最大值和区间宽度
SELECT
MIN(interval_days) AS min_interval,
MAX(interval_days) AS max_interval,
(MAX(interval_days) - MIN(interval_days)) / 20 AS interval_width
FROM PaymentIntervals
WHERE interval_days IS NOT NULL
)
-- 分组统计不同的时间间隔区间
SELECT
FLOOR((interval_days - (SELECT min_interval FROM RangeStats)) / (SELECT interval_width FROM RangeStats)) AS group_index,
COUNT(*) AS count
FROM PaymentIntervals, RangeStats
WHERE interval_days IS NOT NULL
GROUP BY group_index
ORDER BY group_index;
SQL 查询说明
CTE PaymentIntervals:
计算每个客户两次付款之间的时间间隔(interval_days)。
使用LAG函数计算相邻两次付款的时间差,按客户编号和付款日期排序。
CTE RangeStats:
计算时间间隔的最小值(min_interval)、最大值(max_interval),以及20个区间的宽度(interval_width)。
区间宽度计算为 (MAX(interval_days) - MIN(interval_days)) / 20。
主查询:
使用计算得到的区间宽度,将时间间隔分为20个组。
使用 FLOOR((interval_days - min_interval) / interval_width) 来确定每个时间间隔属于哪一个组。
对每个组统计时间间隔出现的次数。
截图
判断和结论
数据特征分析
集中性:
数据的高频部分出现在index为1、2,计数分别为21和21。
数据的频次在最初几个组中较高,然后逐渐减少。
下降趋势:
从index为3之后,计数开始逐渐减少,但减少的方式并不十分规则,而是有起伏。
在后半部分(index为13到20),计数值比较小,大部分为5以下,且逐步趋近于1。
整体形态:
高峰出现在前面几个组,然后频次逐渐下降。
没有明显的对称性,即没有明显的从高峰向两侧对称递减的趋势。
指数分布与正态分布的特点
指数分布:
指数分布是右偏的,通常在开始部分具有较高的频率,然后逐渐快速下降。
特征是单调递减的频次分布,事件发生的时间间隔越短,频率越高,随着间隔时间增大,频率显著下降。
正态分布:
正态分布是钟形的,数据集中在均值附近,并且两侧对称递减。
特征是具有明显的峰值,峰值两侧逐渐下降,呈现出较好的对称性。
判断
是否符合指数分布:
从图表看数据在最初几个index(0到4)中频次较高,然后逐渐减少,这与指数分布的特点较为接近。
从index 之后的计数下降趋势不十分规律,但整体来看,频次有向下递减的趋势,因此可以认为与指数分布较为接近。
是否符合正态分布:
您的数据并没有呈现出对称的钟形曲线,频次高峰在初期,并没有出现均匀的对称下降趋势。
因此,数据不符合正态分布。
结论
根据您提供的分组结果,这组数据更符合指数分布的特点,因为:
数据在初期有较高的频率,然后逐步下降。
尽管下降的幅度有一些起伏,但整体上符合指数分布的单调递减特征。
这种分布通常用于描述事件之间的时间间隔,例如客户付款时间间隔的分布,短间隔时间发生的次数更多,随着时间间隔增加,频率逐渐减少。