基本数据统计分析上|集中位置统计量|分散程度统计量|分布形状统计量|常见概率分布

数据统计分析

现实生活中的许多数据都是随机产生的，如考试分数，月降雨量，灯泡寿命等。从统计角度来看，这些数据其实都是符合某种分布的，这种分布就是统计规律性
在数学建模过程中经常与数据打交道，需要进行数据统计分析

掌握基本的数据统计分析方法
能够对概率分布进行参数估计
进行简单的假设检验
熟悉Matlab的相关命令

基本统计量

基本统计量及其实现

基本概念

样本数据：从研究的对象(总体)X中得到的n个观测值
$x_{1},x_{2},\dots,x_{n}$
称为样本数据，简称数据，n称为样本容量
样本数据的统计量，能够提取数据中有价值的信息

数据分布的集中位置
数据分布的分散程度
数据分布的形状

集中位置统计量

集中位置(均值，中位数，分位数，三均值)

均值：描述数据取值的平均水平
$\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}$

样本均值使用了所有样本数据信息，准确性高
样本均值易受异常值的影响而不稳健

中位数：将原数据，按照从小到大顺序排列，中位数可定义为
$M=\left\{\begin{matrix} x_{\frac{n+1}{2}}\qquad n为奇数 \\ \frac{1}{2}\left( x_{\frac{n}{2}}+x_{(1+ \frac{n}{2})} \right)\qquad n为偶数 \end{matrix}\right.$
中位数能描述数据的中心位置

若数据的分布是对称的，则中位数与均值比较接近
若数据分布为偏态，则中位数与均值存在较大差异
中位数受异常值的影响较小，具有较好的稳健性

p分位数：
$M_{p}=\left\{\begin{matrix} x_{([np]+1)}\qquad np不是整数 \\ \frac{1}{2}\left( x_{(np)}+x_{(np+1)} \right)\qquad np是整数 \end{matrix}\right.$
其中， $[n p]$ 表示np的整数部分

p=0.5时， $M_{0.5}=M(中位数)$
实际应用中，0.75分位数与0.25分位数比较常用，分别称为上下四分位数，记作 $Q_{3},Q_{1}$
在描述数据集中位置的效果方面，均值使用了数据的全部信息，中位数只用了部分信息(位置信息)，因此通常情况下均值比中位数有效。当数据右异常值时，中位数比较稳健

三均值：
$\hat{M}=\frac{1}{4}M_{0.25}+\frac{1}{2}M_{0.5}+\frac{1}{4}M_{0.75}$
其中， $M_{p}$ 等于分位数

Matlab程序实现(集中位置)

均值命令mean：

m = mean(X)

其中，输入X为样本数据，输出m为样本均值
X如果是向量，m就是向量的均值；是矩阵，m就是每一列的均值，返回一个行向量

中位数命令：median：

md = median(X)

其中，输入X为样本数据，输出m为样本中位数

分位数命令prctile：

mp = prctile(X, P)

其中，输入X为样本数据，P为介于0至100间的整数，输出mp为P%分位数

三均值：

w = [0.25, 0.5, 0.75];      %输入权向量w
sm = w * prctile(X, [25;50;75]);  %计算X三均值

返回的是三个分位数组成的列向量，乘上w，得到三均值结果

例子

![[Pasted image 20240817173923.png]]
![[Pasted image 20240817173938.png]]

X = [53.93 50.98 15.48 256.00 65.41
	44.92 40.38 14.99 211.07 151.14
	148.19 145.54 17.10 842.09 677.52
	293.86 279.86 28.80 1238.01 10.5.67
	86.96 74.64 12.91 302.67 299.32
	791.50 680.96 77.80 3298.56 3252.88
	598.92 546.67 35.60 2291.09 2099.21];

m = mean(X);     %均值
md = median(X);  %中位数
w = [0.25, 0.5, 0.75];
sm = w * prctile(X, [25;50;75]);   %三均值
[m; md; sm]       %显示结果

![[Pasted image 20240817175050.png]]
![[Pasted image 20240817175108.png]]

分散程度统计量

分散程度(方差、标准差、变异系数、极差)

方差：描述数据取值的分散程度
$s^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}$
标准差：方差的算术平方根称为标准差
$s=\sqrt{ s^{2} }=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2} }$
标准化变换：
$\frac{x_{i}-\bar{x}}{s}$
变异系数：刻画数据相对分散性的指标
$v=\frac{s}{\bar{x}}，或，v=\frac{s}{|\bar{x}|}$
是相对量，相对于本身取值水平
极差：刻画数据取值变化的跨度
$R=x_{(n)}-x_{(1)}$

Matlab实现(分散程度)

方差命令var：

s = var(x)

其中，输入x为样本数据，输出s为样本方差

标准差命令std；

d = std(x)

其中，输入x为样本数据，输出d为样本标准差

变异系数实现命令：

v = std(x)./mean(x)，或，v = std(x)./abs(mean(x))

其中，输入x为样本数据，输出v为变异系数

极差命令：

r = range(x);或，r = max(x) - min(x)

其中，输入x为样本数据，输出r为样本极差

例子

![[Pasted image 20240817173938.png]]

X = [53.93 50.98 15.48 256.00 65.41
	44.92 40.38 14.99 211.07 151.14
	148.19 145.54 17.10 842.09 677.52
	293.86 279.86 28.80 1238.01 10.5.67
	86.96 74.64 12.91 302.67 299.32
	791.50 680.96 77.80 3298.56 3252.88
	598.92 546.67 35.60 2291.09 2099.21];

s = std(x);         %标准差
v = std(x)./abs(mean(x));    %变异系数
r = max(x) - min(x);         %极差
[s; v; r]           %显示结果

![[Pasted image 20240818071605.png]]
![[Pasted image 20240818071619.png]]

分布形状统计量

分布形状(偏度，峰度)

偏度：衡量分布的不对称程度或偏斜程度的指标
$p_{d}=\frac{\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})^{3}}{\left( \sqrt{ \frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2} } \right)^{2}}$

若 $p_{d}=0$ ，数据分布左右对称，众数，中位数和均值比较一致(正态分布的偏度 $p_{d}=0$ )
若 $p_{d}>0$ ，数据分布右偏态，(数据位于均值左边的比右边的多)
若 $p_{d}<0$ ，数据分布左偏态，(数据位于均值右边的比左边的多)

峰度：衡量数据分布尖峭程度和(或)尾部粗细程度的指标
$f_{d}=\frac{\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})^{4}}{\left( \sqrt{ \frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2} } \right)^{2}}$

正态分布的峰度 $f_{d}=3$
若 $f_{d}>3$ ，数据分布尖峭和(或)后尾
若 $f_{d}<3$ ，数据分布矮胖和(或)细尾

Matlab程序实现(偏度与峰度)

偏度命令skewness：

s = skewness(x)

其中，输入x为样本数据，输出s为样本偏度

峰度命令kurtosis：

k = kurtosis(x)

其中，输入x为样本数据，输出k为样本峰度

Matlab程序实现

rng('default')
x1 = normrnd(0, 1, 1, 100);  %生成标准正态分布1x100随机数
x2 = frnd(1, 5, 1, 100);     %生成F(1,5)分布1x100随机数
%偏度
s_n = skewness(x1)
s_f = skewness(x2)
%峰度
k_n = kurtosis(x1)
k_f = kurtosis(x2)

![[Pasted image 20240818081930.png]]

常见概率分布的实现

基础知识

连续型随机变量的概率密度函数 $p (x)$ ，满足
$p(x)>0,且,\int_{-\infty}^{\infty}p(x)=1$
由概率密度函数 $p (x)$ 可以定义概率分布函数
$F(x)=\int\limits_{-\infty}^{x}p(t)dt$

$F (x)$ 单调不减
$0\le F(x)\le 1$
$F(-\infty)=0,F(\infty)=1$

对应给定的 $F_{i}\in [0,1]$ ，求 $x_{i}$ 使得 $F(x_{i})=F_{i}$ ，即逆分布函数问题
$x_{i}=F^{-1}(F_{i})$
离散型随机变量的分布律，概率分布函数

常见概率分布函数及其实现

常见的几种概率分布
正态分布：norm
指数分布：exp
泊松分布：poiss
$\beta$ 分布：beta
weibull分布：weib
$x^{2}$ 分布：chi2
t分布：t
F分布：F

需要实现的几种函数功能
概率密度函数：pdf
概率分布函数：cdf
逆概率分布函数：inv
随机数生成函数：rnd

密度函数

正态分布 $N(mu, sigma^{2})$

p = normpdf(x, mu, sigma)

x，自变量
mu，均值
sigma，标准差
函数功能：求正态分布在x点处的概率密度函数值

例
画出正态分布 $N (0, 1)$ 和 $N(0, 2^{2})$ 的概率密度函数图形

x = -6:0.01:6;
y = normpdf(x);    %mu=0，sigma=1时可以省略
z = normpff(x, 0.2);
plot(x, y, 'b:', x, z, 'r-')

x，为-6到6的一个等差数列，公差是0.01
y，是x向量每一个点处的标准正态分布的概率密度函数值
z，是均值是0，标准差是2的，x向量每一个点处的正态分布的概率密度函数值
plot，可视化
![[Pasted image 20240818093048.png]]

概率分布函数

P = normcdf(x, mu, sigma)

函数功能：给定x，求概率 $P=P(X\le x)$

例
假设正态分布 $\sim N(0, 1)$ ，求概率 $P (- 1 < x < 1) = F (1) - F (* 1)$

P = normcdf(1) - normcdf(-1)

得P=0.6827

逆概率分布函数

x = norminv(P, mu, sigma)

函数功能：给定概率P，求x使得 $P(X\le x)=P$

例
求标准正态分布的上 $\alpha$ 分位点 $\mu_{a}(\alpha=0.05)$

u = norminv(1-0.05, 0, 1)

得u = 1.6449

随机数生成

x = normrnd(mu, sigma, m, n)

函数功能：生成mxn的服从 $N(mu, sigma^{2})$ 的随机数矩阵

例
产生2x3的服从正态分布 $N(1, 3^{2})$ 的随机数矩阵

x = normrnd(1, 3, 2, 3)

均值为1
标准差为3
生成2行3列对应的随机数矩阵
得

x = 
	0.3851 5.4691 5.2516
	0.6276 5.2271 3.0145

Matlab更多分布选择

'beta','bino','chi2','exp','ev','f','gam','gev',
'gp','geo','hyge','logn','nbin','ncf','nct','ncx2',
'norm','poiss','rayl','t','unif','unid','wbl'

随机分布函数功能的实现称为专用函数方式

通用函数方式实现

概率密度函数

pdf('name', x, param)

name，指定分布
x，自变量
param，分布对应的参数
函数功能：实现参数为param的name分布在x点的概率密度函数值

概率分布函数

cdf('name', x, param)

函数功能：实现参数为param的name分布在x点的概率分布函数值

逆概率分布函数

icdf('name', p, param)

函数功能：实现参数为param的name分布在p点的逆概率分布函数值

随机数生成函数

random('name', param, m, n)

函数功能：实现服从参数为param的name分布的随机数(mxn)