基本数据统计分析上|集中位置统计量|分散程度统计量|分布形状统计量|常见概率分布

news2025/1/26 14:36:53
数据统计分析

现实生活中的许多数据都是随机产生的,如考试分数,月降雨量,灯泡寿命等。从统计角度来看,这些数据其实都是符合某种分布的,这种分布就是统计规律性
在数学建模过程中经常与数据打交道,需要进行数据统计分析

  1. 掌握基本的数据统计分析方法
  2. 能够对概率分布进行参数估计
  3. 进行简单的假设检验
  4. 熟悉Matlab的相关命令

基本统计量

基本统计量及其实现
基本概念

样本数据:从研究的对象(总体)X中得到的n个观测值
x 1 , x 2 , … , x n x_{1},x_{2},\dots,x_{n} x1,x2,,xn
称为样本数据,简称数据,n称为样本容量
样本数据的统计量,能够提取数据中有价值的信息

  • 数据分布的集中位置
  • 数据分布的分散程度
  • 数据分布的形状

集中位置统计量

集中位置(均值,中位数,分位数,三均值)

  1. 均值:描述数据取值的平均水平
    x ˉ = 1 n ∑ i = 1 n x i \bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i} xˉ=n1i=1nxi
  • 样本均值使用了所有样本数据信息,准确性高
  • 样本均值易受异常值的影响而不稳健
  1. 中位数:将原数据,按照从小到大顺序排列,中位数可定义为
    M = { x n + 1 2 n 为奇数 1 2 ( x n 2 + x ( 1 + n 2 ) ) n 为偶数 M=\left\{\begin{matrix} x_{\frac{n+1}{2}}\qquad n为奇数 \\ \frac{1}{2}\left( x_{\frac{n}{2}}+x_{(1+ \frac{n}{2})} \right)\qquad n为偶数 \end{matrix}\right. M={x2n+1n为奇数21(x2n+x(1+2n))n为偶数
    中位数能描述数据的中心位置
  • 若数据的分布是对称的,则中位数与均值比较接近
  • 若数据分布为偏态,则中位数与均值存在较大差异
  • 中位数受异常值的影响较小,具有较好的稳健性
  1. p分位数:
    M p = { x ( [ n p ] + 1 ) n p 不是整数 1 2 ( x ( n p ) + x ( n p + 1 ) ) n p 是整数 M_{p}=\left\{\begin{matrix} x_{([np]+1)}\qquad np不是整数 \\ \frac{1}{2}\left( x_{(np)}+x_{(np+1)} \right)\qquad np是整数 \end{matrix}\right. Mp={x([np]+1)np不是整数21(x(np)+x(np+1))np是整数
    其中, [ n p ] [np] [np]表示np的整数部分
  • p=0.5时, M 0.5 = M ( 中位数 ) M_{0.5}=M(中位数) M0.5=M(中位数)
  • 实际应用中,0.75分位数与0.25分位数比较常用,分别称为上下四分位数,记作 Q 3 , Q 1 Q_{3},Q_{1} Q3,Q1
  • 在描述数据集中位置的效果方面,均值使用了数据的全部信息,中位数只用了部分信息(位置信息),因此通常情况下均值比中位数有效。当数据右异常值时,中位数比较稳健
  1. 三均值:
    M ^ = 1 4 M 0.25 + 1 2 M 0.5 + 1 4 M 0.75 \hat{M}=\frac{1}{4}M_{0.25}+\frac{1}{2}M_{0.5}+\frac{1}{4}M_{0.75} M^=41M0.25+21M0.5+41M0.75
    其中, M p M_{p} Mp等于分位数
Matlab程序实现(集中位置)
  1. 均值命令mean:
m = mean(X)

其中,输入X为样本数据,输出m为样本均值
X如果是向量,m就是向量的均值;是矩阵,m就是每一列的均值,返回一个行向量

  1. 中位数命令:median:
md = median(X)

其中,输入X为样本数据,输出m为样本中位数

  1. 分位数命令prctile:
mp = prctile(X, P)

其中,输入X为样本数据,P为介于0至100间的整数,输出mp为P%分位数

  1. 三均值:
w = [0.25, 0.5, 0.75];      %输入权向量w
sm = w * prctile(X, [25;50;75]);  %计算X三均值

返回的是三个分位数组成的列向量,乘上w,得到三均值结果

例子

![[Pasted image 20240817173923.png]]
![[Pasted image 20240817173938.png]]

X = [53.93 50.98 15.48 256.00 65.41
	44.92 40.38 14.99 211.07 151.14
	148.19 145.54 17.10 842.09 677.52
	293.86 279.86 28.80 1238.01 10.5.67
	86.96 74.64 12.91 302.67 299.32
	791.50 680.96 77.80 3298.56 3252.88
	598.92 546.67 35.60 2291.09 2099.21];

m = mean(X);     %均值
md = median(X);  %中位数
w = [0.25, 0.5, 0.75];
sm = w * prctile(X, [25;50;75]);   %三均值
[m; md; sm]       %显示结果

![[Pasted image 20240817175050.png]]
![[Pasted image 20240817175108.png]]

分散程度统计量

分散程度(方差、标准差、变异系数、极差)

  1. 方差:描述数据取值的分散程度
    s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2} s2=n11i=1n(xixˉ)2

  2. 标准差:方差的算术平方根称为标准差
    s = s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s=\sqrt{ s^{2} }=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2} } s=s2 =n11i=1n(xixˉ)2
    标准化变换:
    x i − x ˉ s \frac{x_{i}-\bar{x}}{s} sxixˉ

  3. 变异系数:刻画数据相对分散性的指标
    v = s x ˉ ,或, v = s ∣ x ˉ ∣ v=\frac{s}{\bar{x}},或,v=\frac{s}{|\bar{x}|} v=xˉs,或,v=xˉs
    是相对量,相对于本身取值水平

  4. 极差:刻画数据取值变化的跨度
    R = x ( n ) − x ( 1 ) R=x_{(n)}-x_{(1)} R=x(n)x(1)

Matlab实现(分散程度)
  1. 方差命令var:
s = var(x)

其中,输入x为样本数据,输出s为样本方差

  1. 标准差命令std;
d = std(x)

其中,输入x为样本数据,输出d为样本标准差

  1. 变异系数实现命令:
v = std(x)./mean(x),或,v = std(x)./abs(mean(x))

其中,输入x为样本数据,输出v为变异系数

  1. 极差命令:
r = range(x);或,r = max(x) - min(x)

其中,输入x为样本数据,输出r为样本极差

例子

![[Pasted image 20240817173938.png]]

X = [53.93 50.98 15.48 256.00 65.41
	44.92 40.38 14.99 211.07 151.14
	148.19 145.54 17.10 842.09 677.52
	293.86 279.86 28.80 1238.01 10.5.67
	86.96 74.64 12.91 302.67 299.32
	791.50 680.96 77.80 3298.56 3252.88
	598.92 546.67 35.60 2291.09 2099.21];

s = std(x);         %标准差
v = std(x)./abs(mean(x));    %变异系数
r = max(x) - min(x);         %极差
[s; v; r]           %显示结果

![[Pasted image 20240818071605.png]]
![[Pasted image 20240818071619.png]]

分布形状统计量

分布形状(偏度,峰度)

  1. 偏度:衡量分布的不对称程度或偏斜程度的指标
    p d = 1 n ∑ i = 1 n ( x i − x ˉ ) 3 ( 1 n ∑ i = 1 n ( x i − x ˉ ) 2 ) 2 p_{d}=\frac{\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})^{3}}{\left( \sqrt{ \frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2} } \right)^{2}} pd=(n1i=1n(xixˉ)2 )2n1i=1n(xixˉ)3
    ![[Pasted image 20240818073054.png]]
  • p d = 0 p_{d}=0 pd=0,数据分布左右对称,众数,中位数和均值比较一致(正态分布的偏度 p d = 0 p_{d}=0 pd=0)
  • p d > 0 p_{d}>0 pd>0,数据分布右偏态,(数据位于均值左边的比右边的多)
  • p d < 0 p_{d}<0 pd<0,数据分布左偏态,(数据位于均值右边的比左边的多)
  1. 峰度:衡量数据分布尖峭程度和(或)尾部粗细程度的指标
    f d = 1 n ∑ i = 1 n ( x i − x ˉ ) 4 ( 1 n ∑ i = 1 n ( x i − x ˉ ) 2 ) 2 f_{d}=\frac{\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})^{4}}{\left( \sqrt{ \frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2} } \right)^{2}} fd=(n1i=1n(xixˉ)2 )2n1i=1n(xixˉ)4
    ![[Pasted image 20240818074750.png]]
  • 正态分布的峰度 f d = 3 f_{d}=3 fd=3
  • f d > 3 f_{d}>3 fd>3,数据分布尖峭和(或)后尾
  • f d < 3 f_{d}<3 fd<3,数据分布矮胖和(或)细尾
Matlab程序实现(偏度与峰度)
  1. 偏度命令skewness:
s = skewness(x)

其中,输入x为样本数据,输出s为样本偏度

  1. 峰度命令kurtosis:
k = kurtosis(x)

其中,输入x为样本数据,输出k为样本峰度

Matlab程序实现
rng('default')
x1 = normrnd(0, 1, 1, 100);  %生成标准正态分布1x100随机数
x2 = frnd(1, 5, 1, 100);     %生成F(1,5)分布1x100随机数
%偏度
s_n = skewness(x1)
s_f = skewness(x2)
%峰度
k_n = kurtosis(x1)
k_f = kurtosis(x2)

![[Pasted image 20240818081930.png]]

常见概率分布的实现

基础知识

连续型随机变量的概率密度函数 p ( x ) p(x) p(x),满足
p ( x ) > 0 , 且 , ∫ − ∞ ∞ p ( x ) = 1 p(x)>0,且,\int_{-\infty}^{\infty}p(x)=1 p(x)>0,,p(x)=1
由概率密度函数 p ( x ) p(x) p(x)可以定义概率分布函数
F ( x ) = ∫ − ∞ x p ( t ) d t F(x)=\int\limits_{-\infty}^{x}p(t)dt F(x)=xp(t)dt

  • F ( x ) F(x) F(x)单调不减
  • 0 ≤ F ( x ) ≤ 1 0\le F(x)\le 1 0F(x)1
  • F ( − ∞ ) = 0 , F ( ∞ ) = 1 F(-\infty)=0,F(\infty)=1 F()=0,F()=1

对应给定的 F i ∈ [ 0 , 1 ] F_{i}\in [0,1] Fi[0,1],求 x i x_{i} xi使得 F ( x i ) = F i F(x_{i})=F_{i} F(xi)=Fi,即逆分布函数问题
x i = F − 1 ( F i ) x_{i}=F^{-1}(F_{i}) xi=F1(Fi)
离散型随机变量的分布律,概率分布函数

常见概率分布函数及其实现

常见的几种概率分布
正态分布:norm
指数分布:exp
泊松分布:poiss
β \beta β分布:beta
weibull分布:weib
x 2 x^{2} x2分布:chi2
t分布:t
F分布:F

需要实现的几种函数功能
概率密度函数:pdf
概率分布函数:cdf
逆概率分布函数:inv
随机数生成函数:rnd

密度函数

正态分布 N ( m u , s i g m a 2 ) N(mu, sigma^{2}) N(mu,sigma2)

p = normpdf(x, mu, sigma)

x,自变量
mu,均值
sigma,标准差
函数功能:求正态分布在x点处的概率密度函数值


  • 画出正态分布 N ( 0 , 1 ) N(0, 1) N(0,1) N ( 0 , 2 2 ) N(0, 2^{2}) N(0,22)的概率密度函数图形
x = -6:0.01:6;
y = normpdf(x);    %mu=0,sigma=1时可以省略
z = normpff(x, 0.2);
plot(x, y, 'b:', x, z, 'r-')

x,为-6到6的一个等差数列,公差是0.01
y,是x向量每一个点处的标准正态分布的概率密度函数值
z,是均值是0,标准差是2的,x向量每一个点处的正态分布的概率密度函数值
plot,可视化
![[Pasted image 20240818093048.png]]

概率分布函数
P = normcdf(x, mu, sigma)

函数功能:给定x,求概率 P = P ( X ≤ x ) P=P(X\le x) P=P(Xx)


  • 假设正态分布 X ∼ N ( 0 , 1 ) X \sim N(0, 1) XN(0,1),求概率 P ( − 1 < x < 1 ) = F ( 1 ) − F ( ∗ 1 ) P(-1<x<1)=F(1)-F(*1) P(1<x<1)=F(1)F(1)
P = normcdf(1) - normcdf(-1)

得P=0.6827

逆概率分布函数
x = norminv(P, mu, sigma)

函数功能:给定概率P,求x使得 P ( X ≤ x ) = P P(X\le x)=P P(Xx)=P


  • 求标准正态分布的上 α \alpha α分位点 μ a ( α = 0.05 ) \mu_{a}(\alpha=0.05) μa(α=0.05)
u = norminv(1-0.05, 0, 1)

得u = 1.6449

随机数生成
x = normrnd(mu, sigma, m, n)

函数功能:生成mxn的服从 N ( m u , s i g m a 2 ) N(mu, sigma^{2}) N(mu,sigma2)的随机数矩阵


  • 产生2x3的服从正态分布 N ( 1 , 3 2 ) N(1, 3^{2}) N(1,32)的随机数矩阵
x = normrnd(1, 3, 2, 3)
  • 均值为1
  • 标准差为3
  • 生成2行3列对应的随机数矩阵
x = 
	0.3851 5.4691 5.2516
	0.6276 5.2271 3.0145
Matlab更多分布选择
'beta','bino','chi2','exp','ev','f','gam','gev',
'gp','geo','hyge','logn','nbin','ncf','nct','ncx2',
'norm','poiss','rayl','t','unif','unid','wbl'

随机分布函数功能的实现称为专用函数方式

通用函数方式实现

  1. 概率密度函数
pdf('name', x, param)

name,指定分布
x,自变量
param,分布对应的参数
函数功能:实现参数为param的name分布在x点的概率密度函数值

  1. 概率分布函数
cdf('name', x, param)

函数功能:实现参数为param的name分布在x点的概率分布函数值

  1. 逆概率分布函数
icdf('name', p, param)

函数功能:实现参数为param的name分布在p点的逆概率分布函数值

  1. 随机数生成函数
random('name', param, m, n)

函数功能:实现服从参数为param的name分布的随机数(mxn)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2050495.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【鸟哥的Linux私房菜(七)之文件IO】

文章目录 C语言文件IOC语言文件接口汇总什么是当前路径&#xff1f;默认打开的三个流 系统文件I/Oopenopen的第一个参数open的第二个参数open的第三个参数open的返回值 closewriteread 文件描述符fd文件描述符的分配规则重定向重定向的原理dup2添加重定向功能到minishell FILEF…

微乐校园pf

TOC springboot451微乐校园pf 绪论 1.1 研究背景 当前社会各行业领域竞争压力非常大&#xff0c;随着当前时代的信息化&#xff0c;科学化发展&#xff0c;让社会各行业领域都争相使用新的信息技术&#xff0c;对行业内的各种相关数据进行科学化&#xff0c;规范化管理。这…

vue3中引入插件报ts报错Could not find a declaration file for module

引入第三方组件时&#xff0c;下载了组件还是报ts错误Could not find a declaration file for module 解决办法 1. 下载这个插件的ts库&#xff08;有的没有ts库就用下面这种方式&#xff09; 2. 在src下创建一个shims-vue.d.ts文件&#xff08;简单直接&#xff0c;我用的这种…

DNS域名解析服务理论详解(域名结构、递归查询和迭代查询、CDN)

文章目录 DNS域名解析服务1.DNS系统的概念2.DNS系统的主要作用3.DNS的分布式数据结构和域名的结构4.DNS服务器类型4.1三种类型4.2分布式数据库4.3名词解释 5.CDN技术5.1CDN的基本原理5.2CDN的主要功能 6.DNS查询类型及原理6.1查询方式6.2查询原理过程6.3本地主机的DNS映射文件 …

基于Hadoop的物品租赁系统的设计与实现 9349a--论文

TOC springboot344基于Hadoop的物品租赁系统的设计与实现 9349a--论文 绪 论 1.1开发背景 随着网络的飞速发展&#xff0c;网络技术的应用越来越广泛&#xff0c;而信息技术的飞速发展&#xff0c;计算机管理系统的优势也逐渐体现出来&#xff0c;大量的计算机电子信息已经…

Python | 数据处理中常用的数据分布介绍

数据分布是指数据在统计图中的形状和特征&#xff0c;即数据取值的统计规律。在统计学中&#xff0c;数据分布是描述数据集中数值分布情况和规律的重要工具。通过数据分布&#xff0c;可以了解数据的集中程度、分散程度、偏态和峰态等信息&#xff0c;进而对数据进行合理的分析…

95后医疗行业女性转型记:如何成功踏入人工智能项目管理领域

分享目录 一、自我介绍&#xff0c;给大家分享一下拿到offer的心情吧 二、在整个求职转型陪跑营里&#xff0c;你收获最大的三个点是什么&#xff1f; 三、求职转行过程中&#xff0c;你遇到了哪些困难&#xff1f;七芊老师和强哥是怎么帮助你的&#xff1f;你是怎么走过来的…

Bellman_ford算法

使用Dijikstra算法求最短路问题&#xff0c;要求图中不能存在负长度的边&#xff0c;也就是负权边 为什么Dijikstra算法不能用来求含有负权边的图中的最短路问题&#xff1f; Bellman_ford算法 mention&#xff08;1&#xff09;&#xff1a; 没有挑选路径长度距离编号 1 结…

[Datawhale AI夏令营 2024 第四期] 从零入门大模型微调之旅的总结

0. 引言&#xff1a; 在人工智能飞速发展的今天&#xff0c;掌握大模型微调技能对于从事 AI 研究和开发的专业人士来说至关重要。因此&#xff0c;Datawhale AI夏令营 2024 第四期] 从零入门大模型微调之旅&#xff1b;顺便参加了星火大模型驱动阅读理解题库构建挑战赛。 1. …

XSS--DOM破坏案例与靶场

靶场连接https://xss.pwnfunction.com/challenges/ 目录 Ma SPaghet! Jeff Ugandan Knuckles Ricardo Milos Ah Thats Hawt Ligma Mafia Ok,Boomer Ma SPaghet! <!-- Challenge --> <h2 id"spaghet"></h2> <script>spaghet.innerHT…

【嵌入式开发 Linux 常用命令系列 4.5 -- 去除 git diff 时出现的 ^M】

请阅读【嵌入式及芯片开发学必备专栏】 文章目录 去除 git diff 时出现的 ^Mgit config --global core.whitespace cr-at-eol选项解释 为什么使用 cr-at-eol如何配置使用示例纠正行尾回车符Sumamry 去除 git diff 时出现的 ^M git config --global core.whitespace cr-at-eol …

day23 Java基础——数组详解

day23 Java基础——数组(array) 文章目录 day23 Java基础——数组(array)1. 数组的概述2. 数组的声明和创建2.1 声明数组2.2 创建数组2.3 内存分析2.4 数组的三种初始化静态初始化动态初始化数组的默认初始化 3. 数组的使用3.1 访问数组元素3.2 数组的遍历3.3 数组的复制3.4 数…

微服务通过nacos实现动态路由

♥️作者&#xff1a;小宋1021 &#x1f935;‍♂️个人主页&#xff1a;小宋1021主页 ♥️坚持分析平时学习到的项目以及学习到的软件开发知识&#xff0c;和大家一起努力呀&#xff01;&#xff01;&#xff01; &#x1f388;&#x1f388;加油&#xff01; 加油&#xff01…

08结构型设计模式——适配器模式

一、适配器模式简介 适配器模式&#xff08;Adapter Pattern&#xff09;是结构型设计模式之一&#xff0c;用于将一个类的接口转换成客户希望的另一个接口。这个模式使得原本接口不兼容的类可以在一起工作。适配器模式的核心目的是实现接口兼容性&#xff0c;使得系统能够使用…

C/C++软件逆向:IDA基本使用

这篇文章主要来说一下IDA的基本使用&#xff0c;那么在此之前先来准备一个简单的程序&#xff0c;作为IDA使用的实例。VS 创建一个C项目&#xff0c;并设置项目属性&#xff1a;设置运行库为MTd&#xff08;默认是MDd&#xff09; 运行库选项区别&#xff1a; 在Visual Studio…

Git使用速通

目录 一、Git相关配置系统配置文件存放处用户配置文件所在地用户名称和e-mail地址 二、初始化仓库git init——初始化仓库git status——查看仓库的状态git add——向暂存区中添加文件git commit——保存仓库的历史记录 三、版本回退与文件修改git log——查看提交日志git refl…

基于Java的线上售楼系统的设计与实现(论文+源码)_kaic

摘 要 现代化的线上售楼管理正在逐渐成为现代社会的重要需求&#xff0c;而目前的线上售楼由于存在管理不规范等缺点&#xff0c;严重制约了楼房和房地产公司的发展&#xff0c;建设一个更加规范化的线上售楼系统是十分迫切需要的。为此&#xff0c;使用Java语言&#xff0c;S…

leetCode - - - 双指针

目录 1.寻找重复数&#xff08;LeetCode 287&#xff09; 解法一&#xff1a;二分查找 解法二&#xff1a;快慢指针 2.验证回文串&#xff08;LeetCode 125&#xff09; 3.三数之和&#xff08;LeetCode 15&#xff09; 4.四数之和&#xff08;LeetCode 18&#xff09; …

Unity 麦扣 x 勇士传说 全解析 之 怪物基类与野猪(附各模块知识的链接,零基础也包学会的牢弟)(案例难度:★★☆☆☆)

通过一阵子的学习&#xff0c;我是这么认为的&#xff0c;因为该教程是难度两星的教程 &#xff0c;也就是适合学了一阵子基础组件以后的学习者 &#xff08;什么都不会的学习者要是学这套课程会困难重重&#xff0c;如果你什么都不会那么需要学习一星教程&#xff09; 所以该…

基于asp.net的webform框架的校园点餐系统源码

今天给大家分享一套基于asp.net的webform框架的网页点餐系统&#xff0c;适合课程设计参考及其自己学习&#xff0c;需要的小伙伴自己参考下&#xff0c;下载链接我放在后面了 主要功功能 系统的主要功能包含&#xff1a;前端点餐页面、加入购物车、商品食物浏览、我的购 物车…