MATLAB数据统计描述和分析

news2024/9/25 9:40:31

描述性统计就是搜集、整理、加工和分析统计数据, 使之系统化、条理化,以显示出数据资料的趋势、特征和数量关系。它是统计推断的基础,实用性较强,在数学建模的数据描述部分经常使用。

目录

1.频数表和直方图

2 .统计量 

3.统计中几个重要的概率分布 

3.1正态分布 

3.2卡方分布 

3.3 t分布 

3.4 F分布 

3.5MATALB中的命令

4.正态总体统计量的分布 

5.参数估计 

5.1 点估计 

5.2 区间估计 

5.3 参数估计的 Matlab 实现

 6.假设检验

6.1 单个正态总体均值 μ 的检验

 6.2 方差已知,关于 μ 的检验( Z 检验)

6.3 方差未知,关于 μ 的检验(t 检验) 

6.4两个正态总体均值差的检验(t 检验)

 7.分布拟合检验


1.频数表和直方图

一组数据(样本)往往是杂乱无章的,做出它的频数表和直方图,可以看作是对这 组数据的一个初步整理和直观描述。 将数据的取值范围划分为若干个区间,然后统计这组数据在每个区间中出现的次 数,称为频数,由此得到一个频数表。以数据的取值为横坐标,频数为纵坐标,画出一 个阶梯形的图,称为直方图,或频数分布图。

作频数表及直方图 求频数用 hist 命令实现,其用法是:

[N,X] = hist(Y,M)

得到数组(行、列均可)Y 的频数表。它将区间[min(Y),max(Y)]等分为 M 份(缺省时 M 设定为 10),N 返回 M 个小区间的频数,X 返回 M 个小区间的中点。

示例:下图为身高和体重数据:

程序:

clc,clear;
load data.txt; 
high=data(:,1:2:9);
high=high(:); 
weight=data(:,2:2:10);
weight=weight(:); 
[n1,x1]=hist(high);
[n2,x2]=hist(weight);
subplot(1,2,1), hist(high); 
title('身高直方图')
subplot(1,2,2), hist(weight); 
title('体重直方图')

运行结果如下: 

clc,clear;
fid1 = ['aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggagg' ...  
        'cggaggacaaacgggatggcggtattggaggtggcggactgttcgggga' ...  
        'gggacggatacggattctggccacggacggaaaggaggacacggcggacataca' ...  
        'atggataacggaaacaaaccagacaaacttcggtagaaatacagaagctta' ...  
        'cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggc'];  
a = 0; b = 0; c = 0; d = 0; e = 0;    
for charIdx = 1:length(fid1)  
    currChar = fid1(charIdx);  
    if currChar == 'a'  
        a = a + 1;  
    elseif currChar == 'c'  
        b = b + 1;  
    elseif currChar == 'g'  
        c = c + 1;  
    elseif currChar == 't'  
        d = d + 1;  
    elseif currChar >= 'a' && currChar <= 'z'  
        e = e + 1; % 超出范围的个数 
    end  
end   
f = [a b c d e];  
he = sum(f);  
disp('a,c,g,t个数')
disp(f);  
disp('总个数')
disp(he);  
countsNames = {'a', 'c', 'g', 't'};
figure;   
bar(1:4, f(:,1:4));
set(gca, 'XTickLabel', countsNames);  
xlabel('字符'); 
ylabel('频数');
title('字符频数直方图'); 

2 .统计量 

假设有一个容量为n 的样本(即一组数据),需要对它进 行一定的加工,才能提出有用的信息,用作对总体(分布)参数的估计和检验。统计量反映样本数量特征的函数,它不含任何未知量。

下面我们介绍几种常用的统计量:

Matlab std(x)返回 x 的标准差,var(x)返回方差,range(x)返回极差 。

上述标准差被(n-1)除是因为方差的无偏估计,若需要改为被n 除,Matlab 可用 std(x,1)var(x,1)来实现。

峰度可以用作衡量偏离正态分布的尺度之一 。

Matlab 中 moment(x,order)返回 x order 阶中心矩,order 为中心矩的阶数。 skewness(x)返回 x 的偏度,kurtosis(x)返回峰度。

对上面给出的学生身高和体重数据,用 Matlab 计算以上统计量,程序如下:

clc 
load data.txt; 
high=data(:,1:2:9);high=high(:); 
weight=data(:,2:2:10);weight=weight(:);
shuju=[high weight]; 
jun_zhi=mean(shuju);
zhong_wei_shu=median(shuju); 
biao_zhun_cha=std(shuju) ;
ji_cha=range(shuju) ;
pian_du=skewness(shuju) ;
feng_du=kurtosis(shuju);
f=[jun_zhi zhong_wei_shu biao_zhun_cha ji_cha pian_du feng_du];
disp('均值、中位数、标准差、极差、偏度、峰度')
disp(f);  

3.统计中几个重要的概率分布 

3.1正态分布 

3.2卡方分布 

3.3 t分布 

3.4 F分布 

3.5MATALB中的命令

Matlab 统计工具箱中有 27 种概率分布,这里只对上面所述 4 种分布列出命令的字符:

norm 正态分布;

chi2 卡方分布;

t t 分布;

f F 分布;

工具箱对每一种分布都提供 5 类函数,其命令的字符是: pdf 概率密度; cdf 分布函数; inv 分布函数的反函数; stat 均值与方差; rnd 随机数生成 。

如下:生成标准正态分布和N(0,4)的正态分布,并画出图像程序:

clc;clear;
x=-6:0.01:6;
y=normpdf(x);
z=normpdf(x,0,2); 
plot(x,y,x,z),
gtext('N(0,1)'),gtext('N(0,2^2)') 

4.正态总体统计量的分布 

用样本来推断总体,需要知道样本统计量的分布,而样本又是一组与总体同分布的随机变量,所以样本统计量的分布依赖于总体的分布。当总体服从一般的分布时,求某个样本统计量的分布是很困难的,只有在总体服从正态分布时,一些重要的样本统计量 (均值、标准差)的分布才有便于使用的结果。另一方面,现实生活中需要进行统计推断的总体,多数可以认为服从(或近似服从)正态分布。

下面是用均值和标准差构造的几个常用分布:

5.参数估计 

5.1 点估计 

点估计是用样本统计量确定总体参数的一个数值。评价估计优劣的标准有无偏性、 最小方差性、有效性等,估计的方法有矩法、极大似然法等。

5.2 区间估计 

置信区间越小,估计的精度越高;置信水平越大,估计的可信程度越高。但是这两个指标显然是矛盾的, 通常是在一定的置信水平下使置信区间尽量小。通俗地说,区间估计给出了点估计的误 差范围。 

5.3 参数估计的 Matlab 实现

Matlab 统计工具箱中,有专门计算总体均值、标准差的点估计和区间估计的函数。 对于正态总体,命令是:

[mu,sigma,muci,sigmaci]=normfit(x,alpha)

其中 x 为样本(数组或矩阵),alpha 为显著性水平α (alpha 缺省时设定为 0.05),返 回总体均值 μ 和标准差σ 的点估计 mu 和 sigma,及总体均值 μ 和标准差σ 的区间估计 muci 和 sigmaci。当 x 为矩阵时,x 的每一列作为一个样本。

 6.假设检验

6.1 单个正态总体均值 μ 的检验

 6.2 方差已知,关于 μ 的检验( Z 检验)

在 Matlab 中 Z 检验法由函数 ztest 来实现,命令为 :

[h,p,ci]=ztest(x,mu,sigma,alpha,tail)

示例: 

x=[0.497 0.506 0.518 0.524 0.498... 
 0.511 0.520 0.515 0.512]; 
[h,p,ci]=ztest(x,0.5,0.015)

求得 h=1,p=0.0248,说明在 0.05 的水平下,可拒绝原假设,即认为这天包装机 工作不正常。 

6.3 方差未知,关于 μ 的检验(t 检验) 

 在 Matlab 中t 检验法由函数 ttest 来实现,命令为:

[h,p,ci]=ttest(x,mu,alpha,tail)

示例:

x=[159 280 101 212 224 379 179 264 ... 
 222 362 168 250 149 260 485 170]; 
[h,p,ci]=ttest(x,225,0.05,1)

求得 h=0,p=0.2570,说明在显著水平为 0.05 的情况下,不能拒绝原假设,认为元件的平均寿命不大于 225 小时。

6.4两个正态总体均值差的检验(t 检验)

还可以用t 检验法检验具有相同方差的 2 个正态总体均值差的假设。在 Matlab 中 由函数 ttest2 实现,命令为:

[h,p,ci]=ttest2(x,y,alpha,tail)

与上面的 ttest 相比,不同处只在于输入的是两个样本 x,y(长度不一定相同), 而不是一个样本和它的总体均值;tail 的用法与 ttest 相似。

示例:

x=[78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.6 76.7 77.3]; 
y=[79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1]; 
[h,p,ci]=ttest2(x,y,0.05,-1) 

求得 h=1,p=2.2126e-04。表明在α = 0.05 的显著水平下,可以拒绝原假设,即认为建议的新操作方法较原方法优。 

也可以做方差不相等的假设检验,使用格式为: h = ttest2(x,y,alpha,tail, 'unequal')

 7.分布拟合检验

在实际问题中,有时不能预知总体服从什么类型的分布,这时就需要根据样本来检 验关于分布的假设。

示例:

程序:

clc 
x=[141 148 132 138 154 142 150 146 155 158 ... 
150 140 147 148 144 150 149 145 149 158 ... 
143 141 144 144 126 140 144 142 141 140 ... 
145 135 147 146 141 136 140 146 142 137 ... 
148 154 137 139 143 140 131 143 141 149 ... 
148 135 148 152 143 144 141 143 147 146 ... 
150 132 142 142 143 153 149 146 149 138 ... 
142 149 142 137 134 144 146 147 140 142 ... 
140 137 152 145]; 
mm=minmax(x) 
hist(x,8) %画直方图
fi=[length(find(x<135)),... 
 length(find(x>=135&x<138)),... 
 length(find(x>=138&x<142)),... 
 length(find(x>=142&x<146)),... 
 length(find(x>=146&x<150)),... 
 length(find(x>=150&x<154)),... 
 length(find(x>=154))] %各区间上出现的频数
mu=mean(x),sigma=std(x) 
fendian=[135,138,142,146,150,154] %区间的分点
p0=normcdf(fendian,mu,sigma) 
p1=diff(p0) 
p=[p0(1),p1,1-p0(6)] 
chi=(fi-84*p).^2./(84*p) 
chisum=sum(chi);
x_a=chi2inv(0.9,4) %chi2分布的0.9分位数

 

求得皮尔逊统计量chisum= 2.2654,

故在 水平0.1下接受 H0 ,即认为数据来自正态分布总体。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1910080.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于智能座舱视觉DMS/OMS/RMS的简介

基于智能座舱视觉DMS/OMS/RMS的简介 引言 随着智能驾驶技术的迅猛发展&#xff0c;智能座舱逐渐成为汽车科技领域的热点话题。在智能座舱系统中&#xff0c;驾驶员监控系统&#xff08;DMS&#xff09;、乘员监控系统&#xff08;OMS&#xff09;以及舱室监控系统&#xff08;…

可视化作品集(10):智慧楼宇大屏,美学效果杠杠的。

追求颜值在智慧楼宇大屏设计中是非常重要的&#xff0c;可以帮助提升用户体验、品牌形象和信息传递效果&#xff0c;为大屏的实际应用和效果带来更多的积极影响。 1. 吸引眼球&#xff1a; 精美的设计和视觉效果可以吸引用户的注意力&#xff0c;让用户更愿意去关注和了解大屏…

scratch绘制四个三角形 2024年6月中国电子学会 图形化编程 scratch编程等级考试二级真题和答案解析

scratch绘制四个三角形 一、题目要求 2024年6月电子学会图形化编程Scratch等级考试二级真题 1、准备工作 1.保留默认角色小猫; 2.添加背景Stars。 2、功能实现 1 .隐藏角色小猫&#xff0c;设置画笔裙始位置为(0,0)&#xff0c;画笔颜色为黄色&#xff0c;画笔的粗细为5…

土壤品质检测仪:守护大地之母的科技卫士

土壤&#xff0c;作为地球生命之源&#xff0c;承载着万物的生长与繁衍。然而&#xff0c;随着现代农业的快速发展&#xff0c;土壤品质问题日益凸显&#xff0c;对农作物的生长和人们的健康构成了潜在威胁。 随着环保意识的增强和农业可持续发展的需求&#xff0c;土壤品质检测…

FreeRTOS——任务通知

一、任务通知 1.1 任务通知简介 任务通知&#xff1a;用来通知任务的&#xff0c;任务控制块中的结构体成员变量 ulNotifiedValue就是这个通知值 &#xff08;1&#xff09;使用队列、信号量、事件标志组时都需另外 创建一个结构体 &#xff0c;通过中间的结构体进行间接通信…

文华财经多空波段均线交易黄金分割线指标公式源码

文华财经多空波段均线交易黄金分割线指标公式源码&#xff1a; 多:EMA(C,3),COLORYELLOW; 空:EMA(C,5),COLOR00FF00; 均衡:EMA(空,5),COLORWHITE; VARF1:COUNT(CROSS(多,均衡),2)1; VARF2:COUNT(CROSS(空,均衡),2)1; ZAI:FILTER(VARF1 AND VARF2,2); DRAWTEXT(ZAI,均衡*…

浅谈VPS主机上的数据库性能优化

如何提高网站性能&#xff1f;一个显而易见的解决方案是升级托管账户。您的网站将拥有更多硬件资源&#xff0c;因此可以同时处理更多请求并更快地传递数据。 无论如何&#xff0c;人们都是这么认为的。但事实总是不一样。 现代网站是一个复杂的系统&#xff0c;包含许多必须…

迅狐抖音机构号授权矩阵系统源码

在数字化营销的浪潮中&#xff0c;抖音以其独特的短视频形式迅速崛起&#xff0c;成为品牌传播和用户互动的重要平台。迅狐抖音机构号授权矩阵系统源码作为一项创新技术&#xff0c;为品牌在抖音上的深度运营提供了强大支持。 迅狐抖音机构号授权矩阵系统源码简介 迅狐抖音机…

7/8 复盘

后端数据传输&#xff1f; 后端代码的耦合&#xff1a;打点调用、方法调用、接口、继承。 Dao、Service、servlet(controller)各层的作用&#xff1f; Dao负责与数据库交互&#xff0c;执行SQL语句&#xff0c;例如简单的增删改查等等。&#xff08;要创建对应的接口和实现类…

从RL的专业角度解惑 instruct GPT的目标函数

作为早期chatGPT背后的核心技术&#xff0c;instruct GPT一直被业界奉为里程碑式的著作。但是这篇论文关于RL的部分确写的非常模糊&#xff0c;几乎一笔带过。当我们去仔细审查它的目标函数的时候&#xff0c;心中不免有诸多困惑。特别是作者提到用PPO来做强化学习&#xff0c;…

企业为什么需要透明加密软件?5款透明加密软件推荐

透明加密技术&#xff08;Transparent Encryption&#xff09;是一种自动化的数据加密方法&#xff0c;旨在保护敏感数据不受未经授权的访问&#xff0c;而无需用户进行任何显式操作。 透明加密技术通常在操作系统或文件系统级别工作&#xff0c;实时加密和解密数据。这意味着…

RK3568------Openharmony 4.0-Release 浏览器部署安装

RK3568------Openharmony 4.0-Release 浏览器部署安装 文章目录 RK3568------Openharmony 4.0-Release 浏览器部署安装前言一、DevEco Studio开发工具安装与使用二、浏览器(Browser)样例代码编译三 、浏览器(Browser)部署四、遇到的问题五、效果展示总结 前言 上一篇文章讲解了…

AUTOSAR NM介绍

AUTOSAR NM介绍 NM简介 NM是Network Management的简称,是出于具体总线网络管理模块与ComM之间的适配层,为ComM提供所有总线网络管理的服务。在AUTOSAR BSW 层中,其上层是通信管理模块(ComM),下层是具体总线网络管理模块(如CanNm,J1939Nm,FrNm,LinNm,UdpNm等)。 为…

国内AI大模型技术深度解析与前沿应用探索

在人工智能的浪潮中&#xff0c;AI大模型正以其强大的数据处理能力和学习潜力&#xff0c;成为技术创新和产业升级的核心驱动力。本文将深入探讨国内AI大模型的技术特点、应用实践以及未来发展趋势。 技术架构与创新 国内AI大模型技术主要基于以下几个核心架构&#xff1a; T…

AI:助力开发者翱翔,而非抢夺其舞台

在当今这个科技飞速发展的时代&#xff0c;人工智能&#xff08;AI&#xff09;犹如一股春风&#xff0c;悄然渗透进全球各个行业&#xff0c;尤其在软件开发领域&#xff0c;其影响力日益显著。从初创企业到跨国巨头&#xff0c;无一不在积极探索AI如何重塑编程的面貌&#xf…

Resid核心问题总结(三)

什么是缓存击穿&#xff1f;该如何解决 缓存击穿是指一个Key非常热点&#xff0c;在不停的扛着大并发&#xff0c;大并发集中对这一个点进行访问&#xff0c;当这个Key在失效的瞬间&#xff0c;持续的大并发就穿破缓存&#xff0c;直接请求数据库&#xff0c;就像在一个完好无…

第三届图像处理、目标检测与跟踪国际学术会议(IPODT 2024,8月9-11)

第三届图像处理、目标检测与跟踪国际学术会议&#xff08;IPODT 2024&#xff09;将于2024年8月9-11日在中国南京召开。 本次会议旨在为全球的研究人员、工程师、学者和业界专家提供一个展示和讨论图像处理、目标检测与跟踪最新进展的平台&#xff0c;促进这些领域的科研与技术…

WebRTC群发消息API接口选型指南!怎么用?

WebRTC群发消息API接口安全性如何&#xff1f;API接口怎么优化&#xff1f; WebRTC技术在现代实时通信中占据了重要地位。对于需要实现群发消息功能的应用程序来说&#xff0c;选择合适的WebRTC群发消息API接口是至关重要的。AokSend将详细介绍WebRTC群发消息API接口的选型指南…

设置和取消Excel“打开密码”的3种方法

在日常工作中&#xff0c;Excel文件中常常包含敏感数据。为了防止未经授权的访问&#xff0c;给Excel文件设置打开密码是一个非常有效的方法。下面分享3种设置Excel打开密码的方法&#xff0c;以及如何取消这些密码。 先来看看设置Excel打开密码的3种方法。 方法一&#xff1…

PMP--计算--挣值分析

文章目录 挣值分析进度一、本质二、关键概念三、衍生概念四、练习 成本一、本质二、关键概念三、衍生概念 小结软考真题 预测技术深入理解一、概念二、填空大法真题1真题2真题3真题4 三、预测-二维图 真题真题1真题2 概念大全 挣值分析 是将范围、进度、成本整合起来进而客观测…