声明:本文知识参考内容来自网络,如有侵权请联系删除。本文还参照了B站up主庄7的课程内容【公开课】数据分析与SAS【15课】
目录
实验原理
描述性统计量
1.反映数据集中趋势的特征量
2.反映数据离散程度的特征量
3.反映数据分布形状的特征量
数据的图形描述
直方图
箱线图
茎叶图
实例分析
【means过程简介】
MEANS过程的语句格式
语句说明
【univariate过程简介】
proc univariate过程格式
语句说明
实验步骤
步骤一
步骤二
步骤三
总结
实验原理
对数据集的描述性分析分为图形描述和描述性统计量。
描述性统计量
1.反映数据集中趋势的特征量
反映数据集中趋势的特征量有均值、众数、中位数和分位数
(1)均值:,它描述数据取的平均位置,但会受极端数值的影响;
(2)众数:数据中出现频数最多的值,它不受极端值的影响;
(3)分位数:设,,,是容量为n的样本观测值,样本p分位数(0<p<1)记为,它具有以下性质:
- 至少有np个观测值不小于或等于
- 至少有n(1-p)个观念值大于或等于
2.反映数据离散程度的特征量
反映数据离散程度有方差、标准差、极差、变异系数和标准误差
(1)方差: ;
(2)标准差:;
(3)极差:或;
(4)四分位极差:;
(5)变异系数:;
(6)标准误差:;
3.反映数据分布形状的特征量
(1)偏度: , 它是描述数据分布的偏斜程度的特征量, 当 时, 分布为右偏;当 时, 分布关于其均值对称, 不一定是绝对的对称分布;
当时,分布为左偏。
(2)峰度:,它刻画分布的峰峭性。峰度的取值范围为,完全服从正态分布的数据的峰度值为 3,峰度值越大,概率分布越高尖,峰度值越小,越矮胖。一个分布的峰度:当时,则标准化后的分布状态与标准正态分布相当;当时,则标准化后的分布状态比标准正态分布更尖峭(高峰度)。
数据的图形描述
直方图
箱线图
箱线图是用来表示一组或多组连续型数据分布的中心位置和散布范围的图形,因形似箱子故取名为箱线图。
箱子的中间一条线,是数据的中位数,代表了样本数据的平均水平。
箱子的上下限,分别是数据的上四分位数和下四分位数。这意味着箱子包含了50%的数据。
箱子的高度在一定程度上反映了数据的波动程度。
在箱子的上方和下方,各有一条线。代表最大最小值,有时候会有一些点“冒出去”,可以理解成"异常值"
原文链接:(2条消息) 箱线图(boxplot)_SixdayNots的博客-CSDN博客
茎叶图
实例分析
例1:在做小麦育种时,调查了杂交后代的若干性状,选取其中一部分数据见实验一的表中,在表中例举了4个变量,即:株高、穗长、穗粒数和成熟早晚。分别用hop、loe、nog和fas代表上述四个变量,以成熟的早(e)、中(m)、晚(l)分类,分别计算株高与穗长的平均数、标准差和标准误差以及穗粒数的范围赫尔变异
例2:现有68个抽样数据 6.5 5.1 6.1 3.9 3.5 7.7 2.1 1.9 9.6 7.9 7.6 7.8 4.6 6.1 6.4 2.8 7.6 2.5 4.6 8.1 4.8 6.9 5.1 2.0 6.4 6.0 4.5 8.0 8.0 8.6 6.4 4.9 6.4 6.8 4.7 3.4 7.7 1.2 2.8 0.5 2.6 3.2 6.5 7.6 3.5 5.7 5.4 2.3 7.4 2.7 4.2 6.4 6.9 7.2 6.7 6.5 4.0 7.3 1.1 4.9 2.5 2.9 1.9 3.6 1.4 2.5 4.4 2.5要求计算此单变量数据的描述统计量,并分析此抽样数据的统计特征
【means过程简介】
MEANS过程的语句格式
语句说明
【univariate过程简介】
proc univariate过程格式
语句说明
实验步骤
例1实验步骤
步骤一
建立一个外部数据文件xiaomai.dat,并且保存在“D:\SAS\sasdata\shiyan\xiaomai.dat”中
步骤二
用proc means过程计算描述统计量
options linesize=76;
data xiaomai;
infile'D:\SAS\sasdata\shiyan\xiaomai.dat' ;
input hop loe nog fas $;
run;
proc means maxdec=2 fw=8 max min mean std stderr;
var hop loe;
class fas;
proc means data=xiaomai range cv;
var nog;
class fas;
run;
程序的运行结果如下:
例2实验步骤
步骤三
用proc univariate过程计算描述统计量,并分析此抽样数据的统计特征
代码:
data aa03; /*创建临时数据集aa03*/
input x @@;
cards;
6.5 5.1 6.1 3.9 3.5 7.7 2.1 1.9 9.6 7.9 7.6 7.8 4.6 6.1 6.4
2.8 7.6 2.5?4.6 8.1 4.8 6.9 5.1 2.0 6.4 6.0 4.5 8.0 8.0 8.6
6.4 4.9 6.4 6.8 4.7 3.4 7.7 1.2 2.8 0.5 2.6 3.2 6.5 7.6 3.5
5.7 5.4 2.3 7.4 2.7 4.2 6.4 6.9 7.2 6.7 6.5 4.0 7.3 1.1 4.9
2.5 2.9 1.9 3.6 1.4 2.5?4.4 2.5
;
run;
proc univariate data = aa03 plot normal; /*调用univariate过程计算统计量,选项plot要求绘制茎叶图、箱线图和正态分布图,选项normal要求对抽样数据进行正态性检验*/
var x;
run;
运行结果:
总结
- 掌握proc means过程和proc univariate过程计算基本统计量
- 检验变量是否服从正态分布
- 掌握建立外部数据文件并将外部数据文件转化为SAS数据集的方法