【SAS应用统计分析】数据的描述性统计分析

news2024/12/27 10:37:28

声明:本文知识参考内容来自网络,如有侵权请联系删除。本文还参照了B站up主庄7的课程内容【公开课】数据分析与SAS【15课】

目录

实验原理

描述性统计量

1.反映数据集中趋势的特征量

2.反映数据离散程度的特征量

3.反映数据分布形状的特征量

数据的图形描述

直方图

箱线图

茎叶图

实例分析

【means过程简介】

 MEANS过程的语句格式

语句说明

 【univariate过程简介】

proc univariate过程格式

 语句说明

实验步骤

步骤一

步骤二

步骤三

总结


实验原理

对数据集的描述性分析分为图形描述和描述性统计量。

描述性统计量

1.反映数据集中趋势的特征量

反映数据集中趋势的特征量有均值、众数、中位数和分位数

(1)均值:\overline{x} = \frac{1}{n}\sum_{i-1}^{n} x_i,它描述数据取的平均位置,但会受极端数值的影响;

(2)众数:数据中出现频数最多的值,它不受极端值的影响;

(3)分位数:设x_1x_2\cdotsx_n是容量为n的样本观测值,样本p分位数(0<p<1)记为x_p,它具有以下性质:

  • 至少有np个观测值不小于或等于x_p
  • 至少有n(1-p)个观念值大于或等于x_p               

2.反映数据离散程度的特征量

反映数据离散程度有方差、标准差、极差、变异系数和标准误差

(1)方差: s^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2};

(2)标准差:s=\sqrt{\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}};

(3)极差:R=x_{(n)}-x_{(1)}R=x_{\max }-x_{\min };

(4)四分位极差:Q_{v}=Q_{3}-Q_{1};

(5)变异系数:C_{v}=\frac{s}{\bar{x}} \times 100(\%);

(6)标准误差:s_{m}=\sqrt{\frac{1}{n(n-1)} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}=\frac{s}{\sqrt{n}};

3.反映数据分布形状的特征量

(1)偏度: g_{1}=\frac{n}{(n-1)(n-2)} \frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{3}}{s^{3}} , 它是描述数据分布的偏斜程度的特征量, 当 g_{1}>0 时, 分布为右偏;当  g_{1}=0时, 分布关于其均值对称, 不一定是绝对的对称分布;

g_{1}<0时,分布为左偏。

(2)峰度:g_{2}=\frac{n(n+1)}{(n-1)(n-2)(n-3)} \frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{4}}{s^{4}}-\frac{3(n-1)^{2}}{(n-2)(n-3)},它刻画分布的峰峭性。峰度的取值范围为[1,+\infty ],完全服从正态分布的数据的峰度值为 3,峰度值越大,概率分布越高尖,峰度值越小,越矮胖。一个分布的峰度:当g_2<0时,则标准化后的分布状态与标准正态分布相当;当g_2<0时,则标准化后的分布状态比标准正态分布更尖峭(高峰度)。

数据的图形描述

直方图

箱线图

箱线图是用来表示一组或多组连续型数据分布的中心位置散布范围的图形,因形似箱子故取名为箱线图。

箱子的中间一条线,是数据的中位数,代表了样本数据的平均水平。

 箱子的上下限,分别是数据的上四分位数和下四分位数。这意味着箱子包含了50%的数据。

箱子的高度在一定程度上反映了数据的波动程度。

在箱子的上方和下方,各有一条线。代表最大最小值,有时候会有一些点“冒出去”,可以理解成"异常值"
原文链接:(2条消息) 箱线图(boxplot)_SixdayNots的博客-CSDN博客

茎叶图

实例分析

例1:在做小麦育种时,调查了杂交后代的若干性状,选取其中一部分数据见实验一的表中,在表中例举了4个变量,即:株高、穗长、穗粒数和成熟早晚。分别用hop、loe、nog和fas代表上述四个变量,以成熟的早(e)、中(m)、晚(l)分类,分别计算株高与穗长的平均数、标准差和标准误差以及穗粒数的范围赫尔变异

例2:现有68个抽样数据 6.5 5.1 6.1 3.9 3.5 7.7 2.1 1.9 9.6 7.9 7.6 7.8 4.6 6.1 6.4 2.8 7.6 2.5 4.6 8.1 4.8 6.9 5.1 2.0 6.4 6.0 4.5 8.0 8.0 8.6 6.4 4.9 6.4 6.8 4.7 3.4 7.7 1.2 2.8 0.5 2.6 3.2 6.5 7.6 3.5 5.7 5.4 2.3 7.4 2.7 4.2 6.4 6.9 7.2 6.7 6.5 4.0 7.3 1.1 4.9 2.5 2.9 1.9 3.6 1.4 2.5 4.4 2.5要求计算此单变量数据的描述统计量,并分析此抽样数据的统计特征

【means过程简介】

 MEANS过程的语句格式

 

语句说明

 

 

 【univariate过程简介】

proc univariate过程格式

 

 语句说明

 

 

 

 

实验步骤

例1实验步骤

步骤一

建立一个外部数据文件xiaomai.dat,并且保存在“D:\SAS\sasdata\shiyan\xiaomai.dat”中

步骤二

用proc means过程计算描述统计量

options linesize=76;                                                                                                                    
data xiaomai;                                                                                                                           
        infile'D:\SAS\sasdata\shiyan\xiaomai.dat' ;                                                                                      
        input hop loe nog fas $;                                                                                                        
run;                                                                                                                                    
proc means maxdec=2 fw=8 max min mean std stderr;                                                                                       
        var hop loe;                                                                                                                    
        class fas;                                                                                                                      
proc means data=xiaomai range cv;                                                                                                       
        var nog;                                                                                                                        
        class fas;                                                                                                                      
run;

 程序的运行结果如下:

 

 

例2实验步骤

步骤三

用proc univariate过程计算描述统计量,并分析此抽样数据的统计特征

代码:

data aa03;     /*创建临时数据集aa03*/                                                                                                                         
input x @@;                                                                                                                             
cards;                                                                                                                                  
6.5 5.1 6.1 3.9 3.5 7.7 2.1 1.9 9.6 7.9 7.6 7.8 4.6 6.1 6.4                                                                             
 2.8 7.6 2.5?4.6 8.1 4.8 6.9 5.1 2.0 6.4 6.0 4.5 8.0 8.0 8.6                                                                            
 6.4 4.9 6.4 6.8 4.7 3.4 7.7 1.2 2.8 0.5 2.6 3.2 6.5 7.6 3.5                                                                            
 5.7 5.4 2.3 7.4 2.7 4.2 6.4 6.9 7.2 6.7 6.5 4.0 7.3 1.1 4.9                                                                            
 2.5 2.9 1.9 3.6 1.4 2.5?4.4 2.5                                                                                                        
;                                                                                                                                       
run;                                                                                                                                    
proc univariate data = aa03 plot normal;       /*调用univariate过程计算统计量,选项plot要求绘制茎叶图、箱线图和正态分布图,选项normal要求对抽样数据进行正态性检验*/                                                                                         
var x;                                                                                                                                  
run;

运行结果: 

 

 

 

 

总结

  • 掌握proc means过程和proc univariate过程计算基本统计量
  • 检验变量是否服从正态分布
  • 掌握建立外部数据文件并将外部数据文件转化为SAS数据集的方法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/472620.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JavaScript经典教程(六)-- JavaScript基础 -- Array常用方法详解

187-Array常用方法详解 1、Array - 数组 &#xff08;1&#xff09;两种声明方式 1、简化 2、以对象形式声明 var a [1 , 2 , 3]; var b new Array(1 , 2 , 3);a是b的简化&#xff0c;都是对象形式&#xff0c;但没有两个一样的对象。 3、用new声明数组时&#xff0c;如…

MySQL知识学习01

1、什么是关系型数据库? 顾名思义&#xff0c;关系型数据库&#xff08;RDBMS&#xff0c;Relational Database Management System&#xff09;就是一种建立在关系模型的基础上的数据库。关系模型表明了数据库中所存储的数据之间的联系&#xff08;一对一、一对多、多对多&am…

【LeetCode:64. 最小路径和 | 暴力递归=>记忆化搜索=>动态规划 】

&#x1f680; 算法题 &#x1f680; &#x1f332; 算法刷题专栏 | 面试必备算法 | 面试高频算法 &#x1f340; &#x1f332; 越难的东西,越要努力坚持&#xff0c;因为它具有很高的价值&#xff0c;算法就是这样✨ &#x1f332; 作者简介&#xff1a;硕风和炜&#xff0c;…

【QT5:CAN卡通信的上位机-加入示波器-界面优化与修饰+解析功能编写+进阶样例(2)】

【QT5:CAN卡通信的上位机-加入示波器-界面优化与修饰解析功能编写进阶样例2】 1、概述2、实验环境3、自我总结和提升4、事先声明5、效果展示6、功能代码部分的解析1&#xff09;自定义组合功能函数2&#xff09;数据解析部分3&#xff09;示波器接收部分 7、界面修饰部分1&…

NFT Insider #93:The Sandbox启动Mega City 3土地销售,YGG​与AlphaTitans合作

引言&#xff1a;NFT Insider由NFT收藏组织WHALE Members、BeepCrypto联合出品&#xff0c;浓缩每周NFT新闻&#xff0c;为大家带来关于NFT最全面、最新鲜、最有价值的讯息。每期周报将从NFT市场数据&#xff0c;艺术新闻类&#xff0c;游戏新闻类&#xff0c;虚拟世界类&#…

一文带你了解MySQL数据库Innodb_buffer_pool_size

前言 上篇文章介绍了MySQL中的存储引擎层主要负责数据的写入和读取&#xff0c;与底层的文件进行交互。MySQL在5.5 版本以后&#xff0c;MySQL默认存储引擎为 InnoDB&#xff0c;他的主要特性有&#xff1a; DML 操作(增、删、改)遵循 ACID(事务安全表) 模型&#xff0c;支持事…

【Linux从入门到精通】Linux常用基础指令(下)

本篇文章接上篇文章&#xff08;【Linux从入门到精通】Linux常用基础指令&#xff08;上&#xff09;、【Linux从入门到精通】Linux常用基础指令&#xff08;中&#xff09;&#xff09;进行详解。本章的指令相对没有那么常用&#xff0c;难度相对适中。同时也讲述了几个热键。…

编程式导航路由跳转到当前路由(参数不变),多次执行会抛出NavigatorDuplicated的禁告错误?

重写push与replace方法 编程式导航路由跳转到当前路由&#xff08;参数不变&#xff09;&#xff0c;多次执行会抛出NavigatorDuplicated的禁告错误&#xff1f; 路由跳转有俩种形式&#xff1a;声明式导航&#xff0c;编程式导航 声明式导航没有这类问题的&#xff0c;因为…

【精华】WiderPerson数据集介绍及标签转换(YOLO格式)

文章目录 &#xff08;1&#xff09;WiderPerson数据集详情<1> 应用项目<2> 数据集地址<3> 归属单位<4> 详细介绍<5> 数据下载及格式介绍 &#xff08;2&#xff09;WiderPerson转YOLO格式<1> 文件夹结构<2> 数据可视化<3> YO…

全国计算机等级三级网络技术试卷详解(三)

请点击↑关注、收藏&#xff0c;本博客免费为你获取精彩知识分享&#xff01;有惊喜哟&#xff01;&#xff01; 1.下列关于RPR技术的描述中&#xff0c;错误的是&#xff08;&#xff09;。 A) RPR与FDDI一样使用双环结构 B) 在RPR环中&#xff0c;源节点向目的节点成功发出…

JVM(Java虚拟机)

目录 1.JVM 简介 2. JVM 运行时数据区 2.1程序计数器 2.栈 3.堆 4.方法区 3.类加载 1.loading 2.linking 1.验证 2.准备 3.解析 3.Initializing 4.双亲委派模型 5.JVM垃圾回收机制 1.劣势 2.回收什么 3.垃圾回收具体怎么回收 1.找垃圾 方法: 问题: 2.释放…

4月JAVA面试太难,吃透这份JAVA架构面试笔记后,成功涨到30K

昨天跟一位高级架构师的前辈聊天时&#xff0c;聊到今年的面试。有两个感受&#xff0c;一个是今年面邀的次数比往年要低不少&#xff0c;再一个就是很多面试者准备明显不足。不少候选人能力其实不差&#xff0c;进入团队干活后达到期望不难&#xff0c;但由于没准备或不会表达…

快速响应 智慧应急|大势智慧亮相第三届武汉国际安全应急博览会

4月26日至4月28日&#xff0c;第三届武汉国际安全应急博览会&#xff08;后简称“应博会”&#xff09;在湖北武汉顺利举办。本次展会&#xff0c;大势智慧以实时三维重建能力为核心&#xff0c;提供各类应急场景的技术支撑&#xff0c;助力应急处置和救援等方面的应用。 展会…

基于AI技术的智能考试系统设计与实现(论文+源码)_kaic

摘 要 随着当今世界互联网信息技术的飞速发展&#xff0c;互联网在人们生活中的应用越来越广泛&#xff0c;在线考试成为选拔人才的重要方法。实现一个基于AI技术的智能考试系统&#xff0c;该系统采用Java编程语言实现。通过使用自然语言处理技术和机器学习算法&#xff0c;该…

【C++】入门

目录 1. 什么是C2. 命名空间2.1 命名空间的定义2.2 命名空间的使用 3. 输入和输出4. 缺省参数4.1 概念4.2 分类 5. 函数重载5.1 函数重载概念5.2 为什么支持函数重载 6. 引用6.1 概念6.2 特性6.3 常引用6.4 指针与引用的区别 7. 内联函数7.1 特性 1. 什么是C C语言是结构化和模…

【c语言】五大内存区域 | 堆区详解

创作不易&#xff0c;本篇文章如果帮助到了你&#xff0c;还请点赞支持一下♡>&#x16966;<)!! 主页专栏有更多知识&#xff0c;如有疑问欢迎大家指正讨论&#xff0c;共同进步&#xff01; 给大家跳段街舞感谢支持&#xff01;ጿ ኈ ቼ ዽ ጿ ኈ ቼ ዽ ጿ ኈ ቼ ዽ ጿ…

Paimon: Streaming data lake 数据湖项目的后起之秀

什么是Paimon? Paimon的官网介绍是&#xff1a;Streaming data lake platform with high-speed data ingestion, changelog tracking and efficient real-time analytics. Paimon 是流数据湖平台&#xff0c;具有高速数据摄取、变更日志跟踪和高效的实时分析能力 数据湖是大…

unity什么是曲线动画?

介绍 unity什么是曲线动画&#xff1f; 在Unity中&#xff0c;曲线动画&#xff08;Curve Animation&#xff09;是一种基于曲线的动画系统&#xff0c;它允许你通过在时间轴上编辑曲线来控制游戏对象的某个属性在时间上的变化。曲线动画可以用于很多方面&#xff0c;比如控制…

Linux套接字编程-2

在上一篇博客中&#xff0c;我们先对套接字编程的内容进行了一个简单涵盖&#xff0c;并详细陈述了UDP协议内容。本篇我们承接上文&#xff0c;讲述完UDP后&#xff0c;我们来讲解TCP。 目录 1.TCP协议 1.1通信两端流程 1.1.1服务端流程 1.1.2客户端流程 1.2套接字相关操…

LeCun、田渊栋参与撰写,70页「自监督学习」大全

来源 | 机器之心 微信号&#xff1a;almosthuman2014 「关于自监督学习&#xff0c;你想知道但又不敢问的一切都在这里了。」图灵奖得主、Meta 人工智能首席科学家 Yann LeCun 刚刚发了这样一则推文。 在推文中&#xff0c;LeCun 介绍了他和 Meta 人工智能研究院研究员、研究经…