统计学中箱型图的理解

news2024/10/3 6:34:56

一、箱形图的介绍

     箱形图又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况的统计图,因型状如箱子而得名。它是利用数据中的五个统计量:最小值、上四分位数、中位数、下四分位数与最大值来描述数据的一种统计图。

     箱形图主要是为了检测异常值,箱形图最大的优点就是不受异常值的影响,它能够直观地显示数据的异常值,分布的离散程度以及数据的对称性,同时也利于数据的清洗。

二、箱形图五要素

    箱型图五要素包括异常值、 上限、下限、上四分位(Q3)、下四分位(Q1)和中位数(Q2)。借助其它博主的例子,有有序序列一个test = c(1,2,3,4,5,6,7,8)来说明问题。

(1)中位数 
       中位数,即二分之一分位数,等于该样本中所有数值由小到大排列后第50%的数字。所以计算的方法就是将一组数据平均分成两份,取中间这个数。

       如果原始序列长度n是奇数,那么中位数所在位置是(n+1)/2;如果原始序列长度n是偶数,那么中位数所在位置是n/2,n/2+1,中位数的值等于这两个位置的数的算数平均数。

(2)下四分位数Q1
        强调一下,四分位数的求法,是将序列平均分成四份。等于该样本中所有数值由小到大排列后第25%(四分之一)的数字。具体的计算目前有(n+1)/4与(n-1)/4两种,一般使用(n+1)/4。有序序列一个test = c(1,2,3,4,5,6,7,8),通过summary(test)来获取test这个序列的中位数,上四分位数,下四分位数以及算数平均值。

        这个Q1=2.75是怎么计算出来的呢?首先序列长度n=8,(1+n)/4=2.25,这是什么意思呢?说明上四分位数在第2.25个位置数,实际上这个数是不存在的,但我们知道这个位置是在第2个数与第3个数之间的。只能假想从第2个数到第3个数之间是均匀分布的。那么第2.25个数就是第二个数*0.25+第三个数*0.75,即2*0.25+3*0.75=0.5+2.25=2.75。 

(3)上四分位数Q3

        四分位数的求法,是将序列平均分成四份。等于该样本中所有数值由小到大排列后第75%(四分之三)的数字,这个下四分位数所在位置计算方法同上,只不过是(1+n)/4*3=6.75,乘以这个3表示是四分之三的位置,这个6.75是个介于第六个位置与第七个位置之间的地方。对应的具体的值是0.75*6+0.25*7=6.25。

(4)上限

        上限是非异常范围内的最大值。首先要知道什么是四分位距如何计算的?四分位距(interquartile range, IQR),又称四分差。四分位距IQR=Q3-Q1,那么上限=Q3+1.5IQR

           IQR=Q3-Q1     本例中IQR=6.25-2.75=3.5

           上限=Q3+1.5IQR    本例中 上限=6.25+1.5*3.5=11.5   与剔除异常值后的极大值8,两者取最小值,所以本例中的上限即为 8 。

(5)下限

           下限是非异常范围内的最小值。下限=Q1-1.5IQR

           本例中    下限=6.25-1.5*3.5=1   剔除两个异常值后的极小值1,所以本例中的下限即为 1 。

(6)异常值

       在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(extreme outliers)。

三、箱型图的特征

(1)直观地观察到异常值,如果数据存在离群点,即位于上下边缘区域之外,以圆点的形式表示;
(2)当箱型图很短时,意味着很多数据多集中分布在很小的范围内;
(3)当箱型图很长时,意味着数据分布比较离散,数据间的差异比较大;
(4)当中位数接近底部时,说明大部分的数据值比较小;
(5)当中位数接近顶部时,说明大部分的数据值比较大;
(6)中位数所处的高低位置能反映数据的偏斜程度;
(7)如果上下虚线比较长,说明上下四分位数之外的数据变化比较大,整体数据的方差和标准偏差也比较大;
(8)箱型图的上下边缘并非最大值或最小值。

四、箱型图的缺点

(1)箱型图虽然能显示出数据的分布偏态,但是不能提供关于数据分布偏态和尾重程度的精确度量;

(2)对于批量较大的数据批,箱线图反映的形状信息更加模糊;

(3)用中位数代表总体平均水平有一定的局限性。

   所以,应用箱线图最好结合其它描述统计工具如均值、标准差、偏度、分布函数等来描述数据批的分布形状。
 

部分内容转自:一文看懂数据分析各种图形(箱型图、数据分布图、线性回归图、相关关系图)(阿里天池)-CSDN博客icon-default.png?t=N7T8https://blog.csdn.net/tangxianyu/article/details/124210558?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522169720098616800226549041%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=169720098616800226549041&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~baidu_landing_v2~default-4-124210558-null-null.nonecase&utm_term=%E7%AE%B1%E5%BD%A2%E5%9B%BE&spm=1018.2226.3001.4450

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1089188.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【MySQL入门到精通-黑马程序员】MySQL基础篇-函数

文章目录 前言一、字符串函数二、数值函数三、日期函数四、流程控制函数总结 前言 本专栏文章为观看黑马程序员《MySQL入门到精通》所做笔记,课程地址在这。如有侵权,立即删除。 函数 是指一段可以直接被另一段程序调用的程序或代码。 一、字符串函数 格…

C# AnimeGANv2 人像动漫化

效果 项目 下载 可执行程序exe下载 源码下载 其他 C# 人像卡通化 Onnx photo2cartoon-CSDN博客 C# AnimeGAN 漫画风格迁移 动漫风格迁移 图像卡通化 图像动漫化_天天代码码天天的博客-CSDN博客

复数的三角形式与指数形式

See https://blog.csdn.net/u011089570/article/details/102685877

C++ wpf自制软件打包安装更新源码实例

程序示例精选 C wpf自制软件打包安装更新源码实例 如需安装运行环境或远程调试,见文章底部个人QQ名片,由专业技术人员远程协助! 前言 这篇博客针对《C wpf自制软件打包安装更新源码实例》编写代码,代码整洁,规则&…

JAVA设计模式-工厂模式(Factory Pattern)

一.概念 我们在创建对象时不会对客户端直接暴露创建逻辑,而是 通过使用一个共同的接口根据不同的条件来指向具体想要创建的对象。 二.工厂模式优点 1.解耦 :把对象的创建和使用的过程分开 2.降低代码重复: 如果创建某个对象的过程都很复杂…

HTML基础入门02

目录 1.格式化标签 2.图片标签: img 3.超链接标签: a 4.综合案例: 展示博客2 5.表格标签 5.1基本使用 5.2合并单元格 6.列表标签 1.格式化标签 加粗:strong标签和b标签 倾斜:em标签和i标签 删除线:del标签和s标签 下划线:i…

结构体,位段!

目录 1.什么是位段? 别急!在下面第二点我和大家介绍。 2.位段的内存怎么分配? 还有一种情况就是两种类型夹杂在一起的位段 3.位段的跨平台问题 4.位段能干嘛?(应用) 5.位段的注意事项 1.什么是位段&…

MySQL 进阶笔记

😀😀😀创作不易,各位看官点赞收藏,在这里隆重感谢尚硅谷宋红康老师。, 文章目录 MySQL 进阶笔记1、Centos 环境安装 MySQL2、MySQL常用设置2.1、字符集设置2.2、SQL 大小写2.3、sql_mode 模式2.4、MySQL 数…

【OJ比赛日历】快周末了,不来一场比赛吗? #10.14-10.20 #13场

CompHub[1] 实时聚合多平台的数据类(Kaggle、天池…)和OJ类(Leetcode、牛客…)比赛。本账号会推送最新的比赛消息,欢迎关注! 以下信息仅供参考,以比赛官网为准 目录 2023-10-14(周六) #7场比赛2023-10-15…

分析Python爬虫设计

抖音作为一款火爆的短视频平台,每天都会产生大量的热传视频。想要了解这些热门内容背后的秘密吗?那么,你来对地方了!在本文中,我将与大家分享一个用Python设计的抖音视频热传内容分析爬虫。通过这个爬虫,你…

MS9708数模转换器可pin对pin兼容AD9708

MS9708/MS9710/MS9714 是一个 8-Bit/10-Bit/14-Bit 高速、低功耗 D/A 转换器。可pin对pin兼容AD9708。当采样速率达到 125MSPS 时,MS9708/MS9710/MS9714 也能提供优越的 AC 和 DC 性能。 MS9708/MS9710/MS9714 正常工作电压范围为2.7V ~ 5.5V,功耗低能很…

接口测试项目实战,充值接口+取现接口,资深测试带你一文打通...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 1、充值接口 首先…

代理IP在保护跨境商家网络安全中的重要作用

在当前全球化的背景下,跨境电商成为一种重要的商业模式,越来越多的商家涌入国际市场,商家们通过互联网平台将商品远销国外,但网络安全风险随之而来。跨境商家因为需要处理大量的在线交易和产品数据,如果未能对这些敏感…

Spark中的Driver、Executor、Stage、TaskSet、DAGScheduler等介绍

工作流程: Driver 创建 SparkSession 并将应用程序转化为执行计划,将作业划分为多个 Stage,并创建相应的 TaskSet。Driver 将 TaskSet 发送给 TaskScheduler 进行调度和执行。TaskScheduler 根据资源情况将任务分发给可用的 Executor 进程执…

KubeVela跨地域的多集群管理方案

随着公司全球化战略的布局,业务呈点状分布在亚太、美东、欧洲等多个地域,云原生kubevela在跨地域多集群管控方面也遇到网络上的互通问题。 在公司网络规划上只允许一个区域的一个VPC跟另一个区域的一个VPC打通,同区域不同机房的网络都可以打通的网络架构基础上,由于一个区…

深度学习系列51:hugging face加速库optimum

1. 普通模型 Optimum是huggingface transformers库的一个扩展包,用来提升模型在指定硬件上的训练和推理性能。Optimum支持多种硬件,不同硬件下的安卓方式如下: 如果是国内安装的话,记得加上-i https://pypi.tuna.tsinghua.edu.c…

五笔字根查询接口,五笔输入法数据

一、接口介绍 可对五笔字根口诀及五笔编码查询,希望能为您学习五笔输入法提供帮助。 二、功能体验 三、产品特点 四、API文档 4.1 五笔字根查询查询 4.1.1接入点说明 查询五笔字根。 4.1.2接口地址 http[s]://route.showapi.com/1861-1?showapi_appid替换自己的值&…

基于springboot实现校园博客系统项目【项目源码+论文说明】

基于springboot实现校园博客系统演示 摘要 随着现在网络的快速发展,网上管理系统也逐渐快速发展起来,网上管理模式很快融入到了许多网站的之中,随之就产生了“校园博客系统”,这样就让校园博客系统更加方便简单。 对于本校园博客…

linux中使用ps查看进程的所有线程

在 Linux 系统中&#xff0c;可以使用 ps 命令和 ps H 命令结合来查看进程的线程信息。ps 命令用于显示系统中当前运行的进程信息&#xff0c;而 ps H 命令则可以显示进程中的所有线程。 使用以下命令可以查看指定进程的所有线程信息&#xff1a; ps H -T <PID>将 替换…

vite+v3批量一次性引入本地图片(简单做法)

效果&#xff1a; 开发步骤&#xff1a; 在assets/fileTypes文件夹中将你需要的png图片导入&#xff0c;并使用文件类型来命名图片(如docx.png)使用import.meta.globEager将assets/fileTypes下所有的png图片引入通过遍历Object.keys(files)使用正则匹配出每个图片的名称&#…