数据分析----IQR(Interquartile Range)四分位距的理解与应用及Python实现

news2024/11/15 9:26:38

【原文链接】数据分析----IQR(Interquartile Range)四分位距的理解与应用及Python实现

一、IQR(Interquartile Range)四分位距的含义

1.1 IQR的官方定义

IQR 是用于标记离群值的另一种稳健方法。用于检测离群值的 IQR(Interquartile Range,四分位距)方法由 John Tukey 开发,他是开创探索性数据分析的先锋人物。此方法产生于手工计算和绘图时代,因此涉及的数据集通常较小,并且重点放在理解数据的意义上。

盒须图使用四分位数(将数据划分为大小相等的四组点)来绘制数据的形状。盒子代表第 1 个和第 3 个四分位数,它们等于第 25 个和第 75 个百分点。盒子内的线代表第二个四分位数,即中间值。

四分位距(该离群值检测方法正是因此而得名)是第一个和第三个四分位数(盒子边缘)之间的间距。Tukey 认为,如果数据点比第一个四分位数低 1.5 乘 IQR,或比第三个四分位数高 1.5 乘 IQR,就属于离群或极度离群。在经典的盒须图中,须线一直延伸到界限内的最后一个数据点。

四分位距 (IQR) 是一种衡量变异性的方法,它通过将数据集划分为四分位数来实现。四分位数将一个按等级排序的数据集划分为四个相等的部分。即 Q1(第 1 个四分位数)、Q2(第 2 个四分位数)和 Q3(第 3 个四分位数)。IQR 定义为 Q3–Q1,位于 Q3+1.5IQR 或 Q1-1.5IQR 之外的数据被视为离群值。

1.2 IQR的通俗理解

IQR的官方定义相对来说显得晦涩了一点,这里简单的解释一下,通俗一点来说就是对一个数据列表从小到大排序,然后分为四份,四分之一位置的点为Q1,四份之二位置的点为Q2,四份之三位置的点为Q3,这样中间的位置点就是Q2,Q3和Q1之间的差为△,也就是IQR的值,然后计算有效数据的上限和下限,上限为Q2+1.5△,下限为Q2-1.5△,在(Q2-1.5△,Q2+1.5△)之外的数据则视为离散数据,即无效数据,假如我们有更大规模的数据需要过滤,就可以使用(Q2-1.5△,Q2+1.5△)范围进行有效数据筛选。

Python代码实现

用python实现当然可以一个一个循环去计算,但是python的numpy库提供了非常好用的封装函数,这里就不再去一个一个计算了,而是直接使用numpy库进行处理了,实现代码如下

import numpy as np

def get_iqr_data(datas):
    q1=np.quantile(datas,0.25)
    q2=np.median(datas)
    q3=np.quantile(datas,0.75)
    iqr=q3-q1
    down=q2-1.5*iqr
    up=q2+1.5*iqr
    return [q1,q2,q3,iqr,down,up]

if __name__=="__main__":
    x=[1,2,3,4,5,6,7,8,9,10,11]
    rs=get_iqr_data(x)
    print(rs)

执行结果如下,当然在执行之前需要却把安装了numpy,如果还没有安装可以直接使用pip install numpy 即可安装

[3.5, 6.0, 8.5, 5.0, -1.5, 13.5]

通过这里的执行结果可以看住,在数据列表 [1,2,3,4,5,6,7,8,9,10,11] 中,四分之一的点的数据为3.5,这是因为总共11个数,四分之一落在了两个数之间,四分之二的点恰好就是第6个数了,四分之三的点又落在了两个数据之间,所以是8.5,那么这里IQR就是q3-q1即5.0,通过公式计算此时有效范围为(-1.5,13.5),超出此范围的数据为无效数据

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/443033.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

解放你的双手:自动化文档整理

目录 引子: 应用场景: 源代码: 源代码说明: 效果如下所示: movefiletofolderbytype.py 引子: 例如,一个人可能会在计算机上存储大量的照片、视频和文档文件,这些文件可能散落在不同的文件夹中&#xf…

1678_计算机架构黄金时代_文章阅读

全部学习汇总: GreyZhang/g_risc_v: Learning notes about RISC V. (github.com) 看了一份几年前的文章,觉得还是挺有收获的,因此做一个简单的整理。 对于架构有很大影响的主要考虑四点:专用硬件的实现、高安全性的要求、开放指令…

原来这些功能才是blender大受欢迎的原因

作为全球最热门的免费开源3D创作套件,好用、易上手是Blender的公认优点。相比许多付费的三维软件来说,Blender在功能上是有过之无不及。除了在建模方面表现出色外,还提供了从模型雕刻、动画、材质、渲染、到音频处理、视频剪辑等一系列制作解…

Nature子刊:HPV改变阴道菌群的机制

​ 研究背景 人类乳头瘤病毒(HPV)是最常见的性传播感染,影响全球3亿人以上。 虽然大多数感染像得了场“感冒”一样被免疫系统清除,或保持在无症状或潜伏状态,但致癌(高危)HPV株(如最明显的HPV16和18型)会导致宫颈鳞状上皮内病变[低级别(LSIL…

MATLAB在逐渐被Python淘汰吗?

Python和MATLAB都是常用的科学计算工具,但是它们有很多不同之处。 Python是一种通用编程语言,而MATLAB主要是用来做数值计算的。Python的基本数据类型和一般的编程语言一样普遍,但是离开了Numpy这个包,就不再有数组或者矩阵的数据…

网络安全为什么缺人? 缺什么样的人

1.网络安全为什么缺人? 缺人的原因是有了新的需求。 以前的时候,所有企业是以产品为核心的,管你有啥漏洞,管你用户信息泄露不泄露,我只要做出来的产品火爆就行。 这一切随着《网络安全法》、《数据安全法》、《网络安全审查办法…

Blender插件Lazy Viewport

目录 1.Lazy Viewport插件1.1 解压Lazy Viewport插件1.2 blender偏好设置1.3 打开插件1.4 安装插件1.5 勾选插件Lazy Viewport1.6 安装插件前1.7 安装插件后 1.Lazy Viewport插件 Blender 的一个简单插件,用于将标准 G、R、S 热键映射到视图工具,因此您…

哪款无线洗地机最好用?好用的无线洗地机分享

洗地机是近几年来比较火的家庭清洁工具,我从推出以来就一直在使用,这些年下来也使用过不少品牌的洗地机,其中有好用的,也有体验一般的。今天为大家分享几款个人使用下来感觉还不错的洗地机。希望对于同样在选购洗地机的你有所帮助…

线程七大状态

线程生命周期(七大状态) 新建状态(New):当Java线程被创建时,它处于新建状态。此时,线程对象已被创建,但尚未启动。在这个状态下,线程并没有开始执行任何代码,…

[Java]监听器(Listener)

过滤器(Filter)https://blog.csdn.net/m0_71229255/article/details/130246404?spm1001.2014.3001.5501 一 : Listener监听器简述 监听器就是监听某个对象的的状态变化的组件 监听器的相关概念: 事件源: 被监听的对象 ----- 三…

Jenkins安装maven integration plugin以及jenkins安装allure插件失败的解决方法

这里写目录标题 一、Jenkins安装maven integration plugin失败解决方法(1)修改系统时间(2)查看当前操作系统时间(3)防止出错先执行命令(4)修改系统时间(5)写入…

Cocos Creator 源码解读:引擎启动与主循环

前言 本文基于 Cocos Creator 2.4.3 撰写。 Ready? 不知道你有没有想过,假如把游戏世界比作一辆汽车,那么这辆“汽车”是如何启动,又是如何持续运转的呢? 如题,本文的内容主要为 Cocos Creator 引擎的启动流程和主…

C# | 上位机开发新手指南(十一)压缩算法

上位机开发新手指南(十一)压缩算法 文章目录 上位机开发新手指南(十一)压缩算法前言压缩算法的分类从数据来源角度分类流式压缩块压缩 从是否需要建立字典角度分类字典压缩无字典压缩 流式压缩与块压缩流式压缩的优势与劣势优势劣…

各种开源协议介绍

世界上的开源许可证(Open Source License)大概有上百种,今天我们来介绍下几种我们常见的开源协议。大致有GPL、BSD、MIT、Mozilla、Apache和LGPL等。 Apache License Apache License(Apache许可证),是Apac…

O2OA (翱途) 平台 V8.0 即将亮相

亲爱的小伙伴们,O2OA (翱途) 平台开发团队经过几个月的持续努力,实现功能的新增、优化以及问题的修复。2023 年度 V8.0 版本将于近期正式发布。届时我们将会用文档或者视频的方式详细来介绍新增的功能和优化的亮点,欢迎大家一起来体验&#x…

在Vue中将单独一张图片设为背景图并充满整个屏幕

将单独一张图片设为背景图并充满整个屏幕 代码如下(在主div中添加样式) background: url("../xx/images/图片名字.jpg");//这里的地址是用你项目中图片所在的路径为准background-repeat: no-repeat;//将图片样式不重复background-size: 100% 100%; //设置图片大小po…

YOLOv8 更换主干网络之 PP-LCNet

《PP-LCNet: A Lightweight CPU Convlutional Neural Network》 论文地址:https://arxiv.org/abs/2109.15099 代码地址:https://github.com/ngnquan/PP-LCNet 我们提出了一种基于MKLDNN加速策略的轻量级CPU网络,名为PP LCNet,它提高了轻量级模型在多个任务上的性能。本文列…

13、DRF实战总结:重写DRF的to_representation和to_internal_value方法的作用详解(附源码)

DRF的to_representation和to_internal_value是序列化和反序列化过程中最核心的方法,它们分别用于将数据对象转换成字典,和将字典转换成数据对象。 DRF所有序列化器类都继承了BaseSerializer类,通过重写该类的to_representation()和to_intern…

Python ---->> PiP 的重要性

我的个人博客主页:如果’真能转义1️⃣说1️⃣的博客主页 关于Python基本语法学习---->可以参考我的这篇博客:《我在VScode学Python》 Python是一种跨平台的计算机程序设计语言,是一个高层次的结合了解释性、编译性、互动性和面向对象的语…

linux安装oracle

我系统为centos7,最小化安装的,需调用xshell图行化界面安装oracle** 前提准备 1、安装Xmanager,配置x11转发。 2、oracle下载地址 https://download.oracle.com 3、关闭selinux 临时关闭: setenforce 0 永久关闭 vim /et…