【Python】数据可视化之核密度

news2024/12/24 9:47:10

KDEPlot(Kernel Density Estimate Plot,核密度估计图)是seaborn库中一个用于数据可视化的函数,它基于核密度估计(KDE)这一非参数统计方法来估计数据的概率密度函数。KDEPlot能够直观地展示数据的分布特征,对于单变量和双变量数据均适用。

 

目录

基本思想

主要参数

沿轴绘制

平滑调整

多类绘制 

堆叠分布

二元分布


基本思想

核密度估计(Kernel Density Estimation, KDE)是一种用于估计随机变量概率密度函数的非参数方法。在统计学和概率论中,当我们不知道数据背后的确切分布形式时,核密度估计提供了一种灵活的方式来估计数据的分布形态。这种方法特别适用于小样本数据和复杂分布的情况。

核密度估计的基本思想是将每一个数据点看作是一个小型的、平滑的“核”函数(通常是正态分布、均匀分布或其他形式的对称、平滑函数)的中心,然后计算这些核函数在整个数据空间上的叠加结果。这个叠加的结果就是整个数据集的密度估计。

主要参数

  • data:要绘制的数据集,可以是一维数组(单变量)或二维数组/DataFrame(双变量)。
  • shade:是否在核密度曲线下绘制阴影,默认为True。阴影可以帮助更直观地展示数据的分布范围。
  • color:曲线的颜色,默认为绿色('g')。
  • hue :语义映射以确定绘图元素颜色的语义变量。
  • linewidth:曲线的宽度,默认为1。
  • bw(bandwidth):核密度估计的带宽,控制曲线的平滑程度。默认为'scott',即使用Scott的规则自动计算带宽。
  • bw_adjust : 平滑程度缩放的因子。增加将使曲线更平滑。
  • gridsize:用于计算核密度的网格大小,默认为100。增加此值可以提高图形的分辨率,但也会增加计算时间。
  • cumulative:是否绘制累积密度函数(CDF),默认为False。如果设置为True,则绘制的是数据的累积分布函数而非概率密度函数。
  • vertical:在单变量输入时有效,用于控制是否颠倒x-y轴位置,默认为False。
  • kernel:核密度估计的方法,默认为'gau'(高斯核)。特别地,在二维变量的情况下仅支持高斯核方法。
  • cmap:在绘制二维KDE图时使用的颜色映射(colormap),用于控制核密度区域的递进色彩方案。

沿轴绘制

沿x轴绘制单变量分布

tips = sns.load_dataset("tips")
sns.kdeplot(data=tips, x="total_bill", shade=True, color="g")

沿y轴绘制单变量分布

sns.kdeplot(data=tips, y="total_bill", shade=True, color="g")

平滑调整

使用更少的平滑

sns.kdeplot(data=tips, x="total_bill", bw_adjust=.1, shade=True, color="b")

使用更多的平滑(不绕过极端值)

ax= sns.kdeplot(data=tips, x="total_bill", bw_adjust=5, cut=0, shade=True, color="b")

 

 

多类绘制 

绘制多类或多列数据 

iris = sns.load_dataset("iris")
sns.kdeplot(data=iris, shade=True)

使用不同的调色 

iris = sns.load_dataset("iris")
sns.kdeplot(data=iris, shade=True, palette="crest")

 

堆叠分布

堆叠条件分布multiple="stack"

sns.kdeplot(data=tips, x="total_bill", hue="time", multiple="stack", palette="PRGn")

 

按照填充堆叠multiple="fill"

sns.kdeplot(data=tips, x="total_bill", hue="time", multiple="fill",palette="PRGn")

 

二元分布

绘制x,y的二元分布图

sns.kdeplot(data=geyser, x="waiting", y="duration")

使用 hue 语义映射以显示条件分布

geyser = sns.load_dataset("geyser")
sns.kdeplot(data=geyser, x="waiting", y="duration", hue="kind")

填空含语义映射的条件分布曲线 

geyser = sns.load_dataset("geyser")
sns.kdeplot(data=geyser, x="waiting", y="duration", hue="kind", shade=True, shade_lowest=False, cmap="crest")

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2120977.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

定点荧光标记蛋白:轻松搞定CAR-T阳性率检测

CAR-T细胞疗法在8月份提前进入“丰收季”。8月27日NMPA官网公示,**国内第五款CAR-T细胞疗法——来自传奇生物的西达基奥仑赛注射液获批上市。**这款靶向BCMA的细胞疗法用于治疗复发或难治性多发性骨髓瘤(R/R MM)成人患者。同一天,…

NDP协议是怎样帮助IPv6实现网络安全运行的?

在复杂多变的网络环境中,确保各节点之间能够高效、准确地发现与通信,是构建稳定、可扩展网络架构的基石。那么IPv6是依靠什么实现网络安全运行的呢?今天我将就IPv6中的一个重要协议——NDP协议的基本概念及工作原理展开深入分析。 NDP协议的基…

体育馆管理系统|基于SpingBoot+vue的体育馆管理系统(源码+数据库+文档)

体育馆管理系统 目录 基于SpingBootvue的体育馆管理系统 一、前言 二、系统设计 三、系统功能设计 系统功能实现 1登录 2学生管理页面 3系统主界面模块的实现 4器材管理模块的实现 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源…

ICM20948 DMP代码详解(11)

接前一篇文章:ICM20948 DMP代码详解(10) 上一回讲解完了icm20948_sensor_setup函数的第1段代码,本回继续往下解析。为了便于理解和回顾,再次贴出icm20948_sensor_setup函数源码,在EMD-App\src\ICM20948\sen…

一文讲清投影,定义投影,投影栅格……

正确的空间坐标系是进行地理分析和处理的基础,投影是其中十分重要的概念。在ArcGIS系列的软件中关于投影的工具有四个,分别是定义投影、投影、投影栅格、批量投影。 你能分清他们吗? 如果不能。别急,下面我来给你一一介绍。 定…

虚拟机卡死问题

升级VMware至15.1.0版本解决Windows 10 1903下VMware Workstation 15 Pro虚拟机死机问题 如题,在几乎全新的Windows 10 1903操作系统下,在VMware Workstation中安装虚拟机经常出现死机现象,主要表现在以下两个方面: 创建好虚拟机后…

【Qt】按钮样式--按钮内部布局(调整按钮文本和图标放置在任意位置)

要求: 有一个按钮,要求按钮的右下角显示开关,点击切换开关状态 ps:注意,要求你添加完了之后,整个按钮的点击区域不变(就是说,点击右下角的文本,也可以触发按钮的点击事件…

.net MAUI应用生命周期

.NET Multi-platform App UI (.NET MAUI) 应用通常有四种执行状态:“未运行”、“运行中”、“已停用”和“已停止”。 当应用从未运行状态转换为运行状态、从运行状态转换为已停用状态、从已停用状态转换为已停止状态、从已停止状态转换为运行状态,以及…

四七层如何获取客户端真实地址

7层代理会对报文进行重新封装,封装过程中可以通过增加XFF的header传递客户端IP。4层转发不会修改报文。在不修改HTTP报文前提下,前置补充代理信息, 格式: PROXY TCP 客户端IP 代理端IP 客户端端口 代理端端口。 nginx 七层代理配置: server …

JavaEE---Spring MVC(6)

如何创建一个spring项目呢 2. 3. 上述步骤结束后就ok了

PLM系统有哪些品牌推荐?国内不错的PLM厂商有哪些?

在当今快速变化的商业环境中,产品生命周期管理PLM系统已成为企业技术创新和管理创新的重要工具。PLM系统涵盖了产品从概念设计到市场推出、使用维护直至最终报废的整个生命周期,通过整合与产品相关的所有信息,助力企业实现高效、协同的产品开…

SuperMap GIS基础产品FAQ集锦(20240909)

一、SuperMap iDesktopX 问题1:镶嵌了一份550GB的DOM,双击加载到地图需要读取550GB的数据,耗时很久,加载到地图后一操作就需要再次读取,请问在不创建金字塔的情况下,如何把这份数据集保存到地图&#xff0…

【Hot100算法刷题集】哈希-03-最长连续序列(含排序、哈希、并查集法未正确使用哈希表导致算法效率降低的分析)

🏠关于专栏:专栏用于记录LeetCode中Hot100专题的所有题目 🎯每日努力一点点,技术变化看得见 题目转载 题目描述 🔒link->题目跳转链接 给定一个未排序的整数数组 nums ,找出数字连续的最长序列&#x…

记录一下linux安装nginx,也是很简单了啦

1、下载nginx 官网下载nginx:http://nginx.org/,这里很简单,下载自己想要的版本就行,这里不罗嗦 1、进入home目录,建一个文件夹nginx rootroot ~]# cd /home rootroot home]# mkdir nginx rootroot home]# cd /nginx2…

什么是智慧箱变动环辅控系统?箱式变电站动环监控@卓振思众

智慧箱变动环辅控系统是一种智能化的辅助控制系统,主要用于对箱变(箱式变电站)等设备的运行环境进行监测和控制。以下是【卓振思众】智慧箱变动环辅控系统的主要功能特点: 一、环境监测方面温度监测:实时监测箱变内的温…

C#编写上位机通过OPC DA读取西门子PLC数据

Sync_RW 引用:Quick.OpcComRcw 文档中原程序会报错: 原因:需要在安装有Simatic NET V14的电脑上运行这个程序。 需要注释掉下面程序,否则读取时会无故障提示退出。 //finally里的程序要注释掉,否则一点击read按钮&a…

招商银行信用卡中心编程练习题题解(全)

第一天 递归:LeetCode21.合并两个有序链表 /*** Definition for singly-linked list.* struct ListNode {* int val;* ListNode *next;* ListNode() : val(0), next(nullptr) {}* ListNode(int x) : val(x), next(nullptr) {}* ListNode(int x, ListNode…

掌握生成树 (STP、RSTP、MSTP) 最详细配置,轻松优化网络

目录 一. 实验内容 STP配置实验 RSTP配置实验 MSTP配置实验 二. 1 ) STP配置实验 实验拓扑 ​编辑 实验配置 实验结果 2 ) RSTP配置实验 实验拓扑 实验配置 实验结果 3 ) MSTP配置实验 实验拓扑 实验配置 ​编辑 实验结果 三 实验总结 一. 实验内容 1) …

齐齐哈尔医院系统等保测评,安全防护全面升级

随着数字化时代的到来,医疗系统的信息化建设日益重要。然而,随之而来的数据安全问题也成为了医疗机构必须面对的重大挑战。为了保障患者信息的安全以及整个医疗系统的稳定运行,齐齐哈尔市某医院近期进行了等保(等级保护&#xff0…

vue-router 之如何在模版(template)中获取路由配置信息?

vue-router 之如何在模版(template)中获取路由配置信息? 获取当前路由信息 在vue3 中,route通常使用useRoute()钩子获取的,**代表当前激活的路由信息。**它包含了与当前路由相关的数据,比如路径、参数、查…