Python 数据可视化之密度散点图 Density Scatter Plot

news2024/10/7 20:27:09

🍉 CSDN 叶庭云https://yetingyun.blog.csdn.net/


密度散点图(Density Scatter Plot),也称为密度点图或核密度估计散点图,是一种数据可视化技术,主要用于展示大量数据点在二维平面上的分布情况。与传统散点图相比,它使用颜色或阴影来表示数据点的密度,从而更直观地展示数据的分布情况。密度散点图能更好地揭示数据的集中趋势和分布模式,尤其是在数据量非常大时,避免了散点图中点重叠导致的可视化混乱问题。

在这里插入图片描述

密度散点图涉及的基础概念:

  • 散点图(Scatter Plot):基础的二维数据表示形式,用于展示两个变量之间的关系。每个数据点的位置由这两个变量的值决定。当数据量庞大时,很多点会重叠在一起,使得无法清晰看到数据的分布。

  • 核密度估计(Kernel Density Estimation,KDE):一种用于估计随机变量概率密度函数的非参数方法。通过平滑处理来填补单独观测值之间的空白,从而生成一个连续的概率密度函数。KDE 通常涉及到选择一个核函数(如高斯核)和带宽(控制平滑程度的参数)。

  • 颜色编码:在密度散点图中,不同密度区域通常会使用不同颜色或深浅来表示,颜色深浅代表了该区域内数据点的密集程度。

可视化原理:

  • 数据映射:首先将每个数据点映射到二维平面上。这与普通散点图相同,这一步骤确定了每个点在图上的位置。

  • 密度估计:对所有数据点应用核密度估计算法。这一步骤是通过在每个数据点周围放置一个“核”,然后对整个数据集覆盖区域内所有核进行求和来完成的。结果是得到整个二维空间上每一位置的密度估计值。

  • 颜色映射:根据得到的密度估计值为不同区域分配颜色或深浅。高密度区域将被赋予更深或更鲜艳的颜色,而低密度区域则使用较浅或较淡的颜色。

  • 渲染显示:最后将带有颜色编码的二维平面呈现出来,形成最终的密度散点图。可选项:在绘制的密度散点图的右方或下方展示颜色条 colorbar。

为什么要用密度散点图?

  • 探索数据分布:通过颜色编码表示不同密度级别,密度散点图能够揭示出数据中可能隐含的各种模式、聚类或趋势。这对于探索性数据分析尤其有用,因为它可以帮助研究人员发现未被预见到的关系或行为模式。我们可以看到哪些区域有更密集的数据点,哪些区域相对稀疏。在处理包含上万个数据点的大型数据集时,传统散点图可能会导致严重的过度绘制(overplotting),即不同数据点在图表上的位置重叠,使得无法清晰地看到数据分布。密度散点图通过表示区域内数据点的相对密度来解决这个问题,从而提供了一种更清晰、更有效地理解数据分布的方式。
  • 优化视觉呈现:密度散点图通过采用渐变色或色阶映射等方法,帮助清晰地展示数据,相比传统散点图的混乱和模糊。这样可以更容易区分高密度和低密度区域,使整体呈现更美观、易于理解。高灵活性的密度散点图支持多种定制选项,比如调整颜色映射、透明度、标记大小等,以适应不同类型和规模的数据集。此外,还可以结合其他类型的可视化技术(比如轮廓线或网格)来增强表达能力。
  • 异常值检测:密度散点图可以帮助我们识别异常值。如果某个区域的密度远高于其他区域,那么可能存在异常值。
  • 聚类分析:密度散点图可以帮助我们发现数据的聚集区域。如果某个区域有较高的密度,那么这可能是一个数据聚类的中心。
  • 模型预测结果分析:密度散点图非常适合用于可视化观测值和拟合值的情况,能观察到模型预测的潜在偏移与合理性。
  • 促进决策制定:在商业智能、金融分析、生物统计等领域,了解和分析复杂数据集中的模式对于指导决策至关重要。密度散点图提供了一种直观方法来识别关键变量之间的关系和动态变化,从而帮助决策者基于深入洞察做出更加明智的选择。

总结来说,使用密度散点图在处理大规模和 / {/} /或复杂数据集时提供了一种极具价值的工具。它不仅能够有效解决过度绘制问题,还能揭示出隐藏在庞大数据背后的结构和模式,同时提供优雅且功能强大的视觉展示方式。无论是在科研、工业还是商业领域,掌握并应用这种技术都将极大地增强对数据的理解和利用能力。

下面讲解一个带拟合曲线的密度散点图的绘图示例

导入需要的依赖库:

import numpy as np
from numpy import polyfit, poly1d
import matplotlib as mpl
from matplotlib import cm
from matplotlib import ticker
from matplotlib import colors
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
from scipy.stats import gaussian_kde

绘制带拟合曲线的密度散点图的 Python 代码如下

# 固定 numpy 的随机种子
np.random.seed(2024)

# 构造二维数据 x 和 y
x = np.random.normal(loc=0.0, scale=1.0, size=1000)
y = x + np.random.normal(loc=0.1, scale=1.0, size=1000)

# 核密度估计
x_and_y = np.vstack([x, y])
kde = gaussian_kde(x_and_y)
z = kde(x_and_y)
idx = z.argsort()
x, y, z = x[idx], y[idx], z[idx]

is_cbar = True

# 创建图形和坐标轴
fig, ax = plt.subplots(figsize=(7, 4), dpi=150)

# cmap: bwr、Spectral_r、viridis_r、spring、gist_rainbow_r、RdBu_r
# 可设置的 colormaps - https://matplotlib.org/tutorials/colors/colormaps.html
my_cmap = "bwr"

# 绘制密度散点图
ax.scatter(x, y, c=z, cmap=my_cmap)

# 用 7 次多项式拟合,调用 poly1d 方法得到多项式系数。
y_fit = polyfit(x, y, 7)
y_fit_1d = np.poly1d(y_fit)
y_hat = np.polyval(y_fit, x)

# 计算相关系数和 R^2
print('Correlation coefficients:')
print(np.corrcoef(y_hat, y))
correlation = np.corrcoef(y_hat, y)[0, 1]
R_square = correlation ** 2
print("R^2:", R_square)

xtick = np.linspace(min(x), max(x), 1000)
# 拟合的多项式曲线
plt.plot(xtick, y_fit_1d(xtick), color="#FF0066", lw=2.2)

# 坐标轴刻度的数值使用 Latin Modern Math 字体
labels = ax.get_xticklabels() + ax.get_yticklabels()
[label.set_fontproperties(font_latex2) for label in labels]
[label.set_color('black') for label in labels]

# 设置坐标轴刻度
plt.tick_params(axis='x', direction='out', labelsize=13, length=4.6, width=1.15)
plt.tick_params(axis='y', direction='out', labelsize=13, length=4.6, width=1.15)

# 展示 X 和 Y 轴的子刻度
ax.xaxis.set_minor_locator(ticker.AutoMinorLocator())
ax.yaxis.set_minor_locator(ticker.AutoMinorLocator())

# 颜色条的设置:刻度、字体、字号等
if is_cbar:
    norm = colors.Normalize(vmin=np.min(z), vmax=np.max(z))
    cbar = plt.colorbar(cm.ScalarMappable(norm=norm, cmap=my_cmap), ax=ax)

    cbar.ax.set_ylabel("Density", fontproperties=font_latex2, labelpad=12)
    cbar.ax.tick_params(labelsize=12)

    labels = cbar.ax.get_xticklabels() + cbar.ax.get_yticklabels()
    [label.set_fontproperties(font_latex2) for label in labels]
    [label.set_color('black') for label in labels]
    
    tick_locator = ticker.MaxNLocator(nbins=8)
    cbar.locator = tick_locator
    cbar.update_ticks()

# 设置 X 轴和 Y 轴的刻度值范围
ax.set_xlim(left=-6, right=6.0000001)
ax.set_xticks(np.arange(-6, 6.000001, step=2.0))
ax.set_ylim(bottom=-6, top=6.0000001)
ax.set_yticks(np.arange(-6, 6.000001, step=2.0))

# 画图对象周围的框的加粗一点
lw = 1.25
ax.spines["right"].set_linewidth(lw)
ax.spines["left"].set_linewidth(lw)
ax.spines["top"].set_linewidth(lw)
ax.spines["bottom"].set_linewidth(lw)

# 设置 X 轴和 Y 轴的标签、字体、刻度和刻度标签在内的坐标轴边界框中的间距
plt.xlabel("X Label", fontproperties=font_latex1, labelpad=8)
plt.ylabel("Y Label", fontproperties=font_latex1, labelpad=8)

# 设置标题 字体 大小 以及距绘图对象的距离
plt.title("Python Matplotlib - Density Scatter Plot",
          fontproperties=font_latex2, pad=12
         )

# 文本的位置是根据数据坐标来确定的
ax.text(x=-5, y=4.5, s=r'$\ {R^2} = 0.522$', usetex=True,
        fontsize=14, fontweight="bold"
       )

# 显示网格  虚线和透明度
plt.grid(alpha=0.360, ls="--", which="major", color="#A9A9A9")
# 紧凑布局
plt.tight_layout()

plt.savefig("./Figures/密度散点图.png", dpi=300, bbox_inches="tight")
plt.show()

整体解释:这段代码首先导入了所需的库,然后生成了测试数据 x x x y y y实际应用还可能是真实值 y y y 和预测值 y ^ \hat y y^)。接着,它使用核密度估计(KDE)来计算数据的密度分布。之后,它绘制了一个密度散点图,并使用多项式拟合来生成一个曲线。最后,它计算了相关系数和 R 2 R^2 R2 值,并设置了各种图形属性,如坐标轴刻度、颜色条、网格等。最后,它将图像保存为一个 .png 文件并显示出来。

可视化结果如下所示

在这里插入图片描述


📚️ 参考链接:

  • 使用 Python 绘制散点密度图(用颜色标识密度)
  • 复现顶刊 RSE 散点密度验证图(附代码)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1459989.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ElementUI table表格组件实现双击编辑单元格失去焦点还原,支持多单元格

在使用ElementUI table表格组件时有时需要双击单元格显示编辑状态,失去焦点时还原表格显示。 实现思路: 在数据中增加isFocus:false.控制是否显示在table中用cell-dblclick双击方法 先看效果: 上源码:在表格模板中用scope.row…

【Linux】主机搭建 Linux服务器环境 笔记

目录 前言选择系统软件1. 用U盘装系统2. 安装 Centos7.93. 网络套件 应用软件1. ngnix2. 防火墙配置3. nodejs 后记 前言 过年买了个 mini 主机当玩具玩一下,这里记录下。 选择 已有主力机 (windows) 的情况下,使用过如下四种 Linux宿主环境。这里总…

数据结构-邻接链表

介绍 邻接矩阵是运用较多的一种储存图的方法,但如果一张网图边数较少,就会出现二维矩阵中大部分数据为0的情况,浪费储存空间 为了避免空间浪费,也可以采用数组与链表结合的方式来存储图 假设有这样一张图 我们可以先用一个数组…

关于本地docker启动xxl-job

之前通过github拉取xxl-job到本地启动,已经验证完了,主要要记住以下几个步骤: 1.拉取代码 GitHub地址:https://github.com/xuxueli/xxl-job Gitee地址:https://gitee.com/xuxueli0323/xxl-job 2.idea打开,找到tabl…

鸿蒙Next怎么升级,有便捷的方法?

早在2023年11月,市场上有自媒体博主表示,华为HarmonyOS NEXT的升级计划是2X年底到2X年初完成一亿部,2X年底完成三亿部。虽然该博主没有明确具体年份,但预计是2024年底2025年初升级一亿部HarmonyOS NEXT设备,2025年底完…

java数据结构与算法刷题-----LeetCode503. 下一个更大元素 II

java数据结构与算法刷题目录(剑指Offer、LeetCode、ACM)-----主目录-----持续更新(进不去说明我没写完):https://blog.csdn.net/grd_java/article/details/123063846 解题思路:时间复杂度和空间复杂度都是O(n) 此题是739题的衍生题…

2.19C语言学习

关于memset和0x3f int a[100]; memset(a,0x3f,sizeof(a) ); 0x3f0011 111163 C中int型变量所占的位数为4个字节,即32位 0x3f显然不是int型变量中单个字节的最大值,应该是0x7f0111 1111 B 那为什么要赋值0x3f: 作为无穷大使用 因为4个字节均…

python在flask中的请求数据“无限流”

文章目录 一、问题描述二、解决方案 一、问题描述 在flask请求中,有个需求是让调用方一直调接口,并立马返回,而接口方缓存请求,依次执行。 二、解决方案 from flask import Flask, request, jsonify from queue import Queue i…

找到包含两/三个平面坐标点的椭圆点集

直接上代码 import numpy as np def fit_ellipse(points:np.array None, extension_ratio: float 0.2, eccentricity: float 0.8, n_points: int 100):center np.mean(points, axis0)if points.shape[0] 2:axis_vector points[1] - points[0]distance np.linalg.norm(…

K8s ingress-nginx根据请求目录不同将请求转发到不同应用

K8s ingress-nginx根据请求目录不同将请求转发到不同应用 1. 起因 有小伙伴做实验想要实现以下需求: 输入www.pana.com/app1访问app1的svc 输入www.pana.com/app2访问app2的svc 2. 实验 2.1 Dockerfile 先准备Dockerfile FROM nginx:1.20ADD index.html /usr/share/ngin…

.net6 webapi log4net完整配置使用流程

前置&#xff1a;为项目安装如下两个依赖 1.创建文件夹cfgFile 2.创建log4net.Config <?xml version"1.0" encoding"utf-8" ?> <log4net><appender name"ConsoleAppender" type"log4net.Appender.ConsoleAppender"…

Sora给中国AI带来的真实变化

OpenAI的最新技术成果——文生视频模型Sora&#xff0c;在春节假期炸裂登场&#xff0c;令海内外的AI从业者、投资人彻夜难眠。 如果你还没有关注到这个新闻&#xff0c;简单介绍一下&#xff1a;Sora是OpenAI使用超大规模视频数据&#xff0c;训练出的一个通用视觉模型&#x…

搜索中关于稀疏检索和稠密向量检索的召回效果比较

不同检索方式说明 最近在做搜索召回提升相关的研究工作。对比了稀疏检索和稠密向量检索的效果。其中使用的搜索引擎为elasticsearch8.x版本。稀疏检索包括BM25的检索方式&#xff0c;以及es官方在8.8之后版本提供的稀疏向量模型的方式。稠密向量检索&#xff0c;是指借助机器学…

OAuth2.0 最简向导

本文是一篇关于OAuth2.0的启蒙教程&#xff0c;图文并茂&#xff0c;通俗易懂&#xff0c;力求用最简洁明了的方式向初学者解释OAuth2.0是什么。本文并不是冗杂难懂的长篇大论&#xff0c;一图胜千言&#xff0c;深入浅出OAuth2.0&#xff0c;知其然知其所以然。 参考文献 首…

python OpenCV:seamlessClone泊松融合

一、seamlessClone函数的用法 翻译 https://www.learnopencv.com/seamless-cloning-using-opencv-python-cpp/ def seamlessClone(src, dst, mask, p, flags, blendNone): # real signature unknown; restored from __doc__"""seamlessClone(src, dst, mask, …

使用C# Net6连接国产达梦数据库记录

达梦官网&#xff1a;http://www.dameng.com/ 1 下载达梦并进行安装 下载地址&#xff1a;官网首页——服务与合作——下载中心&#xff08;https://www.dameng.com/list_103.html&#xff09; 根据需要自行下载需要的版本&#xff0c;测试版本为&#xff1a;x86 win64 DM8版…

python3 flask 实现对config.yaml文件的内容的增删改查,并重启服务

config.yaml配置文件内容 功能就是userpass下的用户名和密码做增删改查&#xff0c;并重启hy2服务 auth:type: userpassuserpass:csdn: csdnlisten: :443 masquerade:proxy:rewriteHost: trueurl: https://www.bing.com/type: proxy tls:cert: /root/hyst*****马赛克******er…

先进电机技术——步进电机与伺服电机

一、步进电机 步进电机是一种特殊类型的电动机&#xff0c;它的工作方式是将输入的电脉冲信号转换成精确的机械运动——通常是转子的角位移或直线移动。每接收到一个电脉冲信号&#xff0c;步进电机内部的定子绕组按顺序通电&#xff0c;产生磁场变化&#xff0c;使得与之相互…

基于物联网智慧公厕的多功能城市智慧驿站

在现代城市发展中&#xff0c;智慧化已经成为了一个不可或缺的趋势。而多功能城市智慧驿站&#xff0c;作为智慧城市建设的一部分&#xff0c;以物联网智慧公厕为基础&#xff0c;集合了诸多功能于一身&#xff0c;成为了城市中不容忽视的存在。多功能城市智慧驿站也称为轻松的…

复高斯分布的随机变量的模方的分布

文章目录 复高斯分布的随机变量的模方的分布问题的源头矩阵服从复高斯分布向量服从复高斯分布 复高斯分布的随机变量的模方的分布 已知 X ∼ C N ( μ , Σ ) X \sim \mathcal{C N}(\boldsymbol{\mu}, \boldsymbol{\Sigma}) X∼CN(μ,Σ) 则 ∥ X ∥ 2 \|X\|^2 ∥X∥2的分布为…