数据分析-Pandas数据的探查蜂窝图

news2026/2/8 13:26:36

数据分析-Pandas数据的探查蜂窝图

数据分析和处理中，难免会遇到各种数据，那么数据呈现怎样的规律呢？不管金融数据，风控数据，营销数据等等，莫不如此。如何通过图示展示数据的规律？

数据表，时间序列数据在数据分析建模中很常见，例如天气预报，空气状态监测，股票交易等金融场景。数据分析过程中重新调整，重塑数据表是很重要的技巧，此处选择Titanic数据，以及巴黎、伦敦欧洲城市空气质量监测 $NO_2$ 数据作为样例。

数据分析

数据分析-Pandas如何转换产生新列

数据分析-Pandas如何统计数据概况

数据分析-Pandas如何轻松处理时间序列数据

数据分析-Pandas如何选择数据子集

数据分析-Pandas如何重塑数据表-CSDN博客

经典算法

经典算法-遗传算法的python实现

经典算法-模拟退火算法的python实现

经典算法-粒子群算法的python实现-CSDN博客

本文用到的样例数据：

Titanic数据

空气质量监测 $NO_2$ 数据

样例代码：

源代码参考 Pandas如何重塑数据表

源代码参考 python数据分析-数据表读写到pandas

导入关键模块

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

plt.close("all")

蜂窝图，就是六边形图，当很多时候用散点图表达比较密的时候，使用蜂窝图可能会比较清晰，也可以理解是一种关系的热度图。

探究数据点密度关系

该例使用随机生成数据来举例。

np.random.seed(36)

df = pd.DataFrame(np.random.randn(1000, 2), columns=["a", "b"])
df["b"] = df["b"] + np.arange(1000)
df.plot.hexbin(x="a", y="b", gridsize=25);
plt.figure();
df4.plot.hist(alpha=0.5);

在这里插入图片描述

gridsize是很好的参数，控制六边形的在水平轴的数量，其默认是100。

此外，还可以通过C，和recduce_C_function参数，指导每个位置的数值，和聚合函数可以是mean, max, sum, std等等。

df = pd.DataFrame(np.random.randn(1000, 2), columns=["a", "b"])
df["b"] = df["b"] + np.arange(1000)
df["z"] = np.random.uniform(0, 3, 1000)
df.plot.hexbin(x="a", y="b", C="z", reduce_C_function=np.max, gridsize=25);
plt.figure();

在这里插入图片描述

以上代码只是一个简单示例，示例代码中的表达式可以根据实际问题进行修改。

后面介绍下其他的展示形式。

df.plot.area     df.plot.barh     df.plot.density  df.plot.hist     df.plot.line 
df.plot.bar      df.plot.box      df.plot.hexbin   df.plot.kde      df.plot.pie
df.plot.scatter