一 直方图
1.如何构建直方图
将值的范围分段,将整个值的范围分成一系列间隔,然后计算每个间隔中有多少值。
2.直方图的适用场景
一般用横轴表示数据类型,纵轴表示分布情况。
直方图可以用于识别数据的分布模式和异常值,以及观察数据变化趋势和分布差异等。对于连续数据,直方图通常比较常用和直观。
对于离散数据,直方图并不是最佳的统计图形选择。需要使用其他形式的图表,如条形图、饼图、散点图等。
3.使用 plt.hist() 函数构建直方图
4.案例
每日利润额的数值分布。
二 折线图
1.折线图的适用场景
通常用于可视化连续变量的趋势,例如时间序列数据或某种变量随着另一个变量的变化而变化的情况。折线图通常对比较趋势和变化方面有较强的可视化效果,并且可以通过添加网格线和标签来使图表更易读。
折线图可以显示多个数据系列。每个系列都可以显示为一个单独的颜色或模式。所以折线图成为比较多个因素的趋势和模式的有用工具。
折线图通常使用一个坐标系来描述数据。通常,x轴表示时间或其他连续量,而y轴表示所观察到的变量的值。
折线图可以用于显示公司股票价格随时间的变化。在这种情况下,x轴表示时间轴,而y轴表示股票的价格。这个图表是连续的,每个点都表示股票在某个特定时间点的价格。
2.使用 plt.plot() 函数
3.案例
绘制企业每周的销售额折线图。
补充:
plt.plot(v1, v2):
v1作为x轴的数据,v2作为y轴的数据。
plt.xticks(fontproperties='Times New Roman', rotation=45, size=15):
fontproperties='Times New Roman'
:设置标签字体为Times New Roman。
rotation=45
:将标签旋转45度,避免长标签重叠。
size=15
:设置标签字号为15磅。
三 条形图
1.条形图的适用场景
通常用于可视化离散或分类数据,其中每个矩形代表一类或一项,并且该类别或项的长度与其相关联的数据值相对应。
在条形图中,X轴表示相应数据分类或项目,而Y轴表示数据量。水平条形图通常用于比较不同类别的数据大小
条形图是比较不同数据组之间的关系的有用工具。
条形图可以用于显示年度营业额的增长率。水平条形图中每个条形的宽度表示相应的年份,垂直条形图中每个条形的高度表示相应的增长率。使用不同颜色的条形来表示不同产品类型的销售额年度变化。
2.使用 plt.bar() 函数
3.案例
企业的产品销售往往会呈现区域性差异,绘制区域利润额的条形图。
四 饼图
1.饼图的适用场景
常用于表达相对比例,可以非常清晰地显示不同类别的项目在整体中的比例关系,特别是在用百分比展示数据时。
某企业在不同地区销售所涉及的比例关系。
2.使用 plt.pie() 函数
3.案例
为了研究该企业不同类型商品的销售额是否存在一定的差异,绘制了不同类型商品的饼图。
五 散点图
1.散点图的适用场景
是一种二维坐标图,用于表示两个变量之间的关系或相关性。它通常由两个数值变量(X和Y)组成。在散点图中,每个点的位置取决于相应的X和Y变量的值。
通常用于寻找变量之间的模式和关系,例如正相关、负相关或无关。发现数据集中是否存在异常样本或离群点,还可以展示可能存在的非线性关系等信息。检查数据中的模式和趋势,帮助我们揭示数据集中隐藏的信息,以及连续变量之间的关系。
可视化房屋面积和其价格之间的关系。X轴表示房屋的面积,Y轴表示房屋的价格。每个点代表一个房屋。我们可以通过散点图来检查面积和价格之间是否存在线性关系,以及是否存在异常房屋等离群值。
2.使用 plt.scatter() 函数
3.案例
补充:plt.grid(True)
plt.grid(True)
是 Matplotlib 中用于控制网格线显示的函数,True
参数表示在图表背景中添加水平和垂直的网格线。
六 箱形图
1.箱型图的适用场景
用于展示数据分布情况,通常用于比较多组数据之间的差异。
箱形图可以比较数据集之间的中位数、分位差以及异常值情况,揭示数据的整体分布特征。
箱形图可以显示对称性、分布形状和偏离情况。
使用箱形图比较两个产品的销售情况。箱子的顶部和底部代表数据的上限值和下限值,箱子的中线表示数据的中位数,箱子的长度代表数据的四分位距离,而箱外的小圆点则表示异常值。
箱形图由5个数值点组成:上边缘、上四分位数、中位数、下四分位数和下边缘。它们描绘了数据分布的整体情况,使用箱子来表示数据的四分位距,即下四分位数和上四分位数之间的距离。箱形图的异常值通常被表示为离群点。
2.使用 plt.boxplot() 函数
3.案例
为了客观地评价每个区域的业绩情况,绘制每个区域在2022年销售业绩情况的箱形图进行分析。
补充:
plt.boxplot([box1, box2, box3, box4, box5, box6], vert=False, showmeans=False,
showbox=True):
[box1, box2,...]
: 输入6个数据列表(每个列表代表一个箱线图的数据分布)。
vert=False
: 将箱线图水平放置(默认垂直)。
showmeans=False
: 不显示均值标记。
showbox=True
: 显示箱体(默认显示)。
plt.yticks([1, 2, 3, 4, 5, 6], ['东北', '中南', '华东', '华北', '西北', '西南']):自定义y轴刻度标签。
[1,2,3,4,5,6]
: 刻度位置(对应箱线图的y轴位置)。
['东北',...]
: 将6个位置分别标记为中国六大地理区域。