3.2 分析特征间的关系
- 3.2.1 绘制散点图 scatter()
- 例子1:绘制2000-2017年各季度国民生产总值散点图
- 例子2:使用不同颜色不同形状的点,绘制2000-2017年各产业各季度国民生产总值散点图
- 3.2.2 绘制折线图 plot()
- 例子1:绘制2000-2017年各季度国民生产总值折线图
- 例子2:使用不同颜色不同形状的点,绘制2000-2017年各产业各季度国民生产总值折线图
- 3.2.3 任务实现
- 1、绘制2000-2017年各产业与各行业的国民生产总值散点图
- 2、绘制2000-2017年各产业与各行业的国民生产总值折线图
3.2.1 绘制散点图 scatter()
散点图(scatter diagram)又称为散点分布图,是以一个特征为横坐标,另一个特征为纵坐标,利用坐标点(散点)的分布形态反映特征间的统计关系的一种图形。
值是由点在图表中的位置表示,类别是由图表中的不同标记表示,通常用于比较跨类别的数据。
散点图可以提供两类关键信息。
(1)特征之间是否存在数值或者数量的关联趋势,关联趋势是线性的还是非线性的。
(2)如果某一个点或者某几个点偏离大多数点,那这些点就是离群值。通过散点图可以一目了然,从而可以进一步分析这些离群值是否在建模分析中产生很大的影响。
散点图通过散点的疏密程度和变化趋势表示两个特征的数量关系。如果有3个特征,若其中一个特征为类别型,散点图改变不同特征的点的形状或者颜色,即可了解两个数值型特征和这个类别型之间的关系。
pyplot中绘制散点图的函数为scatter,其使用语法如下:
scatter函数
matplotlib.pyplot.scatter(x, y, s=None, c=None, marker=None, alpha=None, **kwargs)
常用参数及说明如下表所示:
例子1:绘制2000-2017年各季度国民生产总值散点图
# 1、绘制2000-2017年各季度国民生产总值散点图
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = 'SimHei' # 设置中文显示
plt.rcParams['axes.unicode_minus'] = False
data = np.load('F:/书籍/Python数据分析与应用/37304_Python数据分析与应用_源代码和实验数据/
第3章/data/国民经济核算季度数据.npz',allow_pickle=True)
name = data['columns'] # 提取其中的columns,作为数据的标签
print("name:\n",name)
values = data['values'] # 提取其中的values数组,视为数据的存在位置
print("values:\n", values)
plt.figure(figsize = (8,7)) # 设置画布
plt.scatter(values[:,0],values[:,2],marker='o') # 绘制散点图
plt.xlabel('年份')
plt.ylabel('生产总值(亿元)')
plt.ylim((0,225000)) # 设置y轴范围
# 添加x轴刻度 --->1.添加刻度2.添加刻度的值,3.将值旋转45度
plt.xticks(range(0,70,4), values[range(0,70,4), 1], rotation=45)
plt.title('2000-2017各季度国民生产总值散点图')
plt.savefig('F:/书籍/Python数据分析与应用/自己实现/3.22000-2017各季度国民生产总值散点图.png')
plt.show()
例子2:使用不同颜色不同形状的点,绘制2000-2017年各产业各季度国民生产总值散点图
# 2、使用不同颜色不同形状的点,绘制2000-2017年各产业各季度国民生产总值散点图
plt.figure(figsize=(8,7)) #设置画布
# 绘制散点图1
plt.scatter(values[:,0], values[:,3], marker='o',c='red')
# 绘制散点图2
plt.scatter(values[:,0], values[:,4], marker='D',c='blue')
# 绘制散点图3
plt.scatter(values[:,0], values[:,5], marker='v',c='yellow')
plt.xlabel('年份') # 添加横轴标签
plt.ylabel('生产总值(亿元)') # 添加纵轴标签
plt.xticks(range(0,70,4),values[range(0,70,4),1], rotation=45)
plt.title("2000-2017年各产业各季度国民生产总值散点图")
plt.legend(['第一产业','第二产业', '第三产业']) # 添加图例
plt.savefig('F:/书籍/Python数据分析与应用/自己实现/2000-2017年各产业各季度国民生产总值散点图.png') # 保存
plt.show()
通过上图的颜色和形状的区别可以看出,第一产业增长平缓,第三产业呈现指数型增长,第二产业每年会根据季度呈现周期性波动。总体来看,各个产业都在持续增长中。
3.2.2 绘制折线图 plot()
折线图(line chart)是一种将数据点按照顺序连接起来的图形。可以看作是将散点图,按照x轴坐标顺序连接起来的图形。 折线图的主要功能是查看因变量y随着自变量x改变的趋势,最适合用于显示随时间(根据常用比例设置)而变化的连续数据。同时还可以看出数量的差异,增长趋势的变化。
pyplot中绘制折线图的函数为plot,其基本使用语法如下。
matplotlib.pyplot.plot(*args, **kwargs)
plot函数在官方文档的语法中只要求填入不定长参数,实际可以填入的主要参数主要如下:
其中,color参数的8种常用颜色的缩写如下表:
例子1:绘制2000-2017年各季度国民生产总值折线图
# 1、绘制2000-2017年各季度国民生产总值折线图
plt.figure(figsize = (8,7)) # 设置画布
plt.plot(values[:,0],values[:,2],color='m',linestyle='--',marker='o') # 绘制散点图
plt.xlabel('年份')
plt.ylabel('生产总值(亿元)')
plt.ylim((0,225000)) # 设置y轴范围
# 添加x轴刻度 --->1.添加刻度2.添加刻度的值,3.将值旋转45度
plt.xticks(range(0,70,4), values[range(0,70,4), 1], rotation=45)
plt.title('2000-2017各季度国民生产总值散点图')
plt.savefig('F:/书籍/Python数据分析与应用/自己实现/3.2.2000-2017各季度国民生产总值折线图.png')
plt.show()
plot函数一次可以接收多组数据,添加多条折线图,同时分别定义每条折线图的颜色、点的形状和类型,还可以将这三个参数连接在一起,用一个字符串表示。
例子2:使用不同颜色不同形状的点,绘制2000-2017年各产业各季度国民生产总值折线图
# 2、使用不同颜色不同形状的点,绘制2000-2017年各产业各季度国民生产总值折线图
plt.figure(figsize=(8,7)) #设置画布
# # 绘制折线图1
# plt.plot(values[:,0], values[:,3], 'bs-')
# # 绘制折线图2
# plt.plot(values[:,0], values[:,4], 'ro-')
# # 绘制折线图3
# plt.plot(values[:,0], values[:,5], 'gH-')
# plot函数一次可以接收多组数据,添加多条折线图
plt.plot(values[:,0], values[:,3], 'bs-',
values[:,0], values[:,4], 'ro-',
values[:,0], values[:,5], 'gH-' )
plt.xlabel('年份') # 添加横轴标签
plt.ylabel('生产总值(亿元)') # 添加纵轴标签
plt.xticks(range(0,70,4),values[range(0,70,4),1], rotation=45)
plt.title("2000-2017年各产业各季度国民生产总值散点图")
plt.legend(['第一产业','第二产业', '第三产业']) # 添加图例
plt.savefig('F:/书籍/Python数据分析与应用/自己实现/2000-2017年各产业各季度国民生产总值折线图.png') # 保存
plt.show()
3.2.3 任务实现
1、绘制2000-2017年各产业与各行业的国民生产总值散点图
国民生产总值数据包括三大产业的国民生产总值,以及农业、工业、建筑、批发、交通、餐饮、金融、房地产和其他行业各个季度的增加值。通过散点图分析三大行业的国民生产总值可以发现我国产业结构。通过比较各行业间季度的增加值则可以发现国民经济的主要贡献行业。此处分别使用两个子图绘制三大产业和细分行业各个季度的生产总值。
# 绘制2000-2017年各产业与行业的国民生产总值散点图
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = 'SimHei' # 设置中文显示
plt.rcParams['axes.unicode_minus'] = False
data = np.load('F:/书籍/Python数据分析与应用/37304_Python数据分析与应用_源代码和实验数据/第3章/data/国民经济核算季度数据.npz',
allow_pickle=True)
name = data['columns'] # 提取其中的columns,作为数据的标签
# print("name:\n",name)
values = data['values'] # 提取其中的values数组,视为数据的存在位置
# print("values:\n", values)
p = plt.figure(figsize=(12,12)) # 设置画布
# 子图1 三大产业
ax1 = p.add_subplot(2,1,1)
plt.scatter(values[:,0], values[:,3], marker='o',c='red') # 绘制散点图
plt.scatter(values[:,0], values[:,4], marker='D',c='blue')
plt.scatter(values[:,0], values[:,5], marker='v',c='yellow')
plt.ylabel('生产总值(亿元)')
plt.title('2000-2017年各产业与行业的国民生产总值散点图')
plt.legend(['第一产业','第二产业', '第三产业']) # 添加图例
# 子图2 各行业
ax2 = p.add_subplot(2,1,2)
plt.scatter(values[:,0], values[:,6], marker='o',c='r') # 绘制散点图
plt.scatter(values[:,0], values[:,7], marker='D',c='b')
plt.scatter(values[:,0], values[:,8], marker='v',c='y')
plt.scatter(values[:,0], values[:,9], marker='8',c='g')
plt.scatter(values[:,0], values[:,10], marker='p',c='c')
plt.scatter(values[:,0], values[:,11], marker='+',c='m')
plt.scatter(values[:,0], values[:,12], marker='s',c='k')
plt.scatter(values[:,0], values[:,13], marker='*',c='purple')
plt.scatter(values[:,0], values[:,14], marker='d',c='brown')
plt.legend(['农业','工业', '建筑业', '批发', '交通', '餐饮', '金融', '房地产', '其他']) # 添加图例
plt.xlabel('年份')
plt.ylabel('生产总值(亿元)')
# 添加x轴刻度 --->1.添加刻度2.添加刻度的值,3.将值旋转45度
plt.xticks(range(0,70,4), values[range(0,70,4), 1], rotation=45)
plt.savefig('F:/书籍/Python数据分析与应用/自己实现/3、2000-2017年各产业与行业的国民生产总值散点图.png')
plt.show()
可以看出,我国现阶段国民经济增长的主要动力是第三产业,其次是第二产业。从行业来看,工业、其他行业和农业对整体国民经济贡献度最大。
2、绘制2000-2017年各产业与各行业的国民生产总值折线图
通过绘制2000~2017年各产业与行业的国民生产总值折线图,分别能够发现我国经济各产业与各行业增长趋势。
绘制2000~2017年各产业与行业的国民生产总值折线图
# 2、绘制2000-2017年各产业与行业的国民生产总值折线图
p = plt.figure(figsize=(12,12)) # 设置画布
# 子图1 三大产业
ax1 = p.add_subplot(2,1,1)
plt.plot(values[:,0],values[:,3], 'r-',
values[:,0], values[:,4], 'b-.',
values[:,0], values[:,5], 'y--')
plt.ylabel('生产总值(亿元)')
plt.title('2000-2017年各产业与行业的国民生产总值散点图')
plt.legend(['第一产业','第二产业', '第三产业']) # 添加图例
# 子图2 各行业
ax2 = p.add_subplot(2,1,2)
plt.plot(values[:,0], values[:,6], 'r-',
values[:,0], values[:,7], 'b-.',
values[:,0], values[:,8], 'y--',
values[:,0], values[:,9], 'g:',
values[:,0], values[:,10], 'c-',
values[:,0], values[:,11], 'm-.',
values[:,0], values[:,12], 'k--',
values[:,0], values[:,13], 'r:',
values[:,0], values[:,14], 'b-')
plt.legend(['农业','工业', '建筑业', '批发', '交通', '餐饮', '金融', '房地产', '其他']) # 添加图例
plt.xlabel('年份')
plt.ylabel('生产总值(亿元)')
# 添加x轴刻度 --->1.添加刻度2.添加刻度的值,3.将值旋转45度
plt.xticks(range(0,70,4), values[range(0,70,4), 1], rotation=45)
plt.savefig('F:/书籍/Python数据分析与应用/自己实现/3、2000-2017年各产业与行业的国民生产总值散点图.png')
plt.show()
可以看出, 我国整体经济呈现增长趋势,其中第一产业增长相对较慢但是周期性最明显,农业的周期性和第一产业的周期性基本吻合。工业和第二产业的增长趋势基本一致。同时, 除了餐饮行业外,其他行业均呈现较为明显的增长趋势。