目录
1、散点图
2、随机数据分布
1、散点图
散点图是数据集中的每个值都由点表示的图
Matplotlib 模块有一种绘制散点图的方法,它需要两个长度相同的数组,一个数组用于 x 轴的值,另一个数组用于 y 轴的值
x = [5,7,8,7,2,17,2,9,4,11,12,9,6] y = [99,86,87,88,111,86,103,87,94,78,77,85,86]
x 数组代表每辆汽车的年龄
y 数组表示每个汽车的速度
需要注意的是,x数组中的每一个位置的值与y数组中的每一个位置值一一对应,也即5对应 99,其余以此类推
import matplotlib.pyplot as plt
x = [5,7,8,7,2,17,2,9,4,11,12,9,6]
y = [99,86,87,88,111,86,103,87,94,78,77,85,86]
plt.scatter(x, y)
plt.show()
下面是上面的代码运行结果,可以看到使用年限越长的车,速度越慢
2、随机数据分布
在机器学习中,数据集可以包含成千上万甚至数百万个值
测试算法时,我们可能没有真实的数据,此时必须使用随机生成的值
使用正态分布随机数生成函数numpy.random.normal()创建两个数组,它们都填充有来自正态数据分布的 1000 个随机数
第一个数组的平均值设置为 5.0,标准差为 1.0
第二个数组的平均值设置为 10.0,标准差为 2.0
代码如下
import numpy
import matplotlib.pyplot as plt
x = numpy.random.normal(5.0, 1.0, 1000)
y = numpy.random.normal(10.0, 2.0, 1000)
plt.scatter(x, y)
plt.show()
我们可以看到,点集中在 x 轴上的值 5 和 y 轴上的 10 周围
我们还可以看到,在 y 轴上扩散得比在 x 轴上更大