一、K-近邻算法(KNN)
1、定义
KNN
K:就是一个自然数
N:nearest,最近的
N:neighbourhood,邻居
如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别
k = 1 容易受到异常点的影响
2、假设有一张北京地图,我不知道我在哪儿,目的是要知道我在北京的哪个区
这是一个分类问题
我不知道我在哪儿,但我知道我跟这几个人之间的距离,并且知道这5个人在哪个区
KNN核心思想:你的“邻居”来推断出你的类别
3、计算距离公式
两个样本的距离可以通过如下公式计算,又叫欧式距离
注意:二维空间则是d = sqrt((x2 - x1)^2 + (y2 - y1)^2)
其他距离公式:
曼哈顿距离—绝对值距离
闵可夫斯基距离
4、例子