KNN（K-近邻）算法

news2026/2/13 7:58:22

1、概述

$\left( K-Nearest Neighbor \right)$ 是机器学习中最基础的算法之一。既可以用于分类也可以用于回归， $K NN$ 通过测量不同特征值之间的距离来进行分类。

在这里插入图片描述

如果 $k = 3$ ，绿色圆点的最近 $3$ 个邻居是 $2$ 个红色三角形和 $1$ 个蓝色正方形，少数服从多数，基于统计的方法，判定绿色的待分类点属于红色的三角形一类。
如果 $k = 5$ ，绿色圆点的最近 $5$ 个邻居是 $2$ 个红色三角形和 $3$ 个蓝色正方形，少数服从多数，基于统计的方法，判定绿色的待分类点属于蓝色正方形一类。

从上面的例子可以看出 $k$ 值是离当前待分类的点最近的 $k$ 个点， $k$ 的大小不同会影响最后的结果。

对于未知类别属性数据集中的点：

1.计算已知类别数据集中的点与当前点的距离
2.按照距离依次排序
3.选取与当前点距离最小的K个点
4.确定前K个点所在类别的出现概率
5.返回前K个点出现频率最高的类别作为当前点预测分类。

$K$ 值太大太小都不好，在实际工程实践中，我们一般采用交叉验证的方式选取 $K$ 值。一般 $K$ 值选得比较小，我们会在较小范围内选取 $K$ 值，同时把测试集上准确率最高的那个确定为最终的算法超参数 $K$ 。

样本空间内的两个点之间的距离量度表示两个样本点之间的相似程度：距离越短，表示相似程度越高；反之，相似程度越低。

常用的距离量度方式包括：

距离部分具体可以参考：https://zhuanlan.zhihu.com/p/405934860

$K NN$ 中的决策规则通常就是“投票选举”——少数服从多数的方式。

$K NN$ 算法本身简单有效，它是一种 $l a zy - l e a r nin g$ 算法。
分类器不需要使用训练集进行训练，训练时间复杂度为 $0$ 。
$K NN$ 分类的计算复杂度和训练集中的文档数目成正比，也就是说，如果训练集中文档总数为 $n$ ，那么 $K NN$ 的分类时间复杂度为 $O (n)$ 。