机器学习——用KNN解决非线性回归问题

news2025/4/9 4:09:14

问：k最近邻分类模型是非线性模型。

答：正确。k最近邻分类模型是非线性模型，因为它的决策边界是由最近邻居点的类别决定的，而最近邻居点的分布通常是不规则的，因此决策边界也就不是线性的。因此，k最近邻分类模型是一种非参数化的方法，它能够适应各种复杂的数据集，并且不需要预先假设数据的分布形式。

最近有一批数据，通过4个特征来预测1个值，原来用线性回归和神经网络尝试过，准确率只能到40%左右。用KNN结合网格搜索和交叉验证，正确率达到了79%，没错，KNN解决回归问题也很赞。

问：已知五维空间中的两个点分别为（2，4，5，3，7）和（1，3，5，4，2），试计算这两个点的曼哈顿距离、欧几里得距离和切比雪夫距离。

答：

一、什么是KNN

KNN 算法，或者称 k-最近邻算法，是 有监督学习 中的 分类算法 。它可以用于分类或回归问题，但它通常用作分类算法。KNN就是K近邻算法（k-NearestNeighbor），所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。

二、KNN 核心思想

KNN 的原理就是：当预测一个新样本的类别时，根据它距离最近的 K 个样本点是什么类别来判断该新样本属于哪个类别（多数投票）。

分析：K 值的影响
如果k值比较小，相当于我们用较小的领域内的训练样本对实例进行预测。这时，算法的近似误差（Approximate Error）会比较小，因为只有与输入实例相近的训练样本才会对预测结果起作用。但是，它也有明显的缺点：算法的估计误差比较大，预测结果会对近邻点十分敏感，也就是说，如果近邻点是噪声点的话，预测就会出错。因此，k值过小容易导致KNN算法的过拟合。

同理，如果k值选择较大的话，距离较远的训练样本也能够对实例预测结果产生影响。这时候，模型相对比较鲁棒，不会因为个别噪声点对最终预测结果产生影响。但是缺点也十分明显：算法的近邻误差会偏大，距离较远的点（与预测实例不相似）也会同样对预测结果产生影响，使得预测结果产生较大偏差，此时模型容易发生欠拟合。

因此，在实际工程实践中，我们一般采用交叉验证的方式选取 k 值。通过以上分析可知，一般 k 值选得比较小，我们会在较小范围内选取 k 值，同时把测试集上准确率最高的那个确定为最终的算法超参数 k 。