算法金 | 再见！！！KNN

大侠幸会，在下全网同名「算法金」 0 基础转 AI 上岸，多个算法赛 Top 「日更万日，让更多人享受智能乐趣」

KNN算法的工作原理简单直观，易于理解和实现，这使得它在各种应用场景中备受青睐。

我们将深入探讨KNN算法，从基本概念到实现细节，从算法优化到实际应用，我们都会一一展开。通过本文，你将了解到KNN算法的核心要点，以及如何将这一强大的工具应用到实际问题中。

第一部分：KNN算法的基本概念

定义

KNN算法，全称为K-Nearest Neighbors，是一种基于实例的学习算法，或者说是一种基于记忆的学习方法。它的核心思想是，通过一个样本的K个最近邻居的多数属于某个类别，来预测该样本的类别。

工作原理

KNN算法通过以下步骤进行分类或回归：

确定距离度量：首先确定一个距离度量方法，如欧氏距离或曼哈顿距离。
寻找最近邻居：计算待分类样本与数据集中每个样本的距离，并找出距离最近的K个样本。
决策：在分类任务中，通过多数投票法决定待分类样本的类别；在回归任务中，则通过计算K个最近邻居的属性的平均值来预测。

算法特点

KNN算法具有以下显著特点：

简单性：算法原理简单，易于理解和实现。
无需训练：不需要训练阶段，直接使用整个数据集进行预测。
自适应性：随着数据集的变化，KNN算法可以自适应地调整其预测结果。

第二部分：KNN算法的工作原理

距离度量

在KNN算法中，距离度量是确定样本之间相似性的关键。以下是几种常用的距离度量方法：

寻找最近邻居

确定一个样本的K个最近邻居涉及以下步骤：

计算距离：对于数据集中的每个点，使用选定的距离度量计算与待分类样本的距离。
排序：根据计算出的距离对所有点进行排序。
选择邻居：选择距离最小的前K个点作为最近邻居。

多数投票法（分类任务）

在分类任务中，KNN算法通过以下步骤进行决策：

收集标签：收集K个最近邻居的类别标签。
统计：统计每个类别的出现次数。
投票：选择出现次数最多的类别作为待分类样本的预测类别。

平均值法（回归任务）

在回归任务中，KNN算法预测一个连续值，通常通过以下步骤：

收集属性值：收集K个最近邻居的属性值。
计算平均值：计算这些属性值的平均值。
预测：将平均值作为待分类样本的预测结果。

第三部分：KNN算法的优缺点

优点

易于理解和实现：KNN算法的原理简单直观，易于理解，且实现起来相对容易。
不需要训练阶段：由于KNN算法在预测时直接使用整个数据集，因此它不需要一个专门的训练阶段。
自适应性强：KNN算法能够随着数据集的更新而更新，能够适应数据的变化。
可用于非线性问题：KNN算法不假设数据的分布，因此可以用于非线性问题的分类和回归。

缺点

计算密集型：由于在每次预测时都需要计算新样本与所有训练样本之间的距离，KNN算法在大数据集上可能变得非常慢。
存储需求高：KNN算法需要存储全部数据集，因此对内存的需求较高。
维数灾难：随着特征维度的增加，距离度量可能会变得不那么有效，导致所谓的“维数灾难”。
对不平衡数据敏感：KNN算法对类别不平衡的数据集比较敏感，少数类可能会被多数类所淹没。
对噪声敏感：KNN算法对噪声数据点比较敏感，噪声点可能会对预测结果产生较大影响。

第四部分：KNN算法的适用场景与局限性

适用场景

小规模数据集：KNN算法在小规模数据集上表现良好，因为它不需要复杂的训练过程。
基线模型：作为基线模型，KNN算法可以快速提供一个简单的性能标准，用于与其他更复杂的模型进行比较。
实时决策：由于KNN算法不需要预先训练，它可以用于需要快速响应的实时决策场景。
低维数据：在特征维度不是非常高的情况下，KNN算法能够很好地工作，因为它依赖于距离度量。

局限性

高计算成本：对于大规模数据集，KNN算法在预测时的计算成本非常高。
内存消耗：由于需要存储整个数据集，KNN算法对内存的需求可能会很大。
数据不平衡问题：当数据集中某些类别的样本数量远多于其他类别时，KNN算法可能会倾向于预测多数类。
噪声敏感性：KNN算法对异常值和噪声点比较敏感，这可能会影响其预测的准确性。

第五部分：KNN算法的实现与案例

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris

# 加载内置的Iris数据集
iris = load_iris()
X = iris.data
y = iris.target
target_names = iris.target_names

# 数据标准化
scaler = StandardScaler()
X = scaler.fit_transform(X)

# 数据可视化（选择前两个特征进行可视化）
plt.figure(figsize=(10, 6))
for i, label in enumerate(target_names):
    plt.scatter(X[y == i, 0], X[y == i, 1], label=label)
plt.xlabel('特征 1 (标准化)')
plt.ylabel('特征 2 (标准化)')
plt.title('Iris 数据分布')
plt.legend()
plt.show()

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 选择最佳K值
best_k = 1

# 使用最佳K值训练模型
best_knn = KNeighborsClassifier(n_neighbors=best_k)
best_knn.fit(X_train, y_train)
accuracy = best_knn.score(X_test, y_test)
print(f"测试集上的准确率: {accuracy:.2f}")

# 可视化测试结果（选择前两个特征进行可视化）
plt.figure(figsize=(10, 6))
y_pred = best_knn.predict(X_test)
for i, label in enumerate(target_names):
    plt.scatter(X_test[y_test == i, 0], X_test[y_test == i, 1], label=f'真实: {label}')
for i, label in enumerate(target_names):
    plt.scatter(X_test[y_pred == i, 0], X_test[y_pred == i, 1], marker='x', label=f'预测: {label}')
plt.xlabel('特征 1 (标准化)')
plt.ylabel('特征 2 (标准化)')
plt.title('测试集上的预测结果')
plt.legend()
plt.show()

看运行输出，还是挺强的

第六部分：如何选择K值

选择合适的K值是KNN算法性能的关键因素之一，如下图不同的 K值，K=3 和 K=7 结果就不一样了。

以下是一些选择K值的策略：

经验法则

选择K值时，可以遵循一些经验法则：

对于分类问题，K通常是奇数，以避免平票的情况。
K值通常小于20，并且与数据集中的样本数量成反比。

交叉验证

交叉验证是一种更系统的方法来确定最佳的K值。以下是步骤：

划分数据：将数据集划分为训练集和测试集。
循环选择K值：对一系列可能的K值进行循环。
训练和评估：对于每个K值，使用训练集训练KNN模型，并在测试集上评估其性能。
选择最佳K值：选择在测试集上表现最好的K值。

以下是使用交叉验证选择K值的Python代码示例：

from sklearn.model_selection import cross_val_score

# 可能的K值列表
k_values = list(range(1, 21))
accuracies = []

for k in k_values:
    knn = KNeighborsClassifier(n_neighbors=k)
    # 使用交叉验证评估模型性能
    accuracy = cross_val_score(knn, X, y, cv=10).mean()
    accuracies.append(accuracy)

# 找到最佳K值
best_k = k_values[np.argmax(accuracies)]
print(f"最佳K值为：{best_k}")

数据集大小与K值的关系

小数据集：选择较小的K值，因为数据点较少，每个点的影响较大。
大数据集：可以选择较大的K值，因为数据点较多，每个点的影响较小。

运行后输出

啊这，各种类别交织在一起看起来密集恐惧症都要犯了

这段代码生成了一张散点图，不同门派用不同颜色表示，展示了内力和速度的标准化分布。
通过循环选择不同的 K 值进行交叉验证，找到表现最好的 K 值.这张图展示了不同 K 值下的交叉验证准确率，可以看到在 K=4 时准确率最高。
我们使用最佳 K 值（K=4）训练模型，并在测试集上进行预测和可视化,这张图展示了测试集上真实标签和预测标签的对比（略）
模型的预测准确率较低，这主要是数据集的问题，数据类别见区分度太低了，感兴趣的大侠可以试着调一下，怎么可以获得更高的准确率。期待能在评论区见

第七部分：KNN算法的优化策略

为了提高KNN算法的性能和适用性，我们可以采取以下几种优化策略：

距离度量的选择

选择适当的距离度量对于KNN算法至关重要。根据数据的特性，可以选择不同的度量方法：

权重分配

在标准KNN中，所有邻居对预测结果的贡献是相等的。然而，我们可以根据距离的远近来分配权重，使得更近的邻居对预测结果有更大的影响。权重可以按照以下公式计算：

降维技术

高维数据会加剧“维数灾难”，导致KNN算法性能下降。使用降维技术如主成分分析（PCA）可以减少特征维度，同时保留数据的主要信息：

from sklearn.decomposition import PCA

# 应用PCA进行降维
pca = PCA(n_components=2)  # 假设我们只保留两个主成分
X_pca = pca.fit_transform(X)

# 现在使用降维后的数据训练KNN模型
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_pca, y)