KNN算法

1、简介

2、原理分析

数学原理

KNN算法

定义：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

来源：KNN算法最早是由Cover和Hart提出的一种分类算法

1、简介

K最近邻（K-Nearest Neighbors，KNN）是一种简单但强大的监督学习算法，用于分类和回归任务。它的基本思想是：给定一个新的数据点，通过找到训练数据中最接近它的K个邻居，来进行分类或回归预测。KNN算法在许多实际问题中表现良好，但也有其局限性。

以下是KNN算法的基本工作原理：

数据表示：对于每个样本，KNN使用一组特征来描述。这些特征可以是数值、类别或其他类型的数据。每个样本都由特征向量表示。
距离度量： KNN算法使用某种距离度量来计算数据点之间的相似性。常用的距离度量包括欧几里德距离、曼哈顿距离等。对于每个样本，都可以计算其与训练数据中其他样本之间的距离。
邻居选择：对于一个新的数据点，KNN算法会计算它与训练数据中所有数据点的距离，并选择最近的K个邻居。这些邻居通常是距离最近的K个训练样本。
预测（分类问题）：对于分类问题，KNN算法会将这K个最近邻居的类别进行统计，然后将新数据点分类为在这些邻居中占多数的类别。这就是所谓的“多数投票”法。
预测（回归问题）：对于回归问题，KNN算法会将这K个最近邻居的目标值（即回归目标）进行平均，然后将新数据点的回归预测设置为这个平均值。

KNN算法的优点包括简单易用、适用于多类别分类、不需要训练阶段（直接存储训练数据）等。

然而，KNN算法也有一些缺点，包括：

效率问题：对于大规模数据集，计算所有样本之间的距离可能会很耗时。
高维数据：在高维特征空间中，距离计算变得困难，且容易出现维度灾难（curse of dimensionality）。
需要合适的距离度量和K值的选择。

在实际应用中，选择适当的K值、距离度量和数据预处理方法非常重要，以确保KNN算法的性能最优化。

2、原理分析

数学原理

K-近邻（K-Nearest Neighbors，KNN）算法背后的数学原理涉及距离度量、邻居选择和预测的计算。以下是KNN算法的数学原理的详细解释：

距离度量： KNN算法中最重要的概念之一是距离度量，它用于衡量样本之间的相似性。常用的距离度量包括欧几里德距离（Euclidean distance）和曼哈顿距离（Manhattan distance）。
邻居选择：对于一个新的数据点，KNN算法计算它与训练数据中所有数据点之间的距离。然后，它选择距离最近的K个数据点作为最近邻居。这些最近邻居可以根据计算的距离值进行排序。
预测（分类问题）：对于分类问题，KNN算法会统计这K个最近邻居中每个类别的数量。然后，将新数据点分类为在这些邻居中占多数的类别。
预测（回归问题）：对于回归问题，KNN算法会计算这K个最近邻居的目标值的平均值，然后将新数据点的回归预测设置为这个平均值。

在实际应用中，选择适当的K值以及距离度量方法非常重要。K值较小可能会导致模型过拟合，而K值较大可能会导致模型欠拟合。同时，距离度量的选择应根据数据的特点进行调整，以确保能够捕获数据之间的相似性。在高维空间中，可能需要对特征进行标准化以避免某些特征对距离的影响过大。

3、API

sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto')

n_neighbors：int,可选（默认= 5），k_neighbors查询默认使用的邻居数
algorithm：{‘auto’，‘ball_tree’，‘kd_tree’，‘brute’}，
1. 可选用于计算最近邻居的算法：‘ball_tree’将会使用 BallTree，
2. ‘kd_tree’将使用 KDTree。
3. ‘auto’将尝试根据传递给fit方法的值来决定最合适的算法。

(不同实现方式影响效率)

4、⭐案例实践

案例：预测签到位置：

数据介绍(train.csv和test.csv )：将根据用户的位置，准确性和时间戳预测用户正在查看的业务。

数据各项介绍：

row_id：登记事件的ID

x / y：坐标

accuracy性：定位准确性

time：时间戳

place_id：业务的ID，这是预测的目标

官网：https://www.kaggle.com/navoshta/grid-knn/data

4.1、分析

基本处理
1. 缩小数据集范围 DataFrame.query()
2. 删除没用的日期数据 DataFrame.drop（可以选择保留）
3. 将签到位置少于n个用户的删除place_count = data.groupby('place_id').count()tf = place_count[place_count.row_id > 3].reset_index()data = data[data['place_id'].isin(tf.place_id)]
分割数据集
标准化处理
k-近邻预测

4.2、代码

代码如下：

# -*- coding: utf-8 -*-
# @Author:︶ㄣ释然
# @Time: 2023/8/30 23:48
import pandas as pd
from sklearn.model_selection import train_test_split  # 将数据集分割为训练集和测试集。
from sklearn.neighbors import KNeighborsClassifier  # 实现KNN分类器
from sklearn.preprocessing import StandardScaler  # 特征标准化

'''
sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto')
    n_neighbors：int,可选（默认= 5），k_neighbors查询默认使用的邻居数
    algorithm：{‘auto’，‘ball_tree’，‘kd_tree’，‘brute’}，
        可选用于计算最近邻居的算法：‘ball_tree’将会使用 BallTree，
        ‘kd_tree’将使用 KDTree。
        ‘auto’将尝试根据传递给fit方法的值来决定最合适的算法。
    (不同实现方式影响效率)
'''
def knncls():
    """
    K近邻算法预测入住位置类别
    :return:
    """
    # 一、处理数据以及特征工程
    # 1、读取收，缩小数据的范围
    data = pd.read_csv("./data/FBlocation/train.csv")
    # 数据逻辑筛选操作 df.query()
    data = data.query("x > 1.0 & x < 1.25 & y > 2.5 & y < 2.75")
    # 删除time这一列特征
    data = data.drop(['time'], axis=1)
    print(data)
    # 删除入住次数少于三次位置
    place_count = data.groupby('place_id').count()
    tf = place_count[place_count.row_id > 3].reset_index()
    data = data[data['place_id'].isin(tf.place_id)]
    # 3、取出特征值和目标值
    y = data['place_id']
    # y = data[['place_id']]
    x = data.drop(['place_id', 'row_id'], axis=1)
    # 4、数据分割与特征工程?
    # （1）、数据分割
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)
    # (2)、标准化
    std = StandardScaler()
    # 队训练集进行标准化操作
    x_train = std.fit_transform(x_train)
    print(x_train)
    # 进行测试集的标准化操作
    x_test = std.fit_transform(x_test)
    # 二、算法的输入训练预测
    # K值：算法传入参数不定的值    理论上：k = 根号(样本数)
    # K值：后面会使用参数调优方法，去轮流试出最好的参数[1,3,5,10,20,100,200]
    knn = KNeighborsClassifier(n_neighbors=3)
    # 调用fit()
    knn.fit(x_train, y_train)
    # 预测测试数据集，得出准确率
    y_predict = knn.predict(x_test)
    print("预测测试集类别：", y_predict)
    print("准确率为：", knn.score(x_test, y_test))


if __name__ == '__main__':
    knncls()

执行结果：

这段代码是一个使用K最近邻（KNN）算法进行分类预测的示例，用于预测移动设备的位置类别。下面逐行解释代码的每个部分：

导入必要的包：
- import pandas as pd：导入Pandas库，用于数据处理和分析。
- from sklearn.model_selection import train_test_split：从scikit-learn中导入train_test_split函数，用于将数据集分割为训练集和测试集。
- from sklearn.neighbors import KNeighborsClassifier：从scikit-learn中导入KNeighborsClassifier类，用于实现KNN分类器。
- from sklearn.preprocessing import StandardScaler：从scikit-learn中导入StandardScaler类，用于特征标准化。
函数knncls()定义：
- 该函数实现了一个完整的KNN分类流程。
数据读取与预处理：
- data = pd.read_csv("./data/FBlocation/train.csv")：从CSV文件读取数据。
- data = data.query("x > 1.0 & x < 1.25 & y > 2.5 & y < 2.75")：对数据进行逻辑筛选，选取特定范围内的数据。
- data = data.drop(['time'], axis=1)：删除数据中的时间列。
- place_count = data.groupby('place_id').count()：根据位置ID对数据进行分组统计。
- tf = place_count[place_count.row_id > 3].reset_index()：选取入住次数超过3次的位置。
- data = data[data['place_id'].isin(tf.place_id)]：筛选出入住次数较多的位置。
数据分割与特征工程：
- y = data['place_id']：目标值为位置ID。
- x = data.drop(['place_id', 'row_id'], axis=1)：特征值为除位置ID和行ID外的其他特征。
- x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)：将数据集分割为训练集和测试集。
- std = StandardScaler()：实例化一个标准化器。
- x_train = std.fit_transform(x_train)：对训练集进行标准化操作。
- x_test = std.fit_transform(x_test)：对测试集进行标准化操作。
KNN模型训练与预测：
- knn = KNeighborsClassifier(n_neighbors=1)：实例化一个KNN分类器，其中n_neighbors参数设置为1。
- knn.fit(x_train, y_train)：训练KNN模型。
- y_predict = knn.predict(x_test)：使用训练好的模型进行预测。
- print("准确率为：", knn.score(x_test, y_test))：输出模型在测试集上的准确率。