分类算法系列②:KNN算法

news2024/10/6 17:12:46

目录

KNN算法

1、简介

2、原理分析

数学原理

相关公式及其过程分析

距离度量

k值选择

分类决策规则

3、API

4、⭐案例实践

4.1、分析

4.2、代码

5、K-近邻算法总结


🍃作者介绍:准大三网络工程专业在读,努力学习Java,涉猎深度学习,积极输出优质文章

⭐分类算法系列①:初识概念

KNN算法

定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

来源:KNN算法最早是由Cover和Hart提出的一种分类算法

1、简介

K最近邻(K-Nearest Neighbors,KNN)是一种简单但强大的监督学习算法,用于分类和回归任务。它的基本思想是:给定一个新的数据点,通过找到训练数据中最接近它的K个邻居,来进行分类或回归预测。KNN算法在许多实际问题中表现良好,但也有其局限性。

以下是KNN算法的基本工作原理:

  1. 数据表示: 对于每个样本,KNN使用一组特征来描述。这些特征可以是数值、类别或其他类型的数据。每个样本都由特征向量表示。
  2. 距离度量: KNN算法使用某种距离度量来计算数据点之间的相似性。常用的距离度量包括欧几里德距离、曼哈顿距离等。对于每个样本,都可以计算其与训练数据中其他样本之间的距离。
  3. 邻居选择: 对于一个新的数据点,KNN算法会计算它与训练数据中所有数据点的距离,并选择最近的K个邻居。这些邻居通常是距离最近的K个训练样本。
  4. 预测(分类问题): 对于分类问题,KNN算法会将这K个最近邻居的类别进行统计,然后将新数据点分类为在这些邻居中占多数的类别。这就是所谓的“多数投票”法。
  5. 预测(回归问题): 对于回归问题,KNN算法会将这K个最近邻居的目标值(即回归目标)进行平均,然后将新数据点的回归预测设置为这个平均值。

KNN算法的优点包括简单易用、适用于多类别分类、不需要训练阶段(直接存储训练数据)等。

然而,KNN算法也有一些缺点,包括:

  1. 效率问题:对于大规模数据集,计算所有样本之间的距离可能会很耗时。
  2. 高维数据:在高维特征空间中,距离计算变得困难,且容易出现维度灾难(curse of dimensionality)。
  3. 需要合适的距离度量和K值的选择。

在实际应用中,选择适当的K值、距离度量和数据预处理方法非常重要,以确保KNN算法的性能最优化。

2、原理分析

数学原理

K-近邻(K-Nearest Neighbors,KNN)算法背后的数学原理涉及距离度量、邻居选择和预测的计算。以下是KNN算法的数学原理的详细解释:

  1. 距离度量: KNN算法中最重要的概念之一是距离度量,它用于衡量样本之间的相似性。常用的距离度量包括欧几里德距离(Euclidean distance)和曼哈顿距离(Manhattan distance)。
  2. 邻居选择: 对于一个新的数据点,KNN算法计算它与训练数据中所有数据点之间的距离。然后,它选择距离最近的K个数据点作为最近邻居。这些最近邻居可以根据计算的距离值进行排序。
  3. 预测(分类问题): 对于分类问题,KNN算法会统计这K个最近邻居中每个类别的数量。然后,将新数据点分类为在这些邻居中占多数的类别。
  4. 预测(回归问题): 对于回归问题,KNN算法会计算这K个最近邻居的目标值的平均值,然后将新数据点的回归预测设置为这个平均值。

在实际应用中,选择适当的K值以及距离度量方法非常重要。K值较小可能会导致模型过拟合,而K值较大可能会导致模型欠拟合。同时,距离度量的选择应根据数据的特点进行调整,以确保能够捕获数据之间的相似性。在高维空间中,可能需要对特征进行标准化以避免某些特征对距离的影响过大。

相关公式及其过程分析

k 近邻法 (k-nearest neighbor, k-NN) 是一种基本分类与回归方法。是数据挖掘技术中原理最简单的算法之一,核心功能是解决有监督的分类问题。KNN能够快速高效地解决建立在特殊数据集上的预测分类问题,但其不产生模型,因此算法准确 性并不具备强可推广性。

k近邻法 的输入为实例的特征向量,对应与特征空间的点;输出为实例的类别,可以取多类。

k近邻法 三个基本要素:k 值的选择、距离度量及分类决策规则。

算法过程:

1, 计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离,马氏距离等);
2, 对上面所有的距离值进行排序;
3, 选前k个最小距离的样本;
4, 根据这k个样本的标签进行投票,得到最后的分类类别;

输入:训练数据集 :T=\{\ (x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N) \}

其中, x_i 为实例的特征向量, y_i 为实例的类别,i = 1,2,\cdots,N

输出:实例 x 所属的类 y

(1)根据给定的距离度量,在训练集 T 中找出与x最近邻的个点,涵盖这个 k 点的 x 的邻域记作N_k(x)

(2)在 N_k(x) 中根据分类决策规则(如多数决策)决定 x 的类别 y:

y=argmax_{cj}\sum_{x_i\in N_k(x)=1}{I(y_i=c_j)}

(i = 1,2,\cdots,N; j = 1,2,\cdots,K)

其中,I为指示函数,即y_i=c_jI为1,否则I为0

距离度量

特征空间中两个实例点的距离时两个实例点相似程度的反映。

在距离类模型,例如KNN中,有多种常见的距离衡量方法。 如欧几里得距离、曼哈顿距离、闵科夫斯基距离、切比雪夫距离及余弦距离。其中欧几里得距离为最常见。

下面是几种距离的论述:

欧几里得距离(Euclidean Distance):定义与欧几里得空间中,两点之间或多点之间的距离表示又称欧几里得度量。

二维平面:d=\sqrt{(x_a-x_b)^2+(y_a-y_b)^2}

三维空间:d=\sqrt{(x_a-x_b)^2+(y_a-y_b)^2+(z_a+z_b)^2}

推广到在n维空间中,有两个点A和B,两点的坐标分别为:

d(A,B)=\sqrt{(x_{1a}-x_{1b})^2+(x_{2a}-x_{2b})^2+\cdots+(x_{3a}-x_{3b})^2}=\sqrt{\sum_{i=1}^{n}{(x_{ia}-x_{ib})^2} }

坐标轴上的值 正是样本数据上的n个特征。

曼哈顿距离(Manhattan Distance):正式意义为城市区块距离,也被称作街道距离,该距离在欧几里得空间的固定直角坐标所形成的线段产生的投影的距离总和。

其计算方法相当于是欧式距离的1次方表示形式,其基本计算公式如下:d(a,b)=\sum_{i=1}^{n}{(|x_{ia}-x_{ib}|)}

闵科夫斯基距离(Minkowski Distance):闵氏距离不是一种距离,而是一组距离的定义,是对多个距离度量公式的概括性的表述。

无论是欧式距离还是曼哈顿距离,都可视为闵可夫斯基距离的一种特例。

公式如下:d(a,b)=\sqrt[p]{\sum_{i=1}^{n}{(|x_{ia}-x_{ib}|)^p}}

其中p是一个变参数:

当p=1时,就是曼哈顿距离;

当p=2时,就是欧氏距离;

当p→∞时,就是切比雪夫距离。

因此,根据变参数的不同,闵氏距离可以表示某一类 / 种的距离。

切比雪夫距离(Chebyshev Distance):国际象棋中,国王可以直行、横行、斜行,所以国王走一步可以移动到相邻8个方格中的任意一个。国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步?这个距离就叫切比雪夫距离。

二维平面:d(a,b)=max(|x_a-x_b|,|y_a-y_b|)

n维空间:d(a,b)=max_i(|x_{ai}-x_{bi}|)

余弦距离:余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个样本差异的大小。

余弦值越接近1,说明两个向量夹角越接近0度,表明两个向量越相似

几何中,夹角余弦可用来衡量两个向量方向的差异;

机器学习中,借用这一概念来衡量样本向量之间的差异。

公式:cos(\theta)=\frac{\sum_{i=1}^{n}{(x_{ia}x_{ib})}}{\sqrt{\sum_{i=1}^{n}x_{ia}^2}\sqrt{\sum_{i=1}^{n}x_{ib}^2}}

k值选择

k 值的选择会对KNN 算法的结果产生重大影响。

  1. k 值的减小就意味着整体模型变得复杂,器容易受到由于训练数据中的噪声而产生的过分拟合的影响。
  2. k 值的的增大就意味着整体的模型变得简单。如果k太大,最近邻分类器可能会将测试样例分类错误,因为k个最近邻中可能包含了距离较远的,并非同类的数据点。

在应用中,k 值一般选取一个较小的数值,通常采用交叉验证来选取最优的k 值。

分类决策规则

根据 "少数服从多数,一 点算一票" 的原则进行判断,数量最多标签类别就是x的标签类别。其中涉及到的原理是"越相近越相似",这也是KNN 的基本假设。

3、API

sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto')

  1. n_neighbors:int,可选(默认= 5),k_neighbors查询默认使用的邻居数
  2. algorithm:{‘auto’,‘ball_tree’,‘kd_tree’,‘brute’},
    1. 可选用于计算最近邻居的算法:‘ball_tree’将会使用 BallTree,
    2. ‘kd_tree’将使用 KDTree。
    3. ‘auto’将尝试根据传递给fit方法的值来决定最合适的算法。

        (不同实现方式影响效率)

4案例实践

案例:预测签到位置:

数据介绍(train.csv和test.csv ):将根据用户的位置,准确性和时间戳预测用户正在查看的业务。

数据各项介绍:

row_id:登记事件的ID

x / y:坐标

accuracy性:定位准确性

time:时间戳

place_id:业务的ID,这是预测的目标

官网:https://www.kaggle.com/navoshta/grid-knn/data

4.1、分析

  1. 基本处理
    1.  缩小数据集范围 DataFrame.query()
    2. 删除没用的日期数据 DataFrame.drop(可以选择保留)
    3. 将签到位置少于n个用户的删除place_count = data.groupby('place_id').count()tf = place_count[place_count.row_id > 3].reset_index()data = data[data['place_id'].isin(tf.place_id)] 
  2. 分割数据集
  3. 标准化处理
  4. k-近邻预测

4.2、代码

代码如下:

# -*- coding: utf-8 -*-
# @Author:︶ㄣ释然
# @Time: 2023/8/30 23:48
import pandas as pd
from sklearn.model_selection import train_test_split  # 将数据集分割为训练集和测试集。
from sklearn.neighbors import KNeighborsClassifier  # 实现KNN分类器
from sklearn.preprocessing import StandardScaler  # 特征标准化

'''
sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto')
    n_neighbors:int,可选(默认= 5),k_neighbors查询默认使用的邻居数
    algorithm:{‘auto’,‘ball_tree’,‘kd_tree’,‘brute’},
        可选用于计算最近邻居的算法:‘ball_tree’将会使用 BallTree,
        ‘kd_tree’将使用 KDTree。
        ‘auto’将尝试根据传递给fit方法的值来决定最合适的算法。
    (不同实现方式影响效率)
'''
def knncls():
    """
    K近邻算法预测入住位置类别
    :return:
    """
    # 一、处理数据以及特征工程
    # 1、读取收,缩小数据的范围
    data = pd.read_csv("./data/FBlocation/train.csv")
    # 数据逻辑筛选操作 df.query()
    data = data.query("x > 1.0 & x < 1.25 & y > 2.5 & y < 2.75")
    # 删除time这一列特征
    data = data.drop(['time'], axis=1)
    print(data)
    # 删除入住次数少于三次位置
    place_count = data.groupby('place_id').count()
    tf = place_count[place_count.row_id > 3].reset_index()
    data = data[data['place_id'].isin(tf.place_id)]
    # 3、取出特征值和目标值
    y = data['place_id']
    # y = data[['place_id']]
    x = data.drop(['place_id', 'row_id'], axis=1)
    # 4、数据分割与特征工程?
    # (1)、数据分割
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)
    # (2)、标准化
    std = StandardScaler()
    # 队训练集进行标准化操作
    x_train = std.fit_transform(x_train)
    print(x_train)
    # 进行测试集的标准化操作
    x_test = std.fit_transform(x_test)
    # 二、算法的输入训练预测
    # K值:算法传入参数不定的值    理论上:k = 根号(样本数)
    # K值:后面会使用参数调优方法,去轮流试出最好的参数[1,3,5,10,20,100,200]
    knn = KNeighborsClassifier(n_neighbors=3)
    # 调用fit()
    knn.fit(x_train, y_train)
    # 预测测试数据集,得出准确率
    y_predict = knn.predict(x_test)
    print("预测测试集类别:", y_predict)
    print("准确率为:", knn.score(x_test, y_test))


if __name__ == '__main__':
    knncls()

执行结果:

这段代码是一个使用K最近邻(KNN)算法进行分类预测的示例,用于预测移动设备的位置类别。下面逐行解释代码的每个部分:

  1. 导入必要的包
    • import pandas as pd:导入Pandas库,用于数据处理和分析。
    • from sklearn.model_selection import train_test_split:从scikit-learn中导入train_test_split函数,用于将数据集分割为训练集和测试集。
    • from sklearn.neighbors import KNeighborsClassifier:从scikit-learn中导入KNeighborsClassifier类,用于实现KNN分类器。
    • from sklearn.preprocessing import StandardScaler:从scikit-learn中导入StandardScaler类,用于特征标准化。
  2.  函数knncls()定义
    • 该函数实现了一个完整的KNN分类流程。
  3. 数据读取与预处理
    • data = pd.read_csv("./data/FBlocation/train.csv"):从CSV文件读取数据。
    • data = data.query("x > 1.0 & x < 1.25 & y > 2.5 & y < 2.75"):对数据进行逻辑筛选,选取特定范围内的数据。
    • data = data.drop(['time'], axis=1):删除数据中的时间列。
    • place_count = data.groupby('place_id').count():根据位置ID对数据进行分组统计。
    • tf = place_count[place_count.row_id > 3].reset_index():选取入住次数超过3次的位置。
    • data = data[data['place_id'].isin(tf.place_id)]:筛选出入住次数较多的位置。
  4. 数据分割与特征工程
    • y = data['place_id']:目标值为位置ID。
    • x = data.drop(['place_id', 'row_id'], axis=1):特征值为除位置ID和行ID外的其他特征。
    • x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3):将数据集分割为训练集和测试集。
    • std = StandardScaler():实例化一个标准化器。
    • x_train = std.fit_transform(x_train):对训练集进行标准化操作。
    • x_test = std.fit_transform(x_test):对测试集进行标准化操作。
  5.  KNN模型训练与预测
    • knn = KNeighborsClassifier(n_neighbors=1):实例化一个KNN分类器,其中n_neighbors参数设置为1。
    • knn.fit(x_train, y_train):训练KNN模型。
    • y_predict = knn.predict(x_test):使用训练好的模型进行预测。
    • print("准确率为:", knn.score(x_test, y_test)):输出模型在测试集上的准确率。

总体而言,这段代码演示了如何使用KNN算法进行分类预测。它包括数据读取、预处理、特征工程、模型训练和预测等步骤。同时,还使用了StandardScaler进行特征标准化,以及KNN分类器进行预测并计算准确率。

5K-近邻算法总结

优点:简单,易于理解,易于实现,无需训练

缺点:

        懒惰算法,对测试样本分类时的计算量大,内存开销大

        必须指定K值,K值选择不当则分类精度不能保证

使用场景:小数据场景,几千~几万样本,具体场景具体业务去测试

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/952248.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Vue-关于路由规则模块的封装

路由的封装抽离 对路由的封装进行封装&#xff0c;方便main.js文件维护 首先&#xff1a; 我们需要再src文件夹中创建一个router文件夹&#xff0c;在里面在创建一个index.js文件夹。 然后&#xff1a; 我们再index.js文件夹中进行封装路由规则 import Find from /views/F…

技术深入解析与教程:网络安全技术探秘

第一章&#xff1a;引言 在当今数字化时代&#xff0c;网络安全已经成为了重要议题。随着各种信息和业务在网络上的传输与存储&#xff0c;安全问题也日益突出。本文将带您深入探讨网络安全领域中的关键技术&#xff0c;涵盖渗透测试、漏洞挖掘以及恶意软件分析等方面&#xf…

opencv android sdk 使用中的问题

Plugin with id ‘kotlin-android’ not found 在build.gradle(:app)中添加以下内容 buildscript {ext {Kotlin_Verion "1.9.10"}dependencies {classpath "org.jetbrains.kotlin:kotlin-gradle-plugin:$Kotlin_Verion"}repositories {mavenCentral()} …

SpringBoot通过@Cacheable注解实现缓存功能

目录 一、Spring从3.1开始支持Cache二、Cacheable常用属性1、value/cacheNames2、key3、condition4、unless5、keyGenerator6、sync7、cacheManager 三、整合步骤1、加入pom2、启动类加EnableCaching注解3、controller或service加Cacheable注解即可 四、代码实例五、Spring Boo…

Linux下批量创建文件夹

检测文件是否存在 这里的文件包含普通文件或者是目录文件,下面是CentOS 7环境下的测试. #include <sys/stat.h> #include <unistd.h> #include <iostream>int main() {int ret access("../lesson01/file.txt", F_OK);if (ret 0){std::cout <…

经管博士科研基础【6】:如何理解箱式图

箱形图,也叫盒须图,盒式图,boxplot。有95%的把握猜中你现在已经不太确定,这图中有几条线?每条线代表什么意思?中间的那条线代表的究竟是算数平均数还是中位数,还是众数? 再问的深点,箱形图存在的意义为何?之于数据分析的实践意义在哪里? 接下来,带你从概念开始,…

如何回答‘行为面试题’:用实例展示你的能力

&#x1f337;&#x1f341; 博主猫头虎 带您 Go to New World.✨&#x1f341; &#x1f984; 博客首页——猫头虎的博客&#x1f390; &#x1f433;《面试题大全专栏》 文章图文并茂&#x1f995;生动形象&#x1f996;简单易学&#xff01;欢迎大家来踩踩~&#x1f33a; &a…

Linux 8 下的容器引擎Podman概述

一、前言 最近在进行OS国产化交流中&#xff0c;了解到部分业务迁移到BClinux 8.2或Anolis 8.2时&#xff0c;原有docker业务需要迁移到新的容器平台&#xff1a;Podman&#xff0c;来完成容器的新的管理。Podman&#xff08;全称 Pod Manager&#xff09;是一款用于在 Linux 系…

MOS管的损耗分析

目的 1、MOS管的损耗分类&#xff1a; 开关损耗&#xff1a; 栅驱动损耗&#xff1a; 导通损耗&#xff1a; 主要内容 MOS管损耗主要有开关损耗&#xff08;开通损耗和关断损耗&#xff0c;关注参数Cgd(Crss)&#xff09;、栅极驱动损耗&#xff08;关注参数Qg&#xff09;和…

面试流程解析:从初面到终面,程序员需要注意什么

&#x1f337;&#x1f341; 博主猫头虎 带您 Go to New World.✨&#x1f341; &#x1f984; 博客首页——猫头虎的博客&#x1f390; &#x1f433;《面试题大全专栏》 文章图文并茂&#x1f995;生动形象&#x1f996;简单易学&#xff01;欢迎大家来踩踩~&#x1f33a; &a…

RabbitMQ 的快速使用

docker部署rabbitmq # management才有管理页面 docker pull rabbitmq:management# 新建容器并运行 docker run \-e RABBITMQ_DEFAULT_USERadmin \ -e RABBITMQ_DEFAULT_PASSadmin \ -v mq-plugins:/plugins \--name mq \--hostname mq \-p 15672:15672 \-p 5672:5672 \-itd \ra…

客服系统哪个好用?

在当今竞争激烈的商业环境中&#xff0c;良好的客户服务是企业成功的关键因素之一。通过提供优质的客户服务&#xff0c;企业可以吸引、留住、回馈顾客&#xff0c;增加口碑宣传&#xff0c;提高产品或服务质量&#xff0c;同时还可以减少客户投诉率&#xff0c;从而为企业带来…

docker容器运行成功但无法访问,原因分析及对应解决方案(最新,以Tomcat为例,亲测有效)

原因分析&#xff1a; 是否能访问当运行docker容器虚拟机&#xff08;主机&#xff09;地址 虚拟机对应的端口号是否开启或者防墙是否关闭 端口映射是否正确&#xff08;这个是我遇到的&#xff09; tomcat下载的是最新版&#xff0c;docker运行后里面是没有东西的&am…

跨屏无界 | ZlongGames 携手 Google Play Games 打造无缝游戏体验

一款经典游戏&#xff0c;会在时间的沉淀中被每一代玩家所怀念&#xff0c;经久不衰。对于紫龙游戏来讲&#xff0c;他们就是这样一群怀揣着创作出经典游戏的初心而聚集在一起的团队&#xff0c;致力于研发出被广大玩家喜爱的作品。 从 2015 年团队成立&#xff0c;到 2019 年走…

DHCP实验

文章目录 一、实验背景与目的二、实验拓扑三、 实验需求四、实验解法1. R1配置IP地址部分2. 配置R1的DHCP服务3. 配置IP地址排除4. 配置PC3和PC4的IP地址为自动获取&#xff0c;然后可以自动获得192.168.1.0/24网段的IP地址。 摘要&#xff1a; 本实验旨在通过配置DHCP服务器和…

2023-8-30 Dijkstra 求最短路(一)

题目链接&#xff1a;Dijkstra求最短路 I #include <iostream> #include <cstring> #include <algorithm>using namespace std;const int N 510;int n, m; int g[N][N]; int dist[N]; bool st[N];int dijkstra() {memset(dist, 0x3f, sizeof dist);dist[1…

【力扣每日一题】2023.8.30 到家的最少跳跃次数

目录 题目&#xff1a; 示例&#xff1a; 分析&#xff1a; 代码&#xff1a; 题目&#xff1a; 示例&#xff1a; 分析&#xff1a; 题目给我们一只跳蚤&#xff0c;我们可以操控它前跳 a 格或是后跳 b 格&#xff0c;不能跳到小于0的位置&#xff0c;有一些被禁止的点不…

Gradio入门(1)输入输出、表格、文本高亮

本文将会介绍gradio的入门使用&#xff0c;并结合大模型&#xff08;LLM&#xff09;&#xff0c;给出三个使用例子。   Gradio 是通过友好的 Web 界面演示机器学习模型的最快方式&#xff0c;以便任何人都可以在任何地方使用它。其官网网址为&#xff1a;https://www.gradio…

1978-2022年全国整体GDP平减指数计算模板(可任意调整基期)

1978-2022年全国整体GDP平减指数计算模板&#xff08;可任意调整基期&#xff09; 1、时间区间&#xff1a;1978-2022年 2、指标&#xff1a;名义GDP、实际GDP、GDP平减指数 3、中国GDP平减指数计算公式可以给定基期&#xff0c;自动计算平减指数&#xff0c;可根据需要任意…

易混淆的符号

C自学精简教程 目录(必读) &符号在C中有多个含义。 下面我们列出常见的3种&#xff0c;你都能分得清吗&#xff1f; #include <iostream> using namespace std;//传递引用类型的参数 pass by reference void fun(int& a)//(1) 这里的 & 表示参数a是引用类…