通俗易懂的分类算法之K近邻详解

news2025/3/4 14:20:22

通俗易懂的分类算法之K近邻详解

用最通俗的语言和例子,来彻底理解 K近邻(K-Nearest Neighbors,简称 KNN) 这个分类算法。不用担心复杂的数学公式,我会用生活中的例子来解释,保证你一听就懂!


1. K近邻是什么?

K近邻是一种非常简单直观的分类算法。它的核心思想是:物以类聚,人以群分。也就是说,一个数据点的类别,取决于它周围最近的 K 个邻居的类别。

举个例子:

  • 你想判断一个人是喜欢看电影还是喜欢看书,KNN 会看看他身边的朋友都喜欢什么,然后根据朋友们的喜好来判断他的喜好。
  • 它的名字“K近邻”就是因为它的分类依据是“最近的 K 个邻居”。

2. K近邻的核心思想

K近邻的核心思想是:找到离目标点最近的 K 个点,然后根据这 K 个点的类别,投票决定目标点的类别

  • K 值:K 是一个超参数,表示要考虑多少个邻居。
    • 比如 K=3,就表示看最近的 3 个邻居。
  • 距离:KNN 通常用欧氏距离来计算两个点之间的距离。
    • 欧氏距离就是两点之间的直线距离。

3. K近邻的工作步骤

K近邻的分类过程可以分为以下几步:

步骤 1:计算距离
  • 对于一个新的数据点,计算它和训练集中每个点的距离。
步骤 2:找到最近的 K 个邻居
  • 选择距离最近的 K 个点。
步骤 3:投票决定类别
  • 对这 K 个点的类别进行投票,票数最多的类别就是新数据点的类别。

4. 举个例子

假设我们有以下数据:

电影评分游戏评分类别
51喜欢电影
42喜欢电影
15喜欢游戏
24喜欢游戏

现在有一个新数据点:电影评分=3,游戏评分=3,我们想判断他是喜欢电影还是喜欢游戏。

步骤 1:计算距离
  • 计算新数据点和每个训练数据点的距离(假设用欧氏距离):
    • 距离 (5,1):√[(5-3)² + (1-3)²] = √(4 + 4) = √8 ≈ 2.83
    • 距离 (4,2):√[(4-3)² + (2-3)²] = √(1 + 1) = √2 ≈ 1.41
    • 距离 (1,5):√[(1-3)² + (5-3)²] = √(4 + 4) = √8 ≈ 2.83
    • 距离 (2,4):√[(2-3)² + (4-3)²] = √(1 + 1) = √2 ≈ 1.41
步骤 2:找到最近的 K 个邻居
  • 假设 K=3,选择距离最近的 3 个点:
    • (4,2):距离 1.41,类别=喜欢电影
    • (2,4):距离 1.41,类别=喜欢游戏
    • (5,1):距离 2.83,类别=喜欢电影
步骤 3:投票决定类别
  • 喜欢电影:2 票
  • 喜欢游戏:1 票
  • 最终结果:喜欢电影

5. 如何选择 K 值?

K 值的选择对 KNN 的结果影响很大:

  • K 值太小:容易受到噪声点的影响,导致过拟合。
  • K 值太大:可能会忽略数据的局部特征,导致欠拟合。

通常通过交叉验证来选择最优的 K 值。


6. 优点和缺点

优点
  • 简单直观,容易实现。
  • 不需要训练过程,直接利用数据即可。
  • 适合多分类问题。
缺点
  • 计算量大,尤其是数据量大的时候。
  • 对数据的规模和分布敏感。
  • 需要选择合适的 K 值。

7. 应用场景

  • 推荐系统(比如根据用户喜好推荐电影)
  • 图像分类(比如识别手写数字)
  • 医疗诊断(比如判断疾病类型)
  • 文本分类(比如判断新闻类别)

希望这个通俗的解释能让你彻底理解 K近邻!如果还有疑问,欢迎随时问我! 😊

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2309529.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

conda安装及超详细避坑实战

1. Anaconda介绍。 Anaconda是一站式数据科学与机器学习平台,专为开发者、数据分析师设计,并带有python中超过180个科学包及其依赖项。通过 Anaconda,您可以轻松管理数据环境、安装依赖包,快速启动数据分析、机器学习项目。 Anaconda集成了…

LM studio 加载ollama的模型

1.LM 下载: https://lmstudio.ai/ 2.ollama下载: https://ollama.com/download 3.打开ollama,下载deepseek-r1。 本机设备资源有限,选择7B的,执行ollama run deepseek-r1:7b 4.windows chocolatey下载: P…

深入探索像ChatGPT这样的大语言模型-02-POST training supervised finetuning

参考 【必看珍藏】2月6日,安德烈卡帕西最新AI普及课:深入探索像ChatGPT这样的大语言模型|Andrej Karpathy fineweb知乎翻译介绍 fineweb-v1原始连接 fineweb中文翻译版本 Chinese Fineweb Edu数据集 查看网络的内部结果,可以参…

Kaldi环境配置与Aishell训练

一、项目来源 代码来源:kaldi-asr/kaldi: kaldi-asr/kaldi is the official location of the Kaldi project. (github.com) 官网文档:Kaldi: The build process (how Kaldi is compiled) (kaldi-asr.org) 踩着我的同门李思成-CSDN博客填上的坑kaldi环境…

数据集/API 笔记:新加坡PSI(空气污染指数)API

data.gov.sg 数据范围:2016年2月 - 2025年3月 1 获取API方式 curl --request GET \--url https://api-open.data.gov.sg/v2/real-time/api/psi 2 返回数据 API 的数据结构可以分为 3 大部分: 区域元数据(regionMetadata) →…

【GPU使用】如何在物理机和Docker中指定GPU进行推理和训练

我的机器上有4张H100卡,我现在只想用某一张卡跑程序,该如何设置。 代码里面设置 import os # 记住要写在impot torch前 os.environ[CUDA_VISIBLE_DEVICES] "0, 1"命令行设置 export CUDA_VISIBLE_DEVICES0,2 # Linux 环境 python test.py …

【Java项目】基于SpringBoot的CSGO赛事管理系统

【Java项目】基于SpringBoot的CSGO赛事管理系统 技术简介:采用SpringBoot框架、Java语言、MySQL数据库等技术实现。 系统简介:CSGO赛事管理系统是一个基于B/S架构的管理系统,主要功能包括前台和后台管理模块。前台系统功能模块分为&#xf…

MIPI接口:(4)MIPI CSI-2协议详解(上)

1. 什么是CSI? CSI(Camera Serial Interface)是MIPI联盟早期制定的摄像头接口标准,主要用于连接摄像头和处理器。 CSI-2是CSI的第二代版本,在原有基础上进行了全面优化: (1)分层架…

防火墙旁挂组网双机热备负载均衡

一,二层交换网络: 使用MSTPVRRP组网形式 VLAN 2--->SW3为主,SW4 作为备份 VLAN 3--->SW4为主,SW3 作为备份 MSTP 设计 --->SW3 、 4 、 5 运行 实例 1 : VLAN 2 实例 2 : VLAN 3 SW3 是实例 1 的主根,实…

视频教育网站开源系统的部署安装 (roncoo-education)服务器为ubuntu22.04.05

一、说明 前端技术体系:Vue3 Nuxt3 Vite5 Vue-Router Element-Plus Pinia Axios 后端技术体系:Spring Cloud Alibaba2021 MySQL8 Nacos Seata Mybatis Druid redis 后端系统:roncoo-education(核心框架:S…

CF 886A.ACM ICPC(Java实现)

题目分析 输入6个值,判断某三个值的和能够等于另外三个值的和 思路分析 首先判断总和是不是一个偶数,如果不是就“NO”。由于小何同学算法不好,只能使用三层for循环强行判断某三个值是否能等于总和的一半,可以就“YES”。 代码 …

Spring Boot 自动装配深度解析与实践指南

目录 引言:自动装配如何重塑Java应用开发? 一、自动装配核心机制 1.1 自动装配三大要素 1.2 自动装配流程 二、自定义自动配置实现 2.1 创建自动配置类 2.2 配置属性绑定 2.3 注册自动配置 三、条件注解深度应用 3.1 常用条件注解对比 3.2 自定…

【windows driver】 开发环境简明安装教程

一、下载路径 https://learn.microsoft.com/en-us/windows-hardware/drivers/other-wdk-downloads 二、安装步骤: 1、安装Visual Studio IDE 笔者建议安装最新版本,可以向下兼容。发文截止到目前,VS2022是首选,当前笔者由于项…

探秘基带算法:从原理到5G时代的通信变革【八】QAM 调制 / 解调

文章目录 2.7 QAM 调制 / 解调2.7.1 概述2.7.2 星座图星座图的结构与性能发射端的信息编码与接收端的解码差分编码的分类与实现差分编码的模4格雷加法器公式16QAM星座图与映射关系 2.7.3 信号表达式正交振幅调制的基本原理与系统分析相位误差对QAM性能的影响多电平正交振幅调制…

Flink性能指标详解MetricsAnalysis

文章目录 Flink 组成1.JobManager2.TaskManager3.ResourceManager4.Dispatcher5.Client6. Env JobManager MetricsTaskManager Metrics Flink 组成 1.JobManager 管理任务 作业调度:负责接收和调度作业,分配任务到 TaskManager。资源管理:…

Halcon 车牌识别-超精细教程

车牌示例 流程: 读取图片转灰度图阈值分割,找车牌内容将车牌位置设置变换区域形状找到中心点和弧度利用仿射变换,斜切车牌旋转转正,把车牌抠出来利用形态学操作拼接车牌号数字训练ocr开始识别中文车牌 本文章用到的算子(解析) Halcon 算子-承接车牌识别-CSDN博客 rgb1_to_gray…

Redis实战篇《黑马点评》8 附近商铺

8.附近商户 8.1GEO数据结构的基本用法 GEO就是Geolocation的简写形式,代表地理坐标。Redis在3.2版本中加入了对GEO的支持,允许存储地理坐标信息,帮助我们根据经纬度来检索数据,常见的命令有 GEOADD:添加一个地理空间…

【02】Cocos游戏开发引擎从0开发一款游戏-cocos项目目录结构熟悉-调试运行项目-最重要的assets资源文件认识-场景sense了解-优雅草卓伊凡

【02】Cocos游戏开发引擎从0开发一款游戏-cocos项目目录结构熟悉-调试运行项目-最重要的assets资源文件认识-场景sense了解-优雅草卓伊凡 开发背景 接下来我们直接打开我们的项目开始进一步操作, 实战开发 导入项目 我把得到的项目解压到本地,我们开…

kafka-web管理工具cmak

一. 背景: 日常运维工作中,采用cli的方式进行kafka集群的管理,还是比较繁琐的(指令复杂?)。为方便管理,可以选择一些开源的webui工具。 推荐使用cmak。 二. 关于cmak: cmak是 Yahoo 贡献的一款强大的 Apac…

Unity中动态切换光照贴图LightProbe的方法

关键代码:LightmapSettings.lightmaps lightmapDatas; LightmapData中操作三张图:lightmapColor,lightmapDir,以及一张ShadowMap 这里只操作前两张: using UnityEngine; using UnityEngine.EventSystems; using UnityEngine.UI;public cl…