【机器学习】K近邻(K-Nearest Neighbors,简称KNN)的基本概念以及消极方法和积极方法的区别

news2024/9/20 12:35:45

引言

K近邻(K-Nearest Neighbors,简称KNN)算法是一种基础的机器学习方法,属于监督学习范畴

文章目录

  • 引言
  • 一、K近邻(K-Nearest Neighbors,简称KNN)
    • 1.1 原理详述
      • 1.1.1 距离度量
      • 1.1.2 选择k值
      • 1.1.3 投票机制
    • 1.2 实现步骤
    • 1.3 参数选择
    • 1.4 应用场景
    • 1.5 优缺点
      • 1.5.1 优点
      • 1.5.2 缺点
    • 1.6 k-近邻代码实例
  • 三、如何选择k值
    • 3.1 交叉验证
    • 3.2 留出法(Hold-out Method)
    • 3.3 学习曲线
    • 3.4 超参数优化技术
    • 3.5 Elbow Method
    • 3.6 注意事项
  • 四、消极方法和积极方法的区别
    • 4.1 消极方法(Passive Methods)
      • 4.1.1 原理:
      • 4.1.2 性能上的优缺点:
    • 4.2 积极方法(Active Methods)
      • 4.2.1 原理:
      • 4.2.2 性能上的优缺点:
    • 4.3 综合考虑

在这里插入图片描述

一、K近邻(K-Nearest Neighbors,简称KNN)

K近邻的核心思想是,如果一个样本在特征空间中的k个最近邻大多数属于某一个类别,那么该样本也属于这个类别。KNN算法既可以用于分类问题,也可以用于回归问题

1.1 原理详述

1.1.1 距离度量

KNN算法首先需要计算新样本与已有数据集中每个样本的距离。距离度量可以是欧氏距离、曼哈顿距离、汉明距离等。以下是几种常见的距离计算公式:

  • 欧氏距离:对于两个n维向量 A A A B B B,其欧氏距离为
    d ( A , B ) = ∑ i = 1 n ( A i − B i ) 2 d(A, B) = \sqrt{\sum_{i=1}^{n} (A_i - B_i)^2} d(A,B)=i=1n(AiBi)2
  • 曼哈顿距离:其公式为
    d ( A , B ) = ∑ i = 1 n ∣ A i − B i ∣ d(A, B) = \sum_{i=1}^{n} |A_i - B_i| d(A,B)=i=1nAiBi
  • 汉明距离:通常用于布尔值向量,其公式为
    d ( A , B ) = ∑ i = 1 n δ ( A i , B i ) d(A, B) = \sum_{i=1}^{n} \delta(A_i, B_i) d(A,B)=i=1nδ(Ai,Bi)
    其中 δ ( x , y ) \delta(x, y) δ(x,y)是指示函数,当 x ≠ y x \neq y x=y时为1,否则为0

1.1.2 选择k值

k值的选择对KNN算法的性能有重要影响。较小的k值意味着模型对噪声更敏感,而较大的k值可能导致模型对输入数据的特征不敏感

1.1.3 投票机制

对于分类问题,KNN算法通常采用“多数表决”规则,即一个新样本被分配到k个最近邻中最常见的类。如果存在多个类具有相同数量的最近邻,则可以随机选择一个类,或者基于距离加权投票

1.2 实现步骤

  1. 数据预处理:包括特征缩放和归一化,以确保所有特征对距离计算有相同的影响
  2. 选择k值:通过交叉验证等方法选择最优的k值
  3. 训练模型:KNN算法实际上没有显式的训练过程,它只是在预测时计算新样本与训练数据的距离
  4. 预测:对于一个新的样本,计算它与训练集中所有样本的距离,选择最近的k个样本,并根据这些样本的标签进行投票

1.3 参数选择

  • k值:如前所述,k值的选择对算法性能有很大影响。通常通过交叉验证来选择最优k值
  • 距离度量:根据数据的特性选择合适的距离度量方法

1.4 应用场景

  • 文本分类:如垃圾邮件检测
  • 图像识别:如手写数字识别
  • 推荐系统:通过用户之间的相似度来推荐商品或服务
  • 异常检测:识别与大多数数据差异较大的异常点

1.5 优缺点

1.5.1 优点

  • 算法简单,易于理解
  • 不需要建立模型,因此训练时间几乎为零
  • 可以用于分类和回归问题

1.5.2 缺点

  • 计算量大,特别是对于大数据集
  • 对噪声敏感,尤其是当k值较小时
  • 需要大量的内存存储所有训练数据

1.6 k-近邻代码实例

以下是使用Python和Scikit-learn库实现的K近邻算法的完整代码,该代码使用了鸢尾花数据集:

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
# 加载数据集
iris = datasets.load_iris()
X = iris.data
y = iris.target
# 数据集分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 特征缩放
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
# 创建KNN分类器实例并训练
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)
# 进行预测
y_pred = knn.predict(X_test)
# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')

代码解释:

  • 首先加载了鸢尾花数据集
  • 然后将其分为训练集和测试集
  • 接着对特征进行了标准化处理,以消除不同特征之间的量纲影响
  • 之后创建了一个K近邻分类器实例,并使用训练集进行了训练
  • 最后在测试集上进行了预测,并计算了模型的准确率
  • 在这个例子中,模型的准确率为1.0,即100%

三、如何选择k值

选择最优的k值是K近邻算法中的一个关键步骤,因为它直接影响到模型的性能。以下是一些常用的方法来确定最优的k值:

3.1 交叉验证

交叉验证是一种常用的方法来评估模型的泛化能力。以下是一个使用交叉验证来选择最优k值的步骤:

  1. 分割数据集:将数据集分割成训练集和验证集
  2. 循环遍历k值:对于每个可能的k值,使用训练集来训练模型,并在验证集上进行验证
  3. 评估性能:计算每个k值对应的验证集上的错误率或准确率
  4. 选择最优k值:选择错误率最低或准确率最高的k值

3.2 留出法(Hold-out Method)

与交叉验证类似,但是只将数据集分割一次:

  1. 分割数据集:将数据集分割成较大的训练集和较小的测试集
  2. 训练和测试:对于每个k值,使用训练集训练模型,并在测试集上进行测试
  3. 选择最优k值:根据测试集上的性能选择最优k值

3.3 学习曲线

通过绘制学习曲线,可以观察到随着k值的增加,模型在训练集和验证集上的性能如何变化:

  1. 训练和验证:对于不同的k值,绘制模型在训练集和验证集上的准确率
  2. 观察曲线:选择在验证集上准确率最高且训练集和验证集准确率差距最小的k值

3.4 超参数优化技术

使用如网格搜索(Grid Search)或随机搜索(Random Search)等超参数优化技术来搜索最优k值

3.5 Elbow Method

这是一种直观的方法,通过观察随着k值增加,模型误差的变化情况来确定k值:

  1. 计算误差:对于不同的k值,计算模型在验证集上的误差(例如,分类错误率)
  2. 绘制图表:将k值和对应的误差绘制成图表
  3. 寻找“肘部”:找到图表中误差开始明显减少的点,这个点通常被称为“肘部”,对应的k值就是最优k值

3.6 注意事项

  • 过小的k值可能导致模型对噪声敏感,过大的k值可能导致模型对输入数据的特征不敏感
  • 在实际应用中,k值通常选择为小于训练样本数的平方根
  • 选择最优k值时,应考虑到计算成本,特别是在处理大型数据集时

四、消极方法和积极方法的区别

在机器学习和数据挖掘领域,消极方法和积极方法通常是指处理缺失值的不同策略。这两种方法各有其原理和优缺点

4.1 消极方法(Passive Methods)

消极方法不直接处理缺失值,而是简单地忽略含有缺失值的样本或特征。这种方法的原理是假设缺失值对模型的影响很小,或者可以通过其他方法(如特征选择、数据清洗等)来减轻其影响

4.1.1 原理:

  • 忽略样本:直接从数据集中移除含有缺失值的样本
  • 忽略特征:在某些情况下,可以忽略含有缺失值的特征

4.1.2 性能上的优缺点:

  • 优点:简单易行,计算成本低
  • 缺点:可能导致数据集规模减小,从而影响模型的性能;同时,缺失值的存在可能是数据集中的重要信息,忽略它们可能会导致模型的准确性下降

4.2 积极方法(Active Methods)

积极方法试图通过某种方式估计或填充缺失值,以保留完整的数据集。这种方法的原理是利用现有数据来推断缺失值,从而保持数据的完整性

4.2.1 原理:

  • 插值法:使用相邻或相似数据点的值来估计缺失值。例如,使用线性插值、样条插值等
  • 基于模型的方法:使用机器学习模型(如K近邻、决策树、支持向量机等)来预测缺失值

4.2.2 性能上的优缺点:

  • 优点:保留了完整的数据集,可以更好地利用数据中的信息
  • 缺点:计算成本较高,且填充方法的选择会影响模型的性能。如果填充方法不合适,可能会引入额外的噪声,降低模型的准确性

4.3 综合考虑

在实际应用中,选择消极方法还是积极方法取决于具体问题、数据集的特性以及计算资源的限制

  • 对于大规模数据集,积极方法可能更合适,因为它可以保留更多的信息
  • 对于计算资源有限或缺失值较少的情况,消极方法可能更加实用

在实际操作中,还可以结合使用这两种方法,例如,先使用消极方法删除部分缺失值严重的样本,然后使用积极方法处理剩余的缺失值。这样可以充分利用数据中的信息,同时降低计算成本

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2091687.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

django网吧收费管理系统 项目源码26819

摘 要 随着互联网的普及,网吧作为公共互联网接入场所,依旧在许多地区发挥着重要作用。现代网吧不仅仅是提供上网服务的场所,还包括了游戏、社交、休闲等多功能体验。为了提高网吧的服务质量和运营效率,迫切需要一个高效的管理系统…

采集工具选型调研

原文阅读:【巨人肩膀社区博客分享】采集工具选型调研 大家一起来探讨SeaTunnel方案,简化当前Dinky与chunjun的双轨模式(Dinky仅用于实时同步,chunjun负责离线处理)。提议小组一起共议,并由大数据组构建dem…

大模型battle,哪家才是真的“价美”也“物美”

大模型battle,哪家才是真的“价美”也“物美” 物美价廉何为物美价廉大模型battle基础能力测试:专业能力测试:中文特性能力测试:逻辑推理能力测试:创新能力测试:安全性与合规性测试:写在最后 近…

【Qt窗口】—— 对话框

目录 (一) 对话框介绍 (二)对话框的分类 2.1 模态对话框 2.2 非模态对话框 2.3 混合属性对话框 (三)内置对话框 消息对话框 QMessageBox 颜色对话框 QColorDialog 字体对话框 QFontDialog 输入对…

RK3588 系列之1—串口连接

RK3588 系列之1—串口连接 1.串口转USB芯片驱动2.使用MobaXterm进行串口链接3.注意事项 1.串口转USB芯片驱动 根据使用的芯片安装不同的驱动,常见的如CH340。装完驱动后,通过设备管理器,查看开发板与个人PC连接情况,记住占用的端…

超声波智能水表通讯方式有哪些?

超声波智能水表采用多种通讯方式实现数据传输,包括但不限于有线连接、无线网络、以及短距离无线通信技术,这些方式各有优劣,适用于不同的应用场景。 一、通讯方式概述 1.有线通讯 -RS-485接口:这是一种半双工的串行通信接口标准…

微服务框架二

微服务 微服务技术栈 服务发现概念 服务发现两种方式 客户端发现 服务端服务发现 服务发现技术对比 Nacos架构图 基于dubbo nacos服务调用 Nacos核心源码解析 registery 具体实现在nacosServiceRegistery setbeat 返回clientBeatInterval

cannot import name ‘greycomatrix‘ from ‘skimage.feature.texture‘ 解决方法

症状: ImportError: cannot import name ‘greycomatrix’ from ‘skimage.feature’ (D:\ProgramData\anaconda3\Lib\site-packages\skimage\feature_init_.py) 解决方案 将涉及的grey全部替换为gray即可

黑神话·悟空亢金龙怎么打?亢金龙全攻略

走到湖心庙宇,长得像弥勒缩小版的小和尚出现了。 他为师为师的叫着,似乎还想收天命人为徒,跟着他修行似得。 不过,他身上的乾坤袋出卖了自己,不是黄眉大仙是谁? 不知为何,曾经从金铙里救出悟空的亢金龙居…

Minkowski分形电路生成工具[程序附后]

此工具用于生成Minkowski分形电路,应用领域可参考分形电路的纪录片或CNKI论文。运行环境在Altium Designer中,可用于Altium Designer全系列的版本中。 程序界面如下图所示,可以支持外框和迭代次数的更改。 程序下载链接: Minkows…

加载:loader实现

1、利用内联汇编显示字符串 通过反复调用BIOS显示字符的方式来显示一个完整的字符串,该功能将用于loader在初始化过程中显示初始化进度、错误信息。 具体代码 // 16位代码,必须加上放在开头,以便有些io指令生成为32位 __asm__(".code…

STM32外设SPI(串行通信),W25Q64(8Mb)

1 非易失存储器:E2PROM,FLASH(断电不丢失) 2 易失存储器:SRAM,DRAM 3 W25Q64 1 从00 00 00 到 7F FF FF 2 block(块),sector(扇区) ,page(页区) 写数据到FLASH(256字节) 读数据很快&#…

002.Python爬虫系列_初识协议

我 的 个 人 主 页:👉👉 失心疯的个人主页 👈👈 入 门 教 程 推 荐 :👉👉 Python零基础入门教程合集 👈👈 虚 拟 环 境 搭 建 :👉&…

论文学习哇

2024.7.18 1.A gated cross-domain collaborative network for underwater object detection 对图像进行增强 摘要:水下存在低对比度和低光的问题,有的学者通过水下图像增强来提高图片质量,但会移除或者改变水下物体的细节。所以作者探索两…

【Android】使用 ADB 查看 Android 设备的 CPU 使用率

目录 一 查看整体CPU使用率 1 top 二 查看特定应用的CPU使用率 1 获取特定应用的进程 ID (PID) 2 使用 top 命令并过滤该 PID 三 常见的CPU相关命令参数 1 adb shell top 参数 一 查看整体CPU使用率 1 top top命令将显示当前所有进程的 CPU 使用情况,包括每…

Codeforces Round 969 (Div. 2) 题ABC详细题解,包含(C++,Python语言描述)

前言: 首先让我们恭喜tourist创造历史 他是第一,他又是第一,他总是第一,第一个codefores上4000分的,创造一个新的段位:Tourist,他的名字就是一个新的段位,他就是最高的山,最长的河 本…

shell脚本--正则表达式

一、正则表达式的类型 在Linux中,有两种流行的正则表达式引擎: POSIX基础正则表达式(basic regular expression,BRE)引擎 POSIX扩展正则表达式(extended regular expression,ERE)引擎 POSIX BRE引擎通常出现在依赖正则表达式进行文本过滤的编程语言中。它为常见模式提供…

蓝牙对象交换协议(OBEX) - 常见的opcode介绍

零.声明 本专栏文章我们会以连载的方式持续更新,本专栏计划更新内容如下: 第一篇:蓝牙综合介绍 ,主要介绍蓝牙的一些概念,产生背景,发展轨迹,市面蓝牙介绍,以及蓝牙开发板介绍。 第二篇:Trans…

六、vue进阶知识点

一、scoped解决样式冲突 默认情况:写在组件中的样式会 全局生效→ 因此很容易造成多个组件之间的样式冲突问题。 1.全局样式:默认组件中的样式会作用到全局 2.局部样式:可以给组件加上 scoped 属性,可以让样式只作用于当前组件scoped原理? 1.当前组件内标签都被添加 data-v-…

【C++从练气到飞升】17---set和map

🎈个人主页:库库的里昂 ✨收录专栏:C从练气到飞升 🎉鸟欲高飞先振翅,人求上进先读书🎉 目录 ⛳️推荐 一、前言 1.1 关联式容器 1.2 键值对 1.3 树型结构的关联式容器 二、set 2.1 set的介绍 2.2 s…