分类算法——KNN算法(二)

news2025/1/15 6:29:53

什么是K-近邻算法

1KNN原理
K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法,总体来说KNN算法是相对比较容易理解的算法。

  • 定义

如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

来源:KNN算法最早是由Cover和Hart提出的一种分类算法、

  • 距离公式
    两个样本的距离可以通讨如下公式计算,又叫欧式距离

在这里插入图片描述

距离计算有:曼哈顿距离(绝对值距离)、明可关斯基距离

2电影类型分析
在这里插入图片描述
其中 ? 号电影不知道类别,如何去预测:利用K近邻算法
在这里插入图片描述

3问题

  • 如果取的最近的电影数量不一样,会是什么结果
    • k值取得过小,容易受到异常点的影响
    • k值取得过大,样本不均衡的影响
  • 分析K-近邻算法需要做什么样的处理
    • 无量纲化的处理(标准化)

K-近邻算法API

  • sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm=‘auto’)
    • n_neighbors:int,可选(默认= 5),k_neighbors查询默认使用的邻居数
    • algorithm:{‘auto’,‘ball_tree’,‘kd_tree’,‘brute’},可选用于计算最近邻居的算法:‘ball_tree’ 将会使用 BallTree,‘kd_tree’ 将使用 KDTree。'auto’将尝试根据传递给 fit 方法的值来决定最合适的算法。

案例:鸢尾花种类预测

流程:
①获取数据
②数据集划分
③特征工程(标准化)
④KNN预估器流程
⑤模型评估

1数据集介绍
lris数据集是常用的分类实验数据集,由Fisher,1936收集整理。lris也称鸢尾花卉数据集,是一类多重变量分析的数据集。关于数据集的具体介绍:
在这里插入图片描述
2代码过程

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import kNeighborsClassifier

def knn_iris():
	#1)获取数据
	iris=load_iris()
	
	#2)划分数据集
	x_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,random_state=6)
	
	#3)特征工程:标准化
	transfer=StandardScaler()
	x_train=transfer.fit_transform(x_train)
	x_test=transfer.transform(x_test)
	
	#4)KNN算法预估器
	estimator=KNeighborsClassifierl(n_neighbors=3)
	estimator.fit(x_train, y_train)
	
	#5)模型评估
	#方法1:直接比对真实值和预测值
	y_predict=estimator.predict(x_test)
	print("y_predict:\n",y_predict)
	print("直接比对真实值和预测值:\n",y_test==y _predict)
	#方法2:计算准确率
	score=estimator.score(x_test,y_test)
	print("准确率为:\n",score)

	return None

3运行结果
在这里插入图片描述

4结果分析

  • k值取多大?有什么影响?
    • k值取很小:容易受到异常点的影响
    • k值取很大:受到样本均衡的问题
  • 性能问题?
    • 距离计算上面,时间复杂度高

K-近邻总结

  • 优点:
    • 简单,易于理解,易于实现,无需训练
  • 缺点:
    • 懒惰算法,对测试样本分类时的计算量大,内存开销大
    • 必须指定K值,K值选择不当则分类精度不能保证
  • 使用场景:小数据场景,几千~几万样本,具体场景具体业务去测试

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1588698.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

厂区3D全景线上漫游体验突破现实时空阻碍

智慧园区,作为现代城市发展的重要引擎,其管理效率和安全监控的需求日益凸显。而720VR全景展示技术的引入,无疑为智慧园区的建设注入了新的活力。通过360全空间无死角的视觉展示,用户可以身临其境地感受园区的每一个角落&#xff0…

VXWorks6.9 + Workbench3.3 开发环境部署

VxWorks系列传送门 一、安装包 有需要的朋友可以私信~ 二、安装 安装挺简单 1、先安装DVD-R147826.1-1-01-vx69.udf.iso 镜像中的Setup.exe程序,记住要使用管理员权限 2、再安装DVD-R147826.1-23-00.iso 镜像中的Setup.exe程序,同样要使用管理员权限 3…

数据结构--链式栈

一.链式栈的栈顶在哪里? 二.链栈的结构: typedef struct LSNode{ int data; struct LSNode* next; }LSNode ,*PLStack; //链栈的节点.由于栈顶在第一个数据节点,所以不需要top指针 三.链式栈的实现: //初始化LSNode* p (LSNode*)malloc(sizeof(LSNode));assert(p ! NULL)…

MySQL数据库的详解(1)

DDL(数据库操作) 查询 查询所有数据库:show databases;当前数据库:select database(); 创建 创建数据库:create database [ if not exists] 数据库名 ; 使用 使用数据库:use 数据库名 ; 删除 删除数…

2024年MathorCup数模竞赛C题超详细解题思路

妈妈杯本次比赛报名队伍号高达12500,这也就意味着大概一万只队伍参加报名,仅仅在报名人数这一项,妈妈杯已经成为美赛国赛之后的第三大竞赛。C题作为本次竞赛最简单也最容易获奖的题目,本文将给大家带来手把手超详细解题思路。 注…

kali桥接校园网实现上网

1.查看校园网信息 1. vim /etc/network/interfaces 添加下列信息,地址、网关、掩码和主机一样即可 3.vim /etc/resolv.conf 添加dns解析 4.macchanger -m AA:bb:cc:DD:ee:ff eth0(改为和主机一样的mac) 5. /etc/init.d/networking restart 重启网络即可

vs2022启动cmake项目(qt+c++)

1.本工程,如图,1个cmakelist.txt3个文件 2.启动vs 3.选择文件夹 4.进入这个页面,就说明配置没问题 5.启动 6.最后会自己生成其他文件

【QT入门】 Qt自定义控件与样式设计之QPushButton实现鼠标悬浮按钮弹出对话框

往期回顾: 【QT入门】 Qt自定义控件与样式设计之qss选择器-CSDN博客 【QT入门】 Qt自定义控件与样式设计之QLineEdit的qss使用-CSDN博客 【QT入门】Qt自定义控件与样式设计之QPushButton常用qss-CSDN博客 【QT入门】 Qt自定义控件与样式设计之QPushButton实现鼠标悬…

木头姐最新访谈:英伟达“卖早了”没什么,新买的Coinbase涨得更好

木头姐表示,虽然英伟达在本轮AI竞赛中处于领先地位,但要证明其定价合理,还需要找到更多能够证明AI正在加速企业收入增长的证据。她仍看好特斯拉的长期前景,主要基于其在自动驾驶和人形机器人领域的领先地位。 木头姐精彩观点 我们…

外观模式:简化复杂系统的统一接口

在面向对象的软件开发中,外观模式是一种常用的结构型设计模式,旨在为复杂的系统提供一个简化的接口。通过创建一个统一的高级接口,这个模式帮助客户端通过一个简单的方式与复杂的子系统交互。本文将详细介绍外观模式的定义、实现、应用场景以…

Java 怎么捕捉 Windows 中前台窗口的改变?

在Java中捕捉Windows中前台窗口的改变通常需要使用JNI(Java Native Interface)来调用Windows API。Windows API提供了一系列函数来获取有关窗口和进程的信息,通过使用这些函数,我们可以实现在Java程序中监视和捕捉Windows前台窗口…

redux-persist

npm install redux-persist 目录:(分模块) 之前未加入持久化的代码: import { legacy_createStore as createStore } from redux import { combineReducers } from "redux"; import countReducer from ./modules/cou…

小红的白色字符串

题目描述 小红拿到了一个字符串,她准备将一些字母变成白色,变成白色的字母看上去就和空格一样,这样字符串就变成了一些单词。 现在小红希望,每个单词都满足以下两种情况中的一种: 1.开头第一个大写,其余为…

基于linux进一步理解核间通讯

芯片架构分为同构和异构: 如下图TC397: 如下图TDA4: 如下图STM32MP157: 非对称多处理结构(AMP): AMP 结构是指每个内核运行自己的 OS 或同一 OS 的独立实例&#

bugku-web-file_get_contents

<?php extract($_GET); if (!empty($ac)){$f trim(file_get_contents($fn));if ($ac $f){echo "<p>This is flag:" ." $flag</p>";}else{echo "<p>sorry!</p>";} } ?> 这里涉及到几个不常用的函数 这里直接构…

UE 模型学习

1. UE中任何模型都是有多个三角面构成的&#xff0c;模型有一个顶点数组&#xff0c;根据右手螺旋定则和三个顶点顺序确定三角面的法线。 注&#xff1a;当三角面的法线方向与相机法线方向相同时&#xff0c;此时看不见三角面&#xff1b;当两法线方向相反&#xff0c;此时才能…

企业搭建分销商城系统要注意什么?

分销商城系统是一种专门设计出来的电商平台&#xff0c;旨在通过构建多层级的分销网络体系&#xff0c;帮助企业将产品或服务高效地推广和销售至终端消费者。那么&#xff0c;搭建分销商城系统要注意什么呢&#xff1f;我们从优势、功能、玩法来进行分析。 一、分销商城有哪些…

Faster RCNN训练自己的数据集【傻瓜式教程】

一、下载源码 本文采用的源码是&#xff1a;https://github.com/dBeker/Faster-RCNN-TensorFlow-Python3 二、配置环境 由于本文是小白教程&#xff0c;光写几个环境怕有人配置不好或者配置版本搞乱。Faster RCNN配置环境比较复杂。我在这直接贴图我的环境版本图&#xff1a…

基础的unicorn模拟简介与库函数调用方案与代码实例

运行环境&#xff1a;python 基本的导入&#xff1a;from unicorn import * 简介 1. unicorn对象的初始化&#xff1a; UC Uc(unicorn_const.UC_ARCH_X86,unicorn_const.UC_MODE_16)Uc接收的二值分别指定将模拟的架构和程序位数。后续操作的寄存器&#xff08;如rax、eax、…

数字图像处理项目——模糊图像边缘检测算法设计及实现(论文/代码)

完整的论文代码见文章末尾 以下为部分内容 摘要 本研究旨在针对大脑核磁图像中的黑色腔体进行有效分割&#xff0c;以提供可靠的腔体定位和分析。为此&#xff0c;采用了三种常用的图像分割方法&#xff1a;8邻域区域生长法、Canny算子边缘检测和8邻域边界跟踪法。 首先&…