KNN最近邻算法分析及实现(Python实现)

news2024/10/6 1:39:30

KNN最近邻算法分析及实现(代码附录后文)

  • 1 KNN算法简介
  • 2 KNN基本原理
  • 3 简单实现KNN分析
  • 代码附录(Python):
  • 呆,站住别跑,留个赞,给个关注嘛都看到这了

Author: Nirvana Of Phoenixl

Proverbs for you:There is no doubt that good things will always come, and when it comes late, it can be a surprise.
(送给你的)

1 KNN算法简介

  最近邻(K-Nearest Neighbor,KNN)算法,是著名的模式识别统计学方法,在机器学习分类算法中占有相当大的地位。它是一个理论上比较成熟的方法。既是最简单的机器学习算法之一,也是基于实例的学习方法中最基本的,又是最好的文本分类算法之一。

  K近邻法(K-Nearest Neighbor, KNN)是一种基本分类与回归方法,其基本做法是:给定测试实例,基于某种距离度量找出训练集中与其最靠近的K个实例点,然后基于这K个最近邻的信息来进行预测

  通常,在分类任务中可使用“投票法”,即选择这K个实例中出现最多的标记类别作为预测结果;在回归任务中可使用“平均法”,即将这K个实例的实值输出标记的平均值作为预测结果;还可基于距离远近进行加权平均或加权投票,距离越近的实例权重越大。

2 KNN基本原理

  KNN最邻近分类算法的实现原理:为了判断未知样本的类别,以所有已知类别的样本作为参照,计算未知样本与所有已知样本的距离,从中选取与未知样本距离最近的K个已知样本,根据少数服从多数的投票法则(majority-voting),将未知样本与K个最邻近样本中所属类别占比较多的归为一类。

K近邻算法的主要任务是通过判断距离来选取未知样本,它包含的又一下核心公式: 
在这里插入图片描述

其中xi表示样本集
通过未知样本和已知样本的距离来判断取舍,主要是根据闵可夫斯基距离(LP)距离,其距离可以表示为:
在这里插入图片描述
其中xi,xj表示两个样本,n表示样本数,l表示维度,p表示参数其值取不同则表示不同距离。

根据LP距离可以推到得到不同的衡量距离,具体如下:
当p=1时,LP距离为曼哈顿距离,则可表示为:
在这里插入图片描述
当p=2时,LP距离为欧式距离,则可以表示为:
在这里插入图片描述
当P= 时,LP距离为切比雪夫距离,它表示两个点之间距离最大的坐标系之间的距离,可以表示为:
在这里插入图片描述

3 简单实现KNN分析

  通过基本原理设计一个简单的数据分类,通过随机取点分为两份作为样本点,再随机几个点作为待测点,并且通过KNN判断该点可能属于的类。

在这里插入图片描述

                      随机点分类可视化图

代码附录(Python):

from matplotlib.pyplot import *
import numpy as np
k = 5                                         # 简单例子,取k值为5即可
n=100                                        # 随机点分为两种颜色点的个数
def creatdot(rangex, rangey, dotnum, classtyap):        # 产生随机点分为x,y
x = np.random.normal(rangex, rangey, dotnum)
 y = np.random.normal(rangex, rangey, dotnum)     # 调用正态分布
    scatter(x, y, color=classtyap)                 # 产生点集
    return x, y

def discal(X, Y, markx, marky, classtyap):             # KNN计算距离
    for i in range(len(X)):
        x = X[i]
        y = Y[i]
        dis = ((x - markx)**2 + (y - marky)**2)**0.5
        dismp.append([dis, classtyap])
    return dismp

def creatmark():                              # 产生随机点作为被测数据
    x, y = creatdot(0, 2, 1, "green")
    return x, y

markx, marky = creatmark()

dismp = []
X, Y = creatdot(0, 1, n, "blue")
dismp.append(discal(X, Y, markx, marky, "blue"))
X, Y = creatdot(2, 1, n, "red")
dismp.append(discal(X, Y, markx, marky, "red"))

呆,站住别跑,留个赞,给个关注嘛都看到这了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/47316.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Mysql视图和触发器

视图 视图是什么, 是否真实存在? 个人理解:视图视图,只是你可以看见的一层抽象层, 它并不真实存在, 而是在真实存在的一张或者多张表之上的一层封装, 对于select查询语句的提前封装. 不涉及数据的存储. 这样的一层封装好处是蛮多的. 对于…

Kamiya丨Kamiya艾美捷小鼠转铁蛋白ELISA说明书

Kamiya艾美捷小鼠转铁蛋白ELISA预期用途: 小鼠转铁蛋白ELISA是一种高灵敏度的双位点酶联免疫分析(ELISA)小鼠生物样品中转铁蛋白的测定。仅供研究使用。 引言 转铁蛋白是一种金属结合蛋白,可逆地与血浆中的酸溶性铁结合。它的功…

python中json的使用dump,dumps,loads,load简单了解

参考:https://www.runoob.com/python3/python3-json.html,https://zhuanlan.zhihu.com/p/264393909 json的作用 JSON (JavaScript Object Notation) 是一种轻量级的数据交换格式 (图片是参考链接中的图片) json.dumps(): 对数据…

Node.js 入门教程 26 npm 依赖与开发依赖 27 Node.js 包运行器 npx

Node.js 入门教程 Node.js官方入门教程 Node.js中文网 本文仅用于学习记录,不存在任何商业用途,如侵删 文章目录Node.js 入门教程26 npm 依赖与开发依赖27 Node.js 包运行器 npx27.1 轻松地运行本地命令27.2 无需安装的命令执行27.3 使用不同的 Node.js …

[SWPUCTF 2018]SimplePHP

考点&#xff1a;文件上传 试了一下&#xff0c;直接上传php文件是不行的&#xff0c;.user.ini和.htaccess也不行 能看到有提示&#xff0c;flag在f1ag.php中 在查看文件功能处发现get传参&#xff0c;可能是文件包含 尝试包含当前页面 ?filefile.php 得到 <?php h…

一些感悟(随笔小记)

不知不觉已经坚持快70天了&#xff0c;之前虽然断断续续学过几个月但是没有形成自己的体系&#xff0c;导师安排的各种任务和课程也极大的影响了自己自学的进度&#xff0c;当时真的很迷茫。好在因为那一股冲劲制定了百日救赎计划&#xff0c;虽然在庞大的知识体系中100天真的微…

精彩回顾 | 苏州农商银行新一代云原生信息科技架构体系实践

11月18日&#xff0c;2022年第五届中国金融科技产业大会暨第四届中新&#xff08;苏州&#xff09;数字金融应用博览会“基础软件与云原生系统软件”分论坛成功举办。该论坛由由中国计算机学会CTO CLUB&#xff08;苏州&#xff09;承办&#xff0c;江苏省金融科技云原生融合创…

【Kubernetes系列】工作负载资源之StatefulSet

StatefulSet概述解决的问题组件Pod 选择算符卷声明模板最短就绪秒数更新策略滚动更新分区滚动更新最大不可用 Pod强制回滚副本数StatefulSet的网络标识StatefulSet存储状态概述 StatefulSet 是用来管理有状态应用的工作负载 API 对象。 StatefulSet 用来管理某 Pod 集合的部署…

IDEA的乱码与file.encoding = UTF-8

file.encoding UTF-8的作用其实就是使用UTF-8作为文件encoding和decoding时的默认方案。 我们知道存储文本文件时&#xff0c;文本变为二进制时要对文件进行encoding&#xff0c;这是一个字节转字符的过程&#xff0c;转换的具体工作由JAVA的API完成&#xff08;例如&#xf…

ACM近年区域赛的所有题型

之前写了个退役文章记录想记录下&#xff0c;但是没有干货&#xff0c;还是给删了&#xff0c;所以前面的是退役小记&#xff0c;后面是我个人写近2年所有区域赛场次记录的题型 目录 退役小记&#xff08;没兴趣可以不看&#xff09; 这里简单记下我的acm生涯 省赛和三场区…

MySQL第一弹

目录 一、数据库的基本概念 1、数据 (Data) 2、表 3、数据库 4、数据库管理系统(DBMS) 5、数据库系统 6、DBMS的工作模式如下 二、数据库的发展史 1.第一代数据库&#xff08;淘汰&#xff09; 2.第二代数据库&#xff08;现在用的基本上都是二代&#xff09; 3.第…

Netty02——Netty 入门

目录1.概述1.1.Netty 是什么&#xff1f;1.2.Netty 的作者1.3.Netty 的地位1.4 Netty 的优势2. Hello World2.1 目标2.2 服务器端2.3 客户端2.4 流程梳理2.5.提示3. 组件3.1 EventLoop3.1.1.概述3.1.2.案例演示3.2 Channel3.2.1.ChannelFuture3.2.2.CloseFuture3.2.3.异步提升的…

火车头采集无分页列表-滚动加载列表采集软件免费

互联网的信息和数据不断攀升&#xff0c;每个人都离不开数据的汇总以及分析&#xff0c;不管是整理数据&#xff0c;还是分析同行的数据。今天小编就教大家如何有效地快速抓取自己想要的网页数据。 不管是列表页的网站&#xff0c;还是滚动加载的网站或者需要登录才能采集的网站…

终于学完了9年资深工程师推荐的Java项目化程序设计案例文档

时间飞逝&#xff0c;转眼间毕业七年多&#xff0c;从事 Java 开发也六年了。我在想&#xff0c;也是时候将自己的 Java 整理成一套体系。 这一次的知识体系面试题涉及到 Java 知识部分、性能优化、微服务、并发编程、开源框架、分布式等多个方面的知识点。 写这一套 Java 面试…

时间序列:时间序列模型---随机游走过程(The Random Walk Process)

本文是Quantitative Methods and Analysis: Pairs Trading此书的读书笔记。 随机游走过程是一种特殊的ARMA序列。从分子运动到股价波动等现象都被建模为随机游走。 随机游走过程是AR(1)序列&#xff0c;而且,时间序列在时刻的值为&#xff1a; 随机游走过程本质上是到当前时间…

【ZYNQ】IP核_DDR4_SDRAM(MIG)的详细介绍

IP核_DDR4_SDRAM的详细介绍内核架构内存控制器本机接口控制与数据路径控制路径数据路径读写合并重新排序组状态机ECCRMW(Read-Modify-Write)流程ECC模块ERROR地址时延ECC端口描述地址奇偶校验Clamshell 拓扑迁移功能MicroBlaze MCS ECCMemory 设置内核设计时钟复位协议描述用户…

libxlsxwriter初体验

C如何写Excel&#xff1f; 大家时间都这么宝贵&#xff0c;没有起因的问题是不值得被优先研究的。这篇博客的起因就是希望找到一个比较合适于C的开源库&#xff0c;用以在C中生成Excel文档。其实C可用的开源Excel库&#xff0c;很多博主都已经撰文提及。例如&#xff1a;# c操…

独立站运营优化方法

一个跨境卖家出海&#xff0c;除了建立独立站&#xff0c;要考虑的核心问题是引流和转型。独立站流量从哪里来&#xff1f;面对多元化的海外市场&#xff0c;如何选择更适合品牌的引流渠道和方式&#xff1f; 米贸搜在与海外主流社交媒体、搜索引擎深度连接的基础上&#xff0…

智翔金泰IPO过会:持续经营风险遭质疑,蒋仁生为实际控制人

11月28日&#xff0c;上海证券交易所科创板上市委员会2022年第 99次审议会议召开&#xff0c;重庆智翔金泰生物制药股份有限公司&#xff08;下称“智翔金泰”&#xff09;首发符合发行条件、上市条件和信息披露要求&#xff0c;即获得上市委会议通过。 据了解&#xff0c;上市…

目标检测数据标注项目分析-产品缺陷检测

什么是生产过程中的产品缺陷检测? 生产过程中的缺陷检测是保证产品质量的重要环节。及时发现故障或缺陷&#xff0c;并采取适当的措施&#xff0c;我们可以降低运行和质量相关的风险。但在一般视觉系统中&#xff0c;每个缺陷都必须经过检查及预处理才能被检测到&#xff0c;…