【OpenCV-Python】教程:7-1 理解 kNN (k-Nearest Neighbour)

news2024/9/21 22:30:37

OpenCV Python 理解kNN (k-Nearest Neighbour)

【目标】

  • 理解 kNN 算法的基本概念

【理论】

kNN是监督学习中最简单的分类算法之一。其思想是在特征空间中搜索与测试数据最接近的匹配。我们将用下图来研究它。

在这里插入图片描述

在图像中,有两个"家族":蓝色正方形和红色三角形。我们把每个"家族"称为一个类。他们的房子显示在他们的城镇地图上,我们称之为特征空间。您可以将特征空间视为所有数据投影的空间。例如,考虑一个2D坐标空间。每个基准有两个特征,一个x坐标和一个y坐标。你可以在二维坐标空间中表示这个数据,对吧? 现在想象有三个特征,你将需要3D空间。现在考虑N个特征:你需要N维空间,对吧? 这个N维空间是它的特征空间。在我们的图像中,您可以将其视为具有两个特征的二维情况。

现在考虑一下,如果一个新成员来到镇上,并创建了一个新家,会发生什么,如绿色圆圈所示。他应该加入这些蓝色或红色家族(或类)之一。我们把这个过程叫做分类。这个新成员究竟应该如何归类? 由于我们处理的是kNN,让我们应用算法。

一个简单的方法是看看谁是他最近的邻居。从图像上看,很明显它是红三角家族的一员。所以他被归为红三角。这种方法被称为最近邻分类,因为分类只依赖于最近邻。

但是这种方法有一个问题! 红三角可能是最近的邻居,但如果附近也有很多蓝色方块呢?那么蓝色方块在该区域比红色三角形有更多的力量,所以仅仅检查最近的一个是不够的。相反,我们可能想要检查一些k个最近的家族。然后,无论哪个家族在他们中占多数,新来的人都应该属于这个家族。在我们的图像中,让我们取k=3,即考虑3个最近的邻居。新成员有两个红色邻居和一个蓝色邻居(有两个蓝色邻居等距,但由于k=3,我们只能取其中一个),所以他应该再次加入红色家族。但如果取k=7呢?然后他有5个蓝色邻居和2个红色邻居,应该加入蓝色家族。结果将随k的选择值而变化。请注意,如果k不是奇数,我们可以得到一个平局,就像上面k=4的情况一样。我们会看到我们的新成员有2个红色和2个蓝色邻居作为他的四个最近的邻居,我们需要选择一种打破平局的方法来进行分类。重申一下,这种方法被称为k近邻,因为分类取决于k个近邻

同样,在kNN中,我们确实考虑了k个邻居,但我们对所有邻居都给予了同等的重视,对吧?这合理吗?以k=4为例。我们可以看到,2个红色邻居实际上比其他2个蓝色邻居更接近新成员,所以他更有资格加入红色家庭。我们如何从数学上解释呢?我们根据每个邻居与新来的人的距离给他们一些权重:离他近的人得到更高的权重,而离他远的人得到更低的权重。然后,我们将每个家庭的总权重分别相加,并将新来者归类为总权重较高的家庭的一部分。这被称为修正kNN或加权kNN。

你在这里看到了什么重要的东西?

  • 因为我们必须检查从新来者到所有现有房屋的距离,以找到最近的邻居,所以你需要镇上所有房屋的信息,对吗?如果有很多房子和家庭,需要大量的内存,也需要更多的时间来计算。
  • 几乎没有时间进行任何形式的“训练”或准备。我们的“学习”只包括在测试和分类之前记忆(存储)数据。

【代码】

在这里插入图片描述

import cv2 
import numpy as np 
import matplotlib.pyplot as plt 

# 生成 25 个特征数据,
trainData = np.random.randint(0, 100, (25, 2)).astype(np.float32)

# 生成标签 0 或 1
responses = np.random.randint(0, 2, (25, 1)).astype(np.float32)

plt.figure()
plt.title("kNN demo")
plt.xlabel("x")
plt.ylabel("y")

# 画红色的标签
red = trainData[responses.ravel() == 0]
plt.scatter(red[:, 0], red[:, 1], 80, 'r', '^')

# 画蓝色的标签
blue = trainData[responses.ravel() == 1]
plt.scatter(blue[:, 0], blue[:, 1], 80, 'b', 's')

# 新来的数据
newcomer = np.random.randint(0, 100, (1, 2)).astype(np.float32)
plt.scatter(newcomer[:, 0], newcomer[:, 1], 80, 'g', 'o')

# 创建 kNN
knn = cv2.ml.KNearest_create()
knn.train(trainData, cv2.ml.ROW_SAMPLE, responses)
ret, results, neighbours, dist = knn.findNearest(newcomer, 3)
print("result:  {}\n".format(results))
print("neighbours:  {}\n".format(neighbours))
print("distance:  {}\n".format(dist))


# plt.show()
plt.savefig('result.png', bbox_inches='tight')
  • 输出
result:  [[1.]]

neighbours:  [[1. 1. 1.]]

distance:  [[100. 221. 377.]]

【接口】

  • KNearest_create
cv2.ml.KNearest_create(		) ->	retval

创建一个空的kNN模型
然后需要用 StatModel::train 来训练。

  • findNearest
cv2.ml_KNearest.findNearest(	samples, k[, results[, neighborResponses[, dist]]]	) ->	retval, results, neighborResponses, dist

找到最近邻的类别标签,以及对应的距离。

  • samples: 输入样本,按行存储,单精度浮点矩阵
  • k: 最近邻的数量,必须大于1
  • results: 每个输入样本的预测结果(回归或分类)向量。
  • neighborResponses: 对应邻居的标签类别
  • dist: 对应邻居的距离

其他见 OpenCV: cv::ml::KNearest Class Reference

训练见 OpenCV: cv::ml::StatModel Class Reference

【参考】

  1. OpenCV: Understanding k-Nearest Neighbour
  2. NPTEL notes on Pattern Recognition, Chapter 11
  3. Wikipedia article on Nearest neighbor search
  4. Wikipedia article on k-d tree
  5. OpenCV: cv::ml::KNearest Class Reference

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/99206.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一文看懂 InnoDB 的内存淘汰逻辑(LRU)

InnoDB淘汰的逻辑是怎样的呢? InnoDB 内存管理用的是最近最少使用 (Least Recently Used, LRU) 算法,这个算法的核心就是淘汰最久未使用的数据。 下图是一个 LRU 算法的基本模型。 InnoDB 管理 Buffer Pool 的 LRU 算法,是用链表来实现的。…

Go项目实战:02-微服务micro services

1、微服务(micro services) 单体式架构服务 过往大家熟悉的服务器。 特性: 1、复杂性随着开发越来越高,遇到问题解决困难。2、技术债务逐渐上升。3、耦合度高,维护成本大。 - 1、出现bug,不容易排查 - 2…

[ 数据结构 -- 手撕排序算法第六篇 ] 快速排序

文章目录前言一、常见的排序算法二、快速排序的基本思想三、快速排序的不同实现1.hoare版本2. 挖坑法3. 前后指针法4.三种版本单趟排序结果5.快速排序三数取中优化6.小区间优化四、快速排序的特性总结前言 手撕排序算法第六篇:快速排序! 从本篇文章开始…

JavaSE面试题(二)

1:说一说八大基本数据类型 2:面向对象 面向对象的核心,就是类和对象。Java中的面向对象的思想:万物皆对象。 类:是对一类事物的描述,是抽象的,看不见,摸不着。 对象:是实…

week 7 吴恩达 调参 ,batch norm,softmax

文章目录前言7.1调整参数的过程 Turing progress7.2、scale7.3 如果在实践中探寻超参数7.4 batch normalization 批量归一化7.5 将BN算法拟合到神经网络中7.6 为什么 BN有效?7.7测试时的BN7.8 7.9 softmax regression7.10深度学习的框架前言 7.1调整参数的过程 Turi…

CentOS 8:环境变量

环境变量 环境变量,就是放在当前环境中的变量 无论Linux ,还是Windows,都有环境变量 比如,最常用的环境变量 PATH, JAVA_HOME 定义环境变量 export JAVA_HOME/opt/jdk1.8 显示环境变量 echo $JAVA_HOME 查看所有环境变量…

c语言位操作和变量存储类型

c语言位操作 c语言变量存储类型 格式[存储类型说明符] 数据类型说明符 变量名,例如,auto int a;但一般情况下auto是省略的 其他类型说明符还有:static 、extern、register auto最普通动态存储,但所在范围的函数程序结束后&#xf…

处理模型视图中的选择

有关在视图中选择的项的信息存储在QItemSelectionModel类中,这将维护单个模型中项的模型索引,并且独立于任何视图。由于一个模型可以有多个视图,因此可以在视图之间共享选择,从而允许应用程序以一致的方式显示多个视图 选择由选…

Redis高并发锁(二)乐观锁

文章目录redis乐观锁1. watch 监控key2. multi 开启事务3. exec 执行事务4. 演示1) 先用两个连接AB访问redis2) A监控key,此时库存是45013) A开启事务,并且将库存-1,事务进入队列等待执行4)此时B更新库存为20015)A开始执行事务业务改造1. Sto…

C++11--包装器与可变参数摸板

文章目录可变参数模板递归函数方式展开参数包函数包装器举个例子bind函数举个例子可变参数模板 C11的新特性可变参数模板能够让我们创建可以接受可变参数的函数模板和类模板 // Args是一个模板参数包,args是一个函数形参参数包 // 声明一个参数包Args... args&…

Spring Cloud之Feign消费和Hystrix熔断

Spring Cloud的Feign消费和Hystrix熔断 现如今,由于互联网的流行,很多特产都可以在网上订购,你可以在堆满积雪的冬北订购海南的椰子,海南的椰子就会采用很快的物流方式调送到堆满积地的东北,就相当于在本地实现了买椰…

Opencv(C++)笔记--图像金字塔

目录 1--图像金字塔的原理 2--图像金字塔的用途 3--Opencv API 3-1--拉普拉斯金字塔上采样 3-2--高斯金字塔下采样 3-3--代码实例 4--参考 1--图像金字塔的原理 图像金字塔常用于图像缩放(resize)和图像分割当中,不同分辨率的图像以金…

CSS基础总结(四)浮动

文章目录 一、为什么需要浮动 1.传统网页布局的三种方式 2.标准流 二、浮动的概述 三、浮动的特性 1.脱标 2.一行显示,顶部对齐 3.具备行内块元素特性 四、清除浮动 1.为什么要清除浮动 2.清除浮动的本质与策略 3.清除浮动的四大方法 (1&…

解决安卓刷新recyclerView时导致itemDecoration分栏标题绘制错乱(重叠和隔空现象)

安卓的 itemDecoration 装饰器是个好东西,可以与adapter适配器一样闪耀。但是刷新的时候有可能发生重叠绘制或者莫名隔空的BUG。 三、原作 本文分栏标题装饰器的原作者为简书博主endeavor等人: https://www.jianshu.com/p/8a51039d9e68 二、隔空 紧…

Java+MySQL基于ssm的残疾人管理系统

我国残疾人人口数量相当巨大,据中残联给出的数据,我国约有8500万残疾人。残疾人是社会弱势群体,并且数量庞大影响人数众多,如何能更好的对这些残疾人进行关注和帮助他们更好的生活是当下社会研究的一个主要问题之一,于是我们提出了残疾人信息管理系统的设计与开发。 本课题是一…

内核驱动修改内存

概述 本文会利用内核驱动进行读写取第三方应用内存。 内核实现会使用内联汇编 所以对于内核数据结构每个windwos版本不一样需要判断,本文使用19041所写代码。 命令行:winver 即可查看你当前的版本,如下图19042.631 就是构建版本号 或者调用…

痞子衡嵌入式:低功耗高性能边缘人工智能应用的新答案 - MCXN947

大家好,我是痞子衡,是正经搞技术的痞子。今天痞子衡给大家介绍的是恩智浦MCX系列MCU的新品MCXN947。 自 2015 年恩智浦和飞思卡尔合并成新恩智浦之后,关于它们各自的 Arm Cortex-M 内核通用微控制器代表作系列 LPC 和 Kinetis 接下来怎么发展…

数据结构 | 链式二叉树【递归的终极奥义】

递归——这就是俄罗斯套娃吗😮🌳链式二叉树的结构及其声明🌳链式二叉树的四种遍历方式📕先序遍历(先根遍历)递归算法图解📕中序遍历(中根遍历)📕后序遍历&…

TIA PORTAL 导出导入数据块

1.导出:选择要导出的数据块鼠标右键-->从块生成源-->仅所选块或包含所有关联块-->最后选择数据块的存储路径保存 2.导入:选外部源文件-->添加新的外部文件-->选择要导入的数据块文件-->单击文件鼠标右键-->从源生成块,最…

Vue3——ref(),reactive(),watch(),computed()的使用

都需要先引入才能使用 ref()函数 作用:创建一个响应式变量,使得某个变量在发生改变时可以同步发生在页面上 模板语句中使用这个变量时可以直接使用变量名来调用,在setup内部调用时则需要在变量明后面加上一个.value获取它的值,原…