第2章 k-近邻算法

news2024/11/16 18:10:45

文章目录

  • 第2章 k-近邻算法
    • 2.1k-近邻算法概述
      • 2.1.1准备:使用Python导入数据
      • 2.1.2实施kNN分类算法
    • 2.2示例:使用k近邻算法改进约会网站的
      • 2.2.2分析数据:使用Matplotlib创建散点图
      • 2.2.3准备数据:归一化数值
      • 2.2.4测试算法

第2章 k-近邻算法

2.1k-近邻算法概述

它的⼯作原理是:
存在⼀个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每⼀数据与所属分类的对应关系。输⼊没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征**最相似数据(最近邻)**的分类标签

  • 优点:精度⾼、对异常值不敏感、⽆数据输⼊假定。
  • 缺点:计算复杂度⾼、空间复杂度⾼。 适⽤数据范围:数值型和标称型。

2.1.1准备:使用Python导入数据

import numpy as np
def createDataSet():
    group = np.array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
    labels = ['A', 'A', 'B', 'B']
    return group, labels
group, labels=createDataSet()

2.1.2实施kNN分类算法

对未知类别属性的数据集中的每个点依次执行以下操作:

  1. 计算已知类别数据集中的点与当前点之间的距离;
  2. 按照距离递增次序排序;
  3. 选取与当前点距离最⼩的k个点;
  4. 确定前k个点所在类别的出现频率;
  5. 返回前k个点出现频率最⾼的类别作为当前点的预测分类。
from collections import Counter
def classify0(inX, dataSet, labels, k):
    size = dataSet.shape[0]
    dif_mat = np.tile(inX, (size, 1))-dataSet
    square_mat = dif_mat**2
    square_distance = square_mat.sum(axis=1)
    indexs = square_distance.argsort()
    lable_count = Counter([labels[index] for index in indexs[:k]])
    sort_count = sorted(lable_count.items(), key=lambda tp: -tp[1])
    return sort_count[0][0]


print(classify0([0, 0], group, labels, 3))
B

2.2示例:使用k近邻算法改进约会网站的

分类标签:

  • 不喜欢的⼈didntLike
  • 魅力⼀般的⼈smallDoses
  • 极具魅力的⼈largeDoses

数据存放在文本文件datingTestSet.txt中,每个样本数据占据⼀行,总共有1000行。样本主要包含以下3种特征:

  • 每年获得的飞行常客⾥程数Number of frequent flyers per year
  • 玩视频游戏所耗时间百分⽐Percentage of Time Spent Playing Video Games
  • 每周消费的冰琪淋公升数Liters of Ice Cream Consumed Per Week
import numpy as np


def file2matrix(filename):
    fr = open(filename)
    arrayOlines = fr.readlines()
    numberOfLines = len(arrayOlines)
    returnMat = np.zeros((numberOfLines, 3))
    classLabelVector = []
    index = 0
    for index in range(numberOfLines):
        line = arrayOlines[index].strip()
        listFromLine = line.split('\t')
        returnMat[index, :] = listFromLine[0:3] #存在类型转换
        classLabelVector.append(listFromLine[-1])
    return returnMat, classLabelVector


datingDataMat, datingLabels = file2matrix('datingTestSet.txt')
print(type(datingDataMat[0][0]))
print(datingDataMat)
print(datingLabels[:7])
<class 'numpy.float64'>
[[4.0920000e+04 8.3269760e+00 9.5395200e-01]
 [1.4488000e+04 7.1534690e+00 1.6739040e+00]
 [2.6052000e+04 1.4418710e+00 8.0512400e-01]
 ...
 [2.6575000e+04 1.0650102e+01 8.6662700e-01]
 [4.8111000e+04 9.1345280e+00 7.2804500e-01]
 [4.3757000e+04 7.8826010e+00 1.3324460e+00]]
['largeDoses', 'smallDoses', 'didntLike', 'didntLike', 'didntLike', 'didntLike', 'largeDoses']

2.2.2分析数据:使用Matplotlib创建散点图

import matplotlib
import matplotlib.pyplot as plt
fig = plt.figure()
plt.figure(figsize=(20, 20))
ax = fig.add_subplot(111,projection='3d')
colors={'largeDoses':'r', 'smallDoses':'y', 'didntLike':'g'}
clr=[colors[x] for x in datingLabels]
ax.scatter(datingDataMat[:,0],datingDataMat[:,1], datingDataMat[:,2],color=clr)
ax.set_xlabel('Flight Mileage')
ax.set_ylabel('Games Time ')
ax.set_zlabel('Liters of Ice Cream')

plt.show()

在这里插入图片描述

x、y、z坐标分别是每年获得的飞行常客里程数、玩视频游戏所耗时间百分比、每周消费的冰琪淋公升数
红、黄、绿分别是不喜欢的人didntLike、魅力⼀般的人smallDoses、极具魅力的人largeDoses
上图可看出,颜色相同的点大多各自聚集在一起,可以使用k近邻

2.2.3准备数据:归一化数值

距离: d = ( x 1 − x 2 ) 2 + ( y 1 − y 2 ) 2 + ( z 1 − z 2 ) 2 d=\sqrt{(x_1-x_2)^2+(y_1-y_2)^2+(z_1-z_2)^2} d=(x1x2)2+(y1y2)2+(z1z2)2
但是由于参数的大小不同,并不能直接使用,如里程40920变为41000实际上没有百分比1%变为3%变化得大,所以需要归一化处理(转为0到1): n e w V a l u e = o l d V a l u e − m i n m a x − m i n \mathrm{newValue}=\cfrac{\mathrm{oldValue}-\mathrm{min}}{\mathrm{max}-\mathrm{min}} newValue=maxminoldValuemin

from sklearn.preprocessing import MinMaxScaler
print(datingDataMat[:3,:3])
transfer=MinMaxScaler(feature_range=(0, 1))
datingDataMat=transfer.fit_transform(datingDataMat)
print(datingDataMat[:3,:3])
[[4.092000e+04 8.326976e+00 9.539520e-01]
 [1.448800e+04 7.153469e+00 1.673904e+00]
 [2.605200e+04 1.441871e+00 8.051240e-01]]
[[0.44832535 0.39805139 0.56233353]
 [0.15873259 0.34195467 0.98724416]
 [0.28542943 0.06892523 0.47449629]]

可以看出,数据得到了很好的归一化

2.2.4测试算法

采用90%作为训练数据,10%为测试数据

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

train_data,test_data,train_lable,test_lable=train_test_split(datingDataMat,datingLabels,test_size=0.1)
test_number=len(test_data)
acc_number=0
for i in range(test_number):
    prediction=classify0(test_data[i],train_data,train_lable,10)
    print('%3dth: label:%s,prediction:%s'%((i+1), test_lable[i],prediction))
    if prediction==test_lable[i]:
        acc_number+=1
print('Accuracy:%.2f%%'%(acc_number/test_number*100))

    
  1th: label:smallDoses,prediction:smallDoses
  2th: label:smallDoses,prediction:smallDoses
  3th: label:largeDoses,prediction:largeDoses
  4th: label:largeDoses,prediction:largeDoses
  5th: label:largeDoses,prediction:smallDoses
  6th: label:largeDoses,prediction:largeDoses
  7th: label:smallDoses,prediction:smallDoses
...
 98th: label:didntLike,prediction:didntLike
 99th: label:didntLike,prediction:didntLike
100th: label:didntLike,prediction:didntLike
Accuracy:94.00%

可以看出,在此数据集中,k近邻的正确率高达90%以上

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/707690.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++中的继承(超详细)

文章目录 &#x1f4cd;前言C中的继承1.继承的概念及定义1.1 继承的概念1.2 继承的定义1.2.1 定义格式1.2.2 继承关系和访问限定符1.2.3 继承基类成员访问方式的变化 2. 基类和派生类对象赋值转换3.继承中的作用域4.派生类的默认成员函数5.继承与友元6.继承与静态成员7.复杂的菱…

Anaconda详细安装及配置教程(Windows)

Anaconda详细安装及配置教程&#xff08;Windows&#xff09; 一、下载方式1、官网下载2、网盘下载 二、安装三、配置四、创建虚拟环境 一、下载方式 1、官网下载 点击下载 点击window下载即可。 2、网盘下载 点击下载 二、安装 双击运行 点next 点I agree next 如…

4.26 能量谱

上述函数使用时域计算就很复杂&#xff0c;但是使用帕斯瓦尔就比较简单

git 获取两个版本间的变更文件,生成增量包

可用于代码在无git环境情况下的做增量包 #下面命令可以获取两个版本直接的变更文件 git diff 开始版本号 截止版本号 --name-only 使用管道命令生成压缩包 git diff 开始版本号 截止版本号 --name-only | xargs zip update.zip 牛逼之处就是打出来的压缩包是带有目录层级关系的…

ubuntu20 准备阶段

1. 换源 换成中国的源&#xff0c;图中为腾讯源 2. 系统自带中文输入法 中文输入法 3. 终端Terminator的安装 终端Terminator的安装 4. 截图shtter shutter 5. ros安装 ros安装 6. gazebo11 安装ros自带版本11&#xff0c;可以使用

前端-css选择器

CSS选择器 水平居中 margin: 0 auto;div、p、h 需要设置元素的宽度&#xff0c;否则会自动撑满父元素 <divstyle"margin: 0 auto; width:200px; border: 1px solid #cccccc; text-align: center;" >Hello World! </div>复合选择器 后代选择器 父选择…

Go切片底层原理

slice在函数参数传递过程中是值传递还是引用类型传递&#xff1f; 严格来说&#xff0c;是值传递&#xff0c;但是又呈现出了引用传递的效果 上面图片显示出现了引用传递的现象 但是下面的图片又不符合引用传递的现象了 Slice基本原理 本质是一个结构体 上面的图片也解释了为…

如何使用Jenkins来定时执行JMeter脚本,并查看测试报告

【摘要】 Jenkins是一个开源的持续集成工具&#xff0c;可以帮助开发人员自动构建、测试和部署软件项目。JMeter是一个流行的性能测试工具&#xff0c;它可以模拟多种负载情况来测试应用程序的性能和稳定性。本文将介绍如何使用Jenkins来定时执行JMeter脚本&#xff0c;并查看测…

让集合数据操控指尖舞动:迭代器和生成器的精妙之处

文章目录 &#x1f499;迭代器&#xff08;Iterator&#xff09;迭代器的特点&#xff1a;迭代器的优点&#xff1a;代码案例&#xff1a; &#x1f49a;生成器&#xff08;Generator&#xff09;生成器的特点&#xff1a;生成器的优点&#xff1a;代码案例&#xff1a; &#…

Java面试Day12

1.意向锁是什么&#xff1f;有什么作用&#xff1f;它是表级锁还是行级锁&#xff1f; 意向锁是什么 在使用 InnoDB 引擎的表里时对某些记录加上「共享锁」之前&#xff0c;需要先在表级别加上一个「意向共享锁」 在使用 InnoDB 引擎的表里时对某些记录加上「独占锁」之前&…

RK3568 NPU YOLOV5S 目标检测DEMO

视频流解析 硬件环境 开发板&#xff1a;RK356X 系统&#xff1a;Debian11 获取源码 程序源码内置SDK目录 $ ls external/rknpu2/examples/rknn_yolov5_video_demo/build build-android_RK356X.sh build-android_RK3588.sh build-linux_RK356X.sh build-linux_RK3588…

《计算机系统与网络安全》第五章 消息认证与数字签名

&#x1f337;&#x1f341; 博主 libin9iOak带您 Go to New World.✨&#x1f341; &#x1f984; 个人主页——libin9iOak的博客&#x1f390; &#x1f433; 《面试题大全》 文章图文并茂&#x1f995;生动形象&#x1f996;简单易学&#xff01;欢迎大家来踩踩~&#x1f33…

4.28 周期信号的傅里叶变换

非周期信号的谱之所以是连续的&#xff0c;是因为非周期信号相当于信号是无穷大的&#xff0c;那w -> 0&#xff0c;因此就演变成了连续谱了 原来的Fn变成了高度为无穷小&#xff0c;w谱线之间拼起来的连续谱了&#xff0c;由于无穷小的量我们看不到它&#xff0c;那怎么办呢…

77、基于STM32单片机学生信息管理系统指纹密码控制设计(程序+原理图+参考论文+相关资料+开题报告+任务书+元器件清单等)

单片机主芯片选择方案 方案一&#xff1a;AT89C51是美国ATMEL公司生产的低电压&#xff0c;高性能CMOS型8位单片机&#xff0c;器件采用ATMEL公司的高密度、非易失性存储技术生产&#xff0c;兼容标准MCS-51指令系统&#xff0c;片内置通用8位中央处理器(CPU)和Flash存储单元&a…

【TCP/IP】利用I/O复用技术实现并发服务器 - epoll

目录 select的缺陷 epoll函数 epoll_create epoll_ctl epoll_wait 基于epoll的回声服务器实现 select的缺陷 在之前&#xff0c;我们使用了select函数完成了对回声服务器端I/O的复用&#xff0c;但是从代码上依然存有缺陷&#xff0c;主要集中在&#xff1a; 每次调用se…

ModaHub魔搭社区:向量数据库Milvus性能优化问题(三)

目录 Milvus 的导入性能如何&#xff1f; 边插入边搜索会影响搜索速度吗&#xff1f; 批量搜索时&#xff0c;用多线程的收益大吗&#xff1f; 为什么同样的数据量&#xff0c;用 GPU 查询比 CPU 查询慢&#xff1f; Milvus 的导入性能如何&#xff1f; 客户端和服务端在同…

__attribute__机制

__attribute__((constructor))和 __attribute__((destructor)) __attribute__((constructor))&#xff1a;放在main函数之前执行的函数的前面。 __attribute__((destructor))&#xff1a;放在main函数之后执行的函数的前面。 测试代码 #include <stdio.h> #include &l…

RocketMQ 详解

&#x1f3c6;今日学习目标&#xff1a; &#x1f340;RocketMQ 详解 ✅创作者&#xff1a;林在闪闪发光 ⏰预计时间&#xff1a;30分钟 &#x1f389;个人主页&#xff1a;林在闪闪发光的个人主页 &#x1f341;林在闪闪发光的个人社区&#xff0c;欢迎你的加入: 林在闪闪发光…

【Shell】复制用户传参的文件夹

授权 cd /Users/lion/Downloads/shell-test-demos chmod ux *.sh#!/bin/bashprintHelp() {echo "-p pic (required) path for pic"exit 1 }while getopts p:h OPT; docase $OPT inp) path"$OPTARG" ;;esac done# check api_key exists if [ -z "$pat…

IDEA字体配置

IDEA默认字体&#xff1a;JetBrains Mono 1、下载Monaco字体&#xff08;windows版&#xff09;&#xff1a;下载地址&#x1f448; 2、双击安装 3、在IDEA中切换Monaco字体