机器学习探索计划——KNN算法流程的简易了解

news2026/2/15 5:45:25

文章目录

数据准备阶段
KNN预测的过程
- 1.计算新样本与已知样本点的距离
- 2.按照举例排序
- 3.确定k值
- 4.距离最近的k个点投票
scikit-learn中的KNN算法

数据准备阶段

import matplotlib.pyplot as plt
import numpy as np

# 样本特征
data_X = [
    [0.5, 2],
    [1.8, 3],
    [3.9, 1],
    [4.7, 4],
    [6.2, 6],
    [7.5, 5],
    [8.3, 3.5],
    [9.1, 7],
    [9.8, 4.5]
]

# 样本标记
data_y = [0, 0, 0, 1, 1, 1, 1, 1, 1]

X_train = np.array(data_X)
y_train = np.array(data_y)

X_train

array([[0.5, 2. ],
       [1.8, 3. ],
       [3.9, 1. ],
       [4.7, 4. ],
       [6.2, 6. ],
       [7.5, 5. ],
       [8.3, 3.5],
       [9.1, 7. ],
       [9.8, 4.5]])

y_train

array([0, 0, 0, 1, 1, 1, 1, 1, 1])

选出样本标记为0的样本特征

y_train == 0

array([ True,  True,  True, False, False, False, False, False, False])

X_train[y_train==0]

array([[0.5, 2. ],
       [1.8, 3. ],
       [3.9, 1. ]])

X_train[y_train==0, 0]

array([0.5, 1.8, 3.9])

X_train[y_train==0, 1]

array([2., 3., 1.])

X_train[y_train==1, 0].shape

(6,)

X_train[y_train==1, 1].shape

(6,)

plt.scatter(X_train[y_train==0, 0], X_train[y_train==0, 1], color='red', marker='x')
plt.scatter(X_train[y_train==1, 0], X_train[y_train==1, 1], color='black', marker='o')
plt.show()

在这里插入图片描述

增加新的样本点

data_new = np.array([4, 5])

plt.scatter(X_train[y_train==0, 0], X_train[y_train==0, 1], color='red', marker='x')
plt.scatter(X_train[y_train==1, 0], X_train[y_train==1, 1],color='black', marker='o')
plt.scatter(data_new[0], data_new[1], color='b', marker='^')
plt.show()

在这里插入图片描述

KNN预测的过程

1.计算新样本与已知样本点的距离

for data in X_train:
    print(np.sqrt(np.sum((data - data_new) ** 2)))

4.6097722286464435
2.973213749463701
4.001249804748512
1.2206555615733703
2.4166091947189146
3.5
4.5541190146942805
5.478138369920935
5.821511831131154

distances = [np.sqrt(np.sum((data - data_new) ** 2)) for data in X_train]
distances

[4.6097722286464435,
 2.973213749463701,
 4.001249804748512,
 1.2206555615733703,
 2.4166091947189146,
 3.5,
 4.5541190146942805,
 5.478138369920935,
 5.821511831131154]

2.按照举例排序

np.sort(distances)

array([1.22065556, 2.41660919, 2.97321375, 3.5       , 4.0012498 ,
       4.55411901, 4.60977223, 5.47813837, 5.82151183])

sort_index = np.argsort(distances)
sort_index

array([3, 4, 1, 5, 2, 6, 0, 7, 8], dtype=int64)

3.确定k值

k = 5

4.距离最近的k个点投票

first_k = [y_train[i] for i in sort_index[:k]]
first_k

[1, 1, 0, 1, 0]

from collections import Counter

Counter(first_k)

Counter({1: 3, 0: 2})

Counter(first_k).most_common()

[(1, 3), (0, 2)]

Counter(first_k).most_common(1)

[(1, 3)]

predict_y = Counter(first_k).most_common(1)[0][0]
predict_y

得到结果为1，KNN判断新加入的点data_y的标记应该为1，从图中也可以看到，新加入的点更靠近标记为1的点群。

scikit-learn中的KNN算法

 from sklearn.neighbors import KNeighborsClassifier

kNN_classifier = KNeighborsClassifier(n_neighbors=5)

kNN_classifier.fit(X_train, y_train)

data_new.reshape(1, -1)

array([[4, 5]])

predict_y = kNN_classifier.predict(data_new.reshape(1, -1))
predict_y

array([1])

与手写KNN得到的结果相同，皆判断为1。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1251056.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

机器学习探索计划——KNN算法流程的简易了解

文章目录

数据准备阶段

KNN预测的过程

1.计算新样本与已知样本点的距离

2.按照举例排序

3.确定k值

4.距离最近的k个点投票

scikit-learn中的KNN算法

相关文章

通过JMeter压测结果来分析Eureka多种服务下线机制后的服务感知情况

跑步运动耳机哪个牌子好？运动型无线耳机排行榜

【数据库】数据库物理执行计划最基本操作-表扫描机制与可选路径，基于代价的评估模型以及模型参数的含义

SAS9.2软件“OLE：对象的类没有在注册数据库中注册“问题的解决. 2023-11-25

十大排序之计数排序、桶排序、基数排序（详解）

ros2文件package.xml与cmakelists.txt比较

P10 C++类和结构体的区别

中国信通院王蕴韬：从“好用”到“高效”，AIGC需要被再次颠覆

crontab 定时检测 Tomcat 状态脚本实现及注意事项

我的崩溃。。想鼠？？！

prometheus|云原生|grafana-9.4.3版本的主题更改

网络层(IP协议)

vscode导入STM32CubeIDE工程文件夹未定义警告清除方法

如何设置图像的尺寸大小？用它提高效率100%

今年的校招薪资真的让人咋舌！

MYSQL基础知识之【数据类型】

基于IDEA+MySQL+SSM开发的证券交易结算系统

tinyViT论文笔记

基于人工蜂鸟算法优化概率神经网络PNN的分类预测 - 附代码

力软vue前端开发：使用params跳转传参404问题解决