【Python机器学习】k-近邻算法简单实践——电影分类

news2024/9/21 18:39:26

k-近邻算法(KNN)的工作原理是:存在一个样本数据集合,也被称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系,输入没有标签的数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。

一般来说,我们只选择样本数据集中出现次数最多的分类,作为新数据分类。

分类场景:通过电影中打斗镜头和接吻镜头,使用k-近邻算法分类爱情片和动作片。

参考数据:

电影名称

打斗镜头接吻镜头电影类型
aaa3104爱情片
bbb2100爱情片
ccc181爱情片
ddd10110动作片
eee995动作片
fff982动作片
zzzzz1890???

k近邻算法的一般流程:

1、收集数据

2、准备数据

3、分析数据

4、训练算法

5、测试算法

6、使用算法

准备:使用Python导入数据

首先,导入所需模块:

from numpy import *
import operator

第一个是科学计算包Numpy;第二个是运算符模块。

然后创建createDataSet函数,它创建数据集合标签:

def createDataSet():
    group=array([[3,104],[2,100],[1,81],[101,10],[99,5],[98,2]])
    labels=['A','A','A','B','B','B']
    return group,labels

这里有6组数据,每组数据有2个已知属性/特征值。

实施kNN分类算法:

运行kNN算法,为每组数据分类:首先,k-近邻算法伪代码:

对未知类别属性的数据集中的每个点依次执行以下操作:

1、计算已知类别数据集中的点与当前点之间的距离;

2、按照距离递增次序排队;

3、选取与当前点距离最小的k个点;

4、确定前k个点所在类别的出现频率;

5、返回前k个点出现频率最高的类别作为当前点的预测分类。

实际Python代码:

def classify0(inX,dataSet,lables,k):
    dataSetSize=dataSet.shape[0]
    #举例计算
    diffMat=tile(inX,(dataSetSize,1))-dataSet
    sqDiffMat=diffMat**2
    sqDistinaces=sqDiffMat.sum(axis=1)
    distances=sqDistinaces**0.5
    sortedDistIndicies=distances.argsort()
    #选择举例最小的前k个点
    classCount={}
    for i in range(k):
        voteIlabel=lables[sortedDistIndicies[i]]
        classCount[voteIlabel]=classCount.get(voteIlabel,0)+1
        #print(classCount)
    #排序
    sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    return sortedClassCount[0][0]

classify0()函数有4个输入参数:用于分类的输入向量是inX,输入的训练样本集为dataSet,标签向量为labels,最后的参数k表示用于选择最近邻居的数目,其中标签向量的元素数目和矩阵dataSet的行数相同。

计算完所有点之间的距离后,可以对数据按照从小到大的次序排序。然后,确定前k个距离最小元素所在的主要分类,输入k总是正整数;最后,将classCount字典分解为元组列表,然后使用程序第2行导入运算符模块的itemgetter方法,按照第二个元素的次序对元组进行排序。

实际运行:

group,lables=createDataSet()
print(classify0([18,90],group,lables,3))

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1948169.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

内存管理概念 (二)

目录 一 . 基本分页存储管理分页存储的几个基本概念页面 与 页面大小地址结构页表 基本地址变换机构具有快表的地址变换机构两级页表 二. 基本分段存储管理分段段表地址变换机构页表和分段的对比段的共享与保护 三. 段页式存储管理分页,分段管理优缺点分页分段段页式…

MATLAB中reset用法

目录 语法 说明 示例 重置坐标区和图窗属性 参数说明 局限性 reset函数的功能是重置图形对象属性。 语法 reset(h) 说明 reset(h) 将指定图形对象的所有属性重置为其默认值。没有默认值的属性不重置。 MATLAB 不会重置任何图形对象的 Position 或 Units 属性。此外&am…

Java-根据前缀-日期-数字-生成流水号(不重复)

🎈边走、边悟🎈迟早会好 小伙伴们在日常开发时可能会遇到的业务-生成流水号,在企业中可以说是比较常见的需求, 可以采用"前缀日期数字"的方式(ps:此方式是需要用到缓存的)前缀:为了…

SpringBoot集成Kaptcha验证码

Hi 👋, Im shy 有人见尘埃,有人见星辰 1. 什么是Kaptcha验证码? Kaptcha是一个强大的开源Java验证码生成库,由Google开发。它能够生成高度可配置的图片验证码,主要用于防止自动化程序滥用web应用,提高应用的安全性。 2. Kaptcha的主要特性 Kaptch…

Kafka快速入门+SpringBoot简单的秒杀案例

1. 主题相关 1.1 创建主题 kafka-topics.sh --create --bootstrap-server [服务器地址] --replication-factor [副本数] --partitions [分区数] --topic [主题名]liberliber-VMware-Virtual-Platform:/home/zookeeper$ docker-compose exec kafka /bin/bash #进入kafka容器 b…

还手动抄字幕?学会这3个视频转文字方法,轻松提取视频中的字幕!

大家有尝试过考试前极限抱佛脚吗? 在下不才,曾经试过一次,轻松在及格线低空飘过【大家不要学不要学不要学,重要的事情说三遍!!!】 至于我当时究竟是怎么做到的呢?其实这里面有点小…

走进数组的奇妙之旅(1)-学习笔记

引言: 在前几篇文章中,我们深入探讨了函数的奥秘。在讲述函数知识的过程中,我们邂逅了一个新的概念,你或许还记得在演示 strcpy函数时,出现的这行代码:char1[20]{0};。当时,你是否感到好奇&…

国产光电耦合器2024年的机遇与挑战

随着科技的飞速发展,2024年对于国产光电耦合器行业来说,无疑是充满机遇与挑战的一年。本文将深入探讨该行业在技术创新、市场竞争、5G时代、新兴应用领域和国际市场拓展方面的现状及未来前景。 技术创新的黄金期 物联网和人工智能技术的迅猛发展&#x…

【实在RPA案例集】实在智能助力中国烟草11省40余家多场景自动化!

近年来,为深入贯彻行业数字化转型战略部署和发展新质生产力体制机制,诸多省市烟草公司及中烟公司大力推进烟草行业数字化转型,然而烟草行业在数字化转型过程中始终存在一个核心痛点,即数据整合的复杂性、系统间的兼容性问题&#…

众人吹捧的Exo并不是真正的分布式推理,而无人问津的Cake或许才是

之前就看到不少抖音AI区的博主吹火爆外网的Exo项目支持多台苹果机运行一个 Llama 70B。我就觉得这个事情或许有些不对劲,而随着最近 Meta 出了 405B,又有朋友向我推荐Exo,我不禁想知道一个 Bonjour 的 Zeroconf 怎么就让 MLX 支持 P2P 的分布…

IP 泄露: 原因与避免方法

始终关注您的IP信息! 您的IP地址不仅显示您的位置,它包含几乎所有的互联网活动信息! 如果出现IP泄漏,几乎所有的信息都会被捕获甚至非法利用! 那么,网站究竟如何追踪您的IP地址?您又如何有效…

【前端学习笔记】CSS基础一

一、什么是CSS 1.CSS 介绍 CSS(Cascading Style Sheets,层叠样式表)是一种用来控制网页布局和设计外观的样式语言。它使得开发者可以分离网页的内容(HTML)和表现形式(样式),提高了…

C语言玩一下标准输出——颜色、闪烁、加粗、下划线属性

文章目录 C语言玩一下标准输出——颜色、闪烁、加粗、下划线属性转换Tip切换内容介绍显示方式字体色背景色 常用光标控制附示例和运行结果 C语言玩一下标准输出——颜色、闪烁、加粗、下划线属性 标准输出格式其属性可控制,控制由一系列的控制码指定。标准输出函数可…

【OAuth2系列】集成微信小程序登录到 Spring Security OAuth 2.0

作者:后端小肥肠 创作不易,未经允许严禁转载。 姊妹篇: 【Spring Security系列】权限之旅:SpringSecurity小程序登录深度探索_spring security 微信小程序登录-CSDN博客 目录 1. 前言 2. 总体登录流程 3. 数据表设计 3.1. sys…

2025第25届北京环卫展|市政设施展|清洗设备展览会

2025第25届北京国际环卫与市政设施及清洗设备展览会 时间:2025年 4月10-12日 地点:全国农业展览馆(朝阳区北三环东路16号) 邀 请 函 指导支持:中国城市环境卫生协会 北京市城市管理委员会 主办单位:北京…

Coggle数据科学 | Kaggle 知识点:时序模型 Prophet

本文来源公众号“Coggle数据科学”,仅用于学术分享,侵权删,干货满满。 原文链接:Kaggle 知识点:时序模型 Prophet Prophet 算法 在时间序列中Prophet是Facebook开源的时间序列预测算法,可以有效处理节假…

CSS学习笔记[Web开发]

CSS学习 本文为学习笔记,参考菜鸟和w3c 文章目录 CSS 简介CSS 插入外部 CSS内部 CSS行内 CSS多个样式表层叠顺序 CSS 语法例子解释 CSS 选择器CSS 元素选择器CSS id 选择器实例CSS 类选择器实例CSS 通用选择器实例CSS 分组选择器CSS 后代选择器CSS 子元素选择器CSS …

Java初级之集合(Map可变参数集合工具类)

目录 1、Map集合 1.1 Map集合的概述和特点 1.2 Map集合的基本功能 1.3 Map集合的获取功能 1.4 Map集合的遍历(一) 1.4 Map集合的遍历(二) 2、HashMap 2.1HashMap集合概述和特点 2.2HashMap集合应用案例 3、TreeMap集合 …

.Net Core 微服务之Consul(三)-KV存储分布式锁

引言: 集合上两期.Net Core 微服务之Consul(一)(.Net Core 微服务之Consul(一)-CSDN博客) 。.Net Core 微服务之Consul(二)-集群搭建)(.Net Core 微服务之Consul(二)-集群搭建-CSDN博客) 目录 一. Consul KV 存储 1. KV 存储介绍 1.1 数据模型 1.2 一致性和…

react18+

主要是围绕函数式组件讲,18主要用就是函数式组件,学习前先熟悉下原生js的基本使用,主要是事件 1、UI操作 1.1、书写jsx标签语言 基本写法和原生如同一则,只是放在一个方法里面返回而已,我们称这样的写法为函数式组件…