数据挖掘常见算法(分类算法)

news2024/12/28 3:17:21

K-近邻算法(KNN)

K-近邻分类法的基本思想:通过计算每个训练数据到待分类元组Zu的距离,取和待分类元组距离最近的K个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组Zu就属于哪个类别。

KNN算法描述:

  1. 对新的数据集中的每一个数据点,计算其到已知分类信息的数据集中所有数据点的距离。
  2. 将计算得到的所有距离进行排序,一般是升序排序。
  3. 选取其中前K个与未知点离得最近的点。
  4. 统计这K个已知分类信息中各个类别出现的频数,
  5. 选取上述K个点中类别频数最高的,作为未知点的类别。

eg:设某公司现有8名员工的基本信息,包括其个子为高个,中等,矮个的分类标识

公司现刚招进一位名叫刘萍的新员工Z1,令k=5,试采用 k-NN分类算法判断员工刘萍的个子属于哪一类?

解:

决策树

决策树是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。通常决策树主要有三种实现,分别是ID3算法,CART算法和C4.5算法

决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。

决策树分类方法采用自顶向下的递归方式

一棵决策树的生成过程主要分为以下3个部分:

  1. 特征选择
  2. 决策树生成
  3. 剪枝

研究结果表明,一般情况下, 树越小则树的预测能力越强。

理论上讲,后剪枝好于预先剪枝,但计算复杂度大。

典型决策树算法

  • ID3

  ID3算法用信息增益作为属性测试条件,且信息增益值越大以该属性作为分支结点越好。

ID3算法的核心在于使用"信息熵"作为衡量标准,通过计算每个属性的信息增益,选择信息增益最高的属性作为划分标准,重复这个过程直至生成一个能完美分类训练的决策树,采用贪心算法,不能保证全局最优.

递归终止条件:①当分到某个类时,目标属性全是一个值. OR ②当分到某个类时,某个值的比例达到给定的阈值.

信息熵E,一个系统越是有序,信息熵越低;反之,一个系统越混乱,信息熵越高.

info信息量

若存在n个相同概率的消息,则每个消息的概率p=1/n,一个消息传递的信息量为:                -Log2(1/n)=Log2n  (使用以2为底的对数函数,是因为计算机中的信息用二进位编码。)

gain信息增益 ,选择gain(max)作为结点

序号天气气温湿度打网球
1N
2N
3多云Y
4温暖Y
5凉爽正常Y
6凉爽正常N
7多云凉爽正常Y
8温暖N
9凉爽正常Y
10温暖正常Y
11温暖正常Y
12多云温暖Y
13多云正常Y
14温暖N

ID3优点:算法的理论清晰,方法简单,学习能力较强。

决策树ID3算法的主要问题:过拟合,对数据中的噪声敏感以及不稳定.只能处理离散属性数据,不能处理有缺失的数据。

改进策略:使用决策树的改进版本,如随机森林何梯度提升.

  • C4.5

C4.5和ID3都是利用贪心算法进行求解,不同的是分类决策的依据不同.

C4.5算法在结构和递归上与ID3完全相同,区别在于选取决断特征时选择信息增益比最大的.

C4.5既可以处理离散型属性,也可以处理连续型属性.

  • CART

CART算法构成的是一个二叉树,它在每一步的决策时只能是“是”或者“否”,即使一个feature有多个取值,也是把数据分为两部分。选择Gini系数最小值作为结点

ID

有房者

婚姻年收入拖欠贷款

1

单身125K
2已婚100K
3单身70K
4已婚120K
5离异95K
6已婚60K
7离异220K
8单身85K
9已婚75K
10单身90K

    解:   

朴素贝叶斯

整个朴素贝叶斯分类可分为三个阶段:

 第一阶段是准备工作阶段

 第二阶段是分类器训练阶段

第三阶段是应用阶段

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1883335.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

五分钟了解MQ消息集成

一、MQ消息集成的定义 MQ消息集成是通过消息中间件(Message Queue)实现的一种数据集成方式。它通过将数据发送到中间件中,再从中间件中接收数据,实现不同系统之间的数据交换。在MQ消息集成中,发送者和接收者之间不需要…

(六)Shader

Shader Shader(着色器):一种运行在GPU端的类C语言GLSL,用于处理顶点数据以及决定像素片元最终着色。 Shader对三角形数据的处理,分为顶点处理和片元处理,分别称为顶点着色器(Vertex Shader)和片元着色器(Fragment Shader) GLSL …

Ansible 最佳实践:现代 IT 运维的利器

Ansible 最佳实践:现代 IT 运维的利器 Ansible 是一种开源的 IT 自动化工具,通过 SSH 协议实现远程节点和管理节点之间的通信,适用于配置管理、应用程序部署、任务自动化等多个场景。本文将介绍 Ansible 的基本架构、主要功能以及最佳实践&a…

最简单的Qt连接MYSQL的方法

1.报错原因 Qt在某个版本后不在提供编译好的mysql驱动,只在src中提供了驱动源码,使用需要自行编译链接,报错信息如下: QSqlDatabase: QMYSQL driver not loaded QSqlDatabase: available drivers: QSQLITE QODBC QODBC3 QPSQL Q…

BUT000增强字段BAPI结构激活出错(BUPA_CENTRAL_CI_CHANGE)

导语:BP主数据增强字段,需要使用BAPI:BUPA_CENTRAL_CI_CHANGE进行值写入,但是在SAP 2023以后的版本,激活会出错,原因是因为SAP的一个结构同时包含了BUS00_EEW以及BUS00_EEWX两个结构,导致结构字…

A股低开高走,近3000点,行情要启动了吗?

A股低开高走,近3000点,行情要启动了吗? 今天的A股,让人瞪目结舌了,你们知道是为什么吗?盘面上出现2个重要信号,一起来看看: 1、今天两市低开高走,银行板块护盘指数&…

教你如何在群晖上部署m3u8视频下载工具,支持浏览器一键添加下载任务

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 文章内容 📒📝 快速开始📝 群晖部署📝 部署浏览器一键添加任务🎈 常见问题 🎈⚓️ 相关链接 ⚓️📖 介绍 📖 在当今数字化时代,视频内容的下载和管理变得越来越重要。尤其是对于那些使用群晖NAS设备的用户,一…

Android Studio 解决AAPT: error: file failed to compile

1.找到项目下的build.gradle 2.在android语块中添加下面代码 aaptOptions.cruncherEnabled false aaptOptions.useNewCruncher false 12

scratch宇航员太空漫游 2024年6月中国电子学会图形化编程 少儿编程 scratch编程等级考试一级真题和答案解析

目录 scratch宇航员太空漫游 一、题目要求 1、准备工作 2、功能实现 二、案例分析 1、角色分析 2、背景分析 3、前期准备 三、解题思路 1、思路分析 2、详细过程 四、程序编写 五、考点分析 六、 推荐资料 1、入门基础 2、蓝桥杯比赛 3、考级资料 4、视频课程…

如何使用AI学习一门编程语言?

无论你是软件开发新手还是拥有几十年的丰富经验,总是需要学习新知识。TIOBE Index追踪50种最受欢迎的编程语言,许多生态系统为职业发展和横向转型提供了机会。鉴于现有技术具有的广度,抽空学习一项新技能并有效运用技能可能困难重重。 最近我…

四川财谷通抖音小店,诚信经营

在当下这个数字化、网络化的时代,电商平台的兴起极大地改变了人们的购物习惯。抖音小店作为新兴电商模式的代表,凭借其短视频、直播等互动性强、传播速度快的特点,吸引了大量消费者和商家的目光。四川财谷通抖音小店,正是其中一颗…

手把手教你搭建PyTorch环境:MindStudio中PyTorch模型开发实战

本次实验的视频链接如下:​https://www.bilibili.com/video/BV1iA4y1f7o1/ 本次实验在MindStudio上进行,请先按照 教程 配置环境,安装MindStudio。 ​ MindStudio的是一套基于华为自研昇腾AI处理器开发的AI全栈开发工具平台,该IDE上功能很多…

ruoyi—cloud 新建模块+生成代码

1.复制一个模块——修改名字 2.打开模块下的yml文件,修改端口号和名字 (1)修改一个名字 (2)打开yml文件 (3)修改端口号,不要重复 (4)改名字和模块一致 3.…

滑动窗口算法系列|基础概念|例题讲解

大家好,我是LvZi,今天带来滑动窗口算法系列|基础概念|例题讲解 一.滑动窗口问题基础概念 滑动窗口本质上是同向双指针问题,脱胎于双指针.使用两个指针l, r维护一定长度的数组区间,在r 指针遍历的过程中,执行进窗口,判断,更新结果,出窗口 等操作,当r指针遍历完毕,就能得到最后…

Centos安装1Panel面板工具安装可视化界面

1Panel是一种市场调研平台,旨在帮助企业进行市场研究和获取消费者反馈。它通过在线调查和观察研究的方式,帮助企业了解他们的目标市场,并针对市场需求做出相应的决策。 1Panel的特点包括: 1. 全球范围:1Panel在全球范…

计算机网络-第5章运输层

5.1运输层协议概述 5.1.1进程之间的通信 运输层向它上面的应用层提供通信服务,它属于面向通信部分的最高层,同时也是用户功能中的最低层。 通信的两端应当是两个主机中的应用进程。 运输层复用和分用:复用指在发送方不同的应用进程都可以…

WPS图片无法居中、居中按钮无法点击(是灰色的)

在PPT中复制对象到WPS word中后,导致图片一直靠左,而无法居中 直接选中图片是错误的: 这时你会发现居中按钮无法点击(是灰色的) 正确的是选中图片的前面的部分,然后点击居中,或者Ctrl E

免费开源的后端API服务-supabase安装和使用-简直是前端学习者福音

文章目录 它是什么安装和部署关于安装关于部署1、注册用户2、创建组织3、创建项目 创建数据库表(填充内容)填充数据库表 使用postman联调API 它是什么 一个开源免费的后端框架,firebase的替代品。可以简单理解类似于headless cms&#xff0c…

气膜建筑锚固系统:稳如泰山的保护屏障—轻空间

在建设气膜建筑时,很多人都会担心它是否能在强风或恶劣天气中保持稳定。然而,气膜建筑的锚固系统使得这一担忧完全多余。轻空间将揭秘气膜建筑锚固系统的独特设计和卓越性能,展示其如何保证气膜建筑在任何天气条件下都能稳如泰山。 气膜建筑锚…

Error: A JNl error has occurred, please check your installation and try again.

Eclipse 运行main方法的时候报错:Error: A JNl error has occurred, please check your installation and try again. 一、问题分析 导致这个问题,主要原因,我认为是在新版本中,默认的JDK编译版本与我们配置的JDK版本不一致导致的…