4 机器学习之决策树

news2024/11/19 10:22:18

学习笔记自,慕课网 《Python3 入门人工智能》
https://https://coding.imooc.com/lesson/418.html#mid=32776
决策树、异常检测、主成分分析

常用的分类方法:
在这里插入图片描述
逻辑回归的思路:
在这里插入图片描述
决策树的思路:
在这里插入图片描述
在这里插入图片描述

1. 决策树

1.1 ID3决策树:利用信息增益来划分节点

信息熵是度量样本集合纯度最常用的一种指标。假设样本集合D中第k类样本所占的比重为pk,那么信息熵的计算则为下面的计算方式
在这里插入图片描述
当这个Ent(D)的值越小,说明样本集合D的纯度就越高
有了信息熵,当我选择用样本的某一个属性a来划分样本集合D时,就可以得出用属性a对样本D进行划分所带来的“信息增益”
在这里插入图片描述
一般来讲,信息增益越大,说明如果用属性a来划分样本集合D,那么纯度会提升,因为我们分别对样本的所有属性计算增益情况,选择最大的来作为决策树的一个结点,或者可以说那些信息增益大的属性往往离根结点越近,因为我们会优先用能区分度大的也就是信息增益大的属性来进行划分。当一个属性已经作为划分的依据,在下面就不在参与竞选了,我们刚才说过根结点代表全部样本,而经过根结点下面属性各个取值后样本又可以按照相应属性值进行划分,并且在当前的样本下利用剩下的属性再次计算信息增益来进一步选择划分的结点,ID3决策树就是这样建立起来的。

1.2 使用ID3举例

以兴趣为节点计算信息增益
在这里插入图片描述
在这里插入图片描述
1、 计算表格中使用ID3算法建立决策树时各节点的信息增益
2、 根据信息增益画出决策树
3、 编程建立决策树模型

2. 异常检测

识别数据里的异常点
在这里插入图片描述
在这里插入图片描述

3. 主成分分析 PCA

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/149049.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java 防御XSS攻击实战与示例代码

XSS, 跨站脚本攻击, 简单来说, 就是非本站点的脚本被执行了。 关于XSS 的详细介绍和防御参考: XSS(跨站脚本)攻击与预防 和 跨站脚本攻击(XSS)及防范措施。 本篇介绍在Java 项目中如何快速修复XSS 漏洞。本篇使用的是黑名单的方式, 对于非法字符进行转义。 黑名单的方式…

Win10的IE以及其他浏览器无法使用的解决方法

前言 最近,突然无法使用Win10的IE,网络连接正常,重置过IE,恢复过高级选项设置,检查过无代理设置,清理过缓存删除IE个人设置,以及清理过DNS解析缓存,IE都会显示无法访问此页面的网络…

Django3还可以这样学之Django的创建

Django (Flask说:“其实我是你的双胞胎哥哥啊”) 一、前言 传统的web框架为MVC设计模式,即M是指业务模型,V是指用户界面,C则是控制器。虽然这种设计模式耦合性低、可重用性高、部署快等特点, 但是完全理解该设计模式…

【机器学习】贝叶斯算法详解 + 公式推导 + 垃圾邮件过滤实战 + Python代码实现

文章目录一、贝叶斯简介二、贝叶斯公式推导三、拼写纠正案例四、垃圾邮件过滤案例4.1 问题描述4.2 朴素贝叶斯引入五、基于朴素贝叶斯的垃圾邮件过滤实战5.1 导入相关库5.2 邮件数据读取5.3 构建语料表(字典)5.4 构建训练集的特征向量5.5 朴素贝叶斯算法…

web服务器的相关配置

一:简单介绍web服务 1、什么是www www是world wide web的缩写,也就是全球信息广播的意思。通常说的上网就是使用www来查询用户所需要的信息。www可以结合文字、图形、影像以及声音等多媒体,并通过可以让鼠标单击超链接的方式将信息以Interne…

数字化时代,企业如何培养员工的数据思维意识

很多的企业,他们都有意识想通过大数据或者商业智能BI来推动一些数据信息化的项目建设,比如企业的财务分析、经营管理分析、供应链分析、运营、市场分析等等,这都是很好的表现。 但在实际跟进和深入沟通的时候就发现很多分析的想法是没有办法…

OpenCV(9)-图像轮廓

图像轮廓 图像轮廓概述 图像轮廓是具有相同颜色或强度的连续点的曲线 作用: 可以用于图形分析物体的识别与检测 注意: 为了检测的准确性,需要先对图像进行二值化或Canny操作画轮廓时会修改输入的图像 轮廓查找API: findConto…

FastDFS简介/架构/安装/代码

1简介/架构 1.1简单介绍 分布式文件系统,看名字就知道,它可以存储在不同的机器上。肯定也要有路由功能。 特点 备份容错,负载均衡,动态扩容 场景 0-500MB之间大小的文件存储(图片,短视频,文…

LeetCode[703]数据流中的第K大元素

难度:简单题目:设计一个找到数据流中第 k大元素的类(class)。注意是排序后的第 k大元素,不是第 k个不同的元素。描述:请实现 KthLargest类:KthLargest(int k, int[] nums) 使用整数 k 和整数流 …

【北邮果园大三上】数据挖掘

数据挖掘 大数据 定义: 体积时效性种类值 数据挖掘模型 1.归纳已知 2.预测未来 1. 数据的质量处理和度量方法 1.1数据 1.1.1数据属性 属性类型: 标称(nominal)序数(ordinal)区间(interval)比率(ratio) 非对称的属性(asymmetric attribute): 对于非对称的…

airserver怎么下载使用?IOS设备无线传送到Mac电脑的屏幕上教程

AirSever是一种通用的镜像接收器,非常适合镜像iPhone或Android视频文件。 它可以将简单的大屏幕或投影仪变成通用的屏幕镜像接收器。 使用启用了AirSever的设备,您可以用户拥有iPhone,iPad,Mac,Android,Nex…

Proxy详解

Proxy Proxy(代理),首先理解代理是什么意思,才能更便于了解Proxy的作用。 Proxy是一个代理,可以这么理解,就相当于它是一个快递代理点,快递会运输到该代理点,我们取件只需要去对应的代理点取件…

2023年宝塔面板快速部署Rocket.Chat,安卓,PC,ios端使用

官方网站快速部署代码:Docker & Docker Compose - Rocket.Chat Docs 环境:centos 服务器必须大于2核2G,否则docker占用资源太多会起不起来 安装宝塔面板 一 . 宝塔面板安装docker 当然也可以手动安装:如果您还没有,请确保您已安装并运行Docker和Docker-comp…

Docker 数据卷

问题:通过镜像创建一个容器。容器一旦被销毁,则容器内的数据将一并被删除。但有些情况下,通过服务器上传的图片出会丢失。容器中的数据不是持久化状态的。 那有没有一种独立于容器、提供持久化并能服务于多个容器的东西呢? 什么是…

SpringCloud组件之Gateway网关详细教程

目录 一:概念 1.1:什么是微服务网关? 1.2: 为什么需要使用网关,网关的作用? 1.3网关的好处? 二:Gateway网关的快速入门 1.快速创建 2.网关路由的流程 3:Gateway断言工厂 &…

Java复习—运算符

运算符 运算符:对字面量或者变量进行操作的符号 表达式:用运算符把字面量或者变量连接起来,符合Java语法的式子就可以称为表达式。 算数运算符 符号作用加法作用-减法作用*乘法作用/除法法作用%取模、取余 在代码中,如果有小数…

Qt OpenGL(05)标准化设备坐标(NDC)

文章目录OpenGL中的坐标简介标准化设备坐标标准化设备坐标绘制 x y z 三个轴线完整代码顶点着色器片段着色器Widget.hWidget.cpp总结OpenGL中的坐标简介 OpenGL 基于绘制流水线模型,而且绘制流水线的第一个步骤是对顶点进行一 系列的操作, 其中大部分属于几何操作。…

3-2内存管理-虚拟内存

文章目录一.虚拟内存的基本概念二.请求分页管理方式(一)页表机制(二)缺页中断机构(三)地址变换机构三.页面置换算法(一)最佳置换算法OPT(二)先进先出页面置换…

flowable 简介

flowable 简介目录概述需求:设计思路实现思路分析1.管理2.二、初识Flowable五大引擎3.2.通过编写程序的方式来构造ProcessEngineConfiguration对象4.流程引擎API架构图5.flowable 表结构说明参考资料和推荐阅读Survive by day and develop by night. talk for impor…

Leetcode_单周赛_327

6283. 正整数和负整数的最大计数 代码 直接遍历统计即可 class Solution {public int maximumCount(int[] nums) {int a 0, b 0;for (int i 0; i < nums.length; i) {if (nums[i] > 0) a;else if (nums[i] < 0) b;}return Math.max(a, b);} }6285. 执行 K 次操作…