数据挖掘(5)分类数据挖掘:基于距离的分类方法

news2024/11/28 6:38:42

一、分类挖掘的基本流程

最常用的就是客户评估

1.1分类器概念

1.2分类方法

  • 基于距离的分类方法
  • 决策树分类方法
  • 贝叶斯分类方法

1.3分类的基本流程

  1. 步骤

    1. 建立分类模型
      • 通过分类算法对训练集训练,得到有指导的学习、有监督的学习
      • 预定义的类:类标号属性确定
    2. 使用模型进行分类
      • 测试数据集:评估模型的预测准确度
  2. 流程图
  3. 有指导的学习、无指导的学习

    1. 有指导学习(分类):
      • 训练样本的类标号已知
      • 根据训练集中得到的规则对新数据进行分类
    2. 无指导学习(聚类):
      • 训练样本的类标号未知
      • 通过一系列度量等,试图确立数据中的类、聚类的存在。

1.4分类的基本问题

数据准备

评估方法

  • 对用于分类、预测的方法模型进行评估
  • 预测的准确率
  • 速度:建立模型时间、使用模型时间
  • 强壮性(鲁棒性):处理噪声和空缺值的能力
  • 可伸缩(扩展性):处理大数据、构造模型能力
  • 可理解性:模型的可理解能力
  • 规则的优越性:判定树大小、分类规则的简洁性

二、基于距离的分类算法

1.常见的距离度量

欧几里得距离

 曼哈顿距离

 明可夫斯基距离

加权的明可夫斯基距离

2.K近邻分类

  1. 定义:测量不同特征值之间的距离方法进行分类

  2. 工作原理:

  3. 优缺点

    • 优点:精度高、对异常值不敏感,无数据输入假定
    • 缺点:时空复杂度高、适用于数值型、离散型数据
  4. 注意的问题

    1. K值选择:一般选择一个比较小的数,需要用大量实验来选择
    2. 结果的输出:多数表决决定
    3. 距离度量:一般采用p=2时,欧氏距离。同时注意权重问题

三、决策树分类方法

基本概念
  1. 决策树:对数据进行处理、利用归纳算法生成可读的规则和决策树,并使用决策树对数据进行分类。
  2. 基本组成:根节点、内部节点、叶节点
  3. 两个过程
    1. 树的建立
      • 所有训练样本都在根节点
      • 根据属性来划分样本
    2. 树的剪枝
      • 许多分支可能反映的是训练数据中的噪声数据、孤立点,将这些分支剪枝
    3. 注意:
      在决策树算法中,所有属性均为符号值,即离散值,因此
      若有取连续值的属性,必须首先进行离散化。
       
决策树生成算法
  1. 运用算法:贪心算法、自上而下、分治
  2. 构建决策树关键:测试属性的选择
  3. 注意:属性必须是离散值,在运用时要考虑是否离散化
  4. 常见的决策树生成算法:CLS、ID3、C4.5、CAR
 CLS
  1. 只说了划分树的方法、而没有规定选择测试属性的标准和依据
  2. 选用不同属性节点会出现很大的不同
  3. 举例
 ID3
  1. 针对属性选择问题而提出
  2. 选择最大信息增益的属性作为当前划分节点
  3. 步骤:在第六章有详细说明
  4. 在电信行业应用实例:
    • PPT61-70
  5. 优缺点:
    • 优点:简单
    • 缺点:
      • 偏向分隔属性中取值多的一个
      • 只能处理离散属性
      • 无法对未知分隔属性处理
      • 没有剪枝操作、容易受到噪声、波动影响
C4.5
  1. 在ID3算法中:偏向分割属性中取值多的一个
    • 当子集规模越小,每个子集内只有一个行,信息增益必然最大(熵最小)
    • 解决方法:增益比例
    • C4.5根据增益比例选择节点分裂属性
  2. 增益比例G(X,Y)
    • 类别X、分裂属性Y
    • G(X,Y)\;=\;\frac{I(X\vert Y)}{H(Y)}=\frac{H(X)-H(X\vert Y)}{H(Y)}
    • 引入分母H ( Y ) 偏向分割属性中取值较多的一个属性
    • H(Y)\;=\;\overset{}{\underset{}{\sum_{i=1}^NP(y_i)}}\;\log_2P(y_i)
  3. 存在问题与解决的方法:
    • 取值个数过多、过少

      • 分割属性属性取值个数过多的话,H(Y)增大,但是G(X,Y)减小
      • 当取值个数很少时,存在 P(y_i) =1,则H(Y)=0,G(X,Y)就会很大
      • 解决方法
    • ID3只能处理离散分割属性

      • ·原因:如果把连续值看做离散值,会产生分割属性偏向问题
      • 解决方法
    • 对于连续取值的属性,如何选择阈值

      • 将取值从小到大排序:{y1,y2,…,yn}
      • 对于每个yi计算增益比例,找到最大值G(X,Y)
    • ID3:无法对未知分割属性进行处理

      • 原因:分割属性Y的一个取值yi,由于一些原因被计入
      • 解决方法:平均值代替(数值型属性)、概率法代替(离散属性)
    • ID3:无树剪枝,易受到噪声、波动影响

      • 解决方法:K阶交叉验证

      • 用K-1份训练决策树、用剩下的1份去测试性能,总共进行k次迭代

 

Cart算法(分类回归树)
  1. 采用:基于最小距离的基尼指数估计函数
    • 生成二叉树
    • 可以处理连续取值的数据
      • 20、23、24、26,划分为两类一类小于某个数,另一类大于某个数
      • 但是不推荐,最好离散化
  2. Gini指数
    • Gini(D)\;=\;1-{\textstyle\sum_{i=1}^m}p_i^2
    • 取值越小,表达的不确定性越小

    • 属性必须是二叉结构

    • 计算某个属性有几个二叉结构:属性值为n,有\frac{(2^n-2)}2​种划分方法

    • 举例

      •  与ID3算法一致,只是根据Gini_A(D)=\frac{\vert D_1\vert}{\vert D\vert}Gini(D_1)\;+\;\frac{\vert D_2\vert}{\vert D\vert}Gini(D_2)\;计算,选择Gini指标最小的。

决策树剪枝
  1. 目的:处理由于噪声数据训练出的异常,用剪枝来处理过分拟合

  2. 先剪枝:

    • 在完全正确分类训练集之前就停止树的生长。
    • 最直接方法:限定树的最大生长高度,将超过树高的部分进行剪枝
  3. 后剪枝:

    • "完全生长"的树剪去子树

提取分类规则
  1. 从决策树的根节点到任一个叶节点所形成的一条路径构成一条分类规则。
  2. 用if - then 表示

四、贝叶斯分类方法

贝叶斯推理的问题是条件概率推理问题

4.1相关概念

 举例

4.2.朴素贝叶斯分类

 

举例

 

 

 4.3朴素贝叶斯的独立假设

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1096598.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【UE4 材质编辑篇】1.0 shader编译逻辑

UE4新手,学起来()文章仅记录自己的思考。 参考:虚幻4渲染编程(材质编辑器篇)【第一卷:开篇基础】 - 知乎 (zhihu.com) 开篇基础就摸不着头脑,原因是此前完全没有摸过UE4,一点一点记录吧&#x…

18 | 生产环境多数据源的处理方法有哪些

工作中我们时常会遇到跨数据库操作的情况,这时候就需要配置多数据源,那么如何配置呢?常用的方式及其背后的原理支撑是什么呢?我们下面来了解一下。 首先看看两种常见的配置方式,分别为通过多个 Configuration 文件、利…

绘制多个子图fig.add_subplot函数

【小白从小学Python、C、Java】 【计算机等级考试500强双证书】 【Python-数据分析】 绘制多个子图 fig.add_subplot函数 下列代码创建的子图网格大小是? import matplotlib.pyplot as plt fig plt.figure() ax fig.add_subplot(121) ax.plot([1, 2, 3, 4, 5], [1…

做情绪识别,有必要用LLM吗?

卷友们好,我是尚霖。 情绪识别在各种对话场景中具有广泛的应用价值。例如,在社交媒体中,可以通过对评论进行情感分析来了解用户的情绪态度;在人工客服中,可以对客户的情绪进行分析,以更好地满足其需求。 此…

堆与堆排序

一.什么是堆? 1.堆是完全二叉树,除了树的最后一层结点不需要是满的,其它的每一层从左到右都是满的,如果最后一层结点不是满的,那么要求左满右不满。 2.堆分为两类,大根堆和小根堆。 大根堆每个结点都大于…

C++位图,布隆过滤器

本期我们来学习位图,布隆过滤器等相关知识,以及模拟实现,需求前置知识 C-哈希Hash-CSDN博客 C-封装unordered_KLZUQ的博客-CSDN博客 目录 位图 布隆过滤器 海量数据面试题 全部代码 位图 我们先来看一道面试题 给 40 亿个不重复的无符号…

scratch时间游戏 2023年9月中国电子学会图形化编程 少儿编程 scratch编程等级考试三级真题和答案解析

目录 scratch时间游戏 一、题目要求 1、准备工作 2、功能实现 二、案例分析

EtherCAT报文-FPWR(配置地址写)抓包分析

0.工具准备 1.EtherCAT主站 2.EtherCAT从站(本文使用步进电机驱动器) 3.Wireshark1.EtherCAT报文帧结构 EtherCAT使用标准的IEEE802.3 Ethernet帧结构,帧类型为0x88A4。EtherCAT数据包括2个字节的数据头和44-1498字节的数据。数据区由一个或…

芯片学习记录TLP184

TLP184 芯片介绍 TLP184是一款光耦隔离器,它的主要特点包括:高电压耐受能力、高传输速度、高共模隔离能力、低功耗等。它可以用于工业自动化、通信设备、家用电器等领域的电气隔离应用。由一个光电晶体管组成,光学耦合到两个红外发射二极管…

[初始java]——规范你的命名规则,变量的使用和注意事项,隐式转化和强制转化

目录 一、标识符是么 二、命名规则 三、变量 1.定义变量的完整格式: 2.变量的分类 3.变量在内存中的位置 4.注意事项: 四、隐式转化和强制转化 五、表达式和语句的概念 一、标识符是么? 就是给类、变量、方法起名字的,用于标识它们。…

内网、外网、宽带、带宽、流量、网速之间的区别与联系

一.带宽与宽带的区别是什么? 带宽是量词,指的是网速的大小,比如1Mbps的意思是一兆比特每秒,这个数值就是指带宽。 宽带是名词,说明网络的传输速率速很高 。宽带的标准各不相同,最初认为128kbps以上带宽的就…

从0开始学Java:Java基础语法

文章目录 1. 注释2. 关键字(*Keyword*)3. 标识符( Identifier)4. 常量(*Constant*)5. 输出语句6. 变量(*Variable*)7. 计算机如何存储数据7.1 进制7.2 计算机存储单位7.3 二进制数据存储 8. 数据类型8.1 数…

一行 Python 代码搞定训练分类或回归模型

引言 自动机器学习(Auto-ML)是指自动化数据科学模型开发流水线的组件。AutoML 减少了数据科学家的工作量,并加快了工作流程。AutoML 可用于自动化各种流水线组件,包括数据理解,EDA,数据处理,模型训练,超参数…

C++11(lambda表达式)

目录 一、lambda表达式的引入 二、语法格式 三、捕捉方式 四、lambda表达式的底层 1、仿函数的调用 2、lambda的调用 ​编辑 一、lambda表达式的引入 在之前,我们调用函数的方式有:通过函数指针调用,仿函数也能像函数一样调用。而在C…

pgsl基于docker的安装

1. 有可用的docker环境 ,如果还没有安装docker,则请先安装docker 2. 创建pg数据库的挂载目录 mkdir postgres 3. 下载pg包 docker pull postgres 这个命令下载的是最新的pg包,如果要指定版本的话,则可以通过在后面拼接 :versio…

12 | JPA 的审计功能解决了哪些问题

Auditing 指的是什么? Auditing 是帮我们做审计用的,当我们操作一条记录的时候,需要知道这是谁创建的、什么时间创建的、最后修改人是谁、最后修改时间是什么时候,甚至需要修改记录……这些都是 Spring Data JPA 里面的 Auditing…

【LeetCode刷题(数据结构)】:给定一个链表 返回链表开始入环的第一个节点 如果链表无环 则返回 NULL

给定一个链表的头节点 head ,返回链表开始入环的第一个节点。 如果链表无环,则返回 null 如果链表中有某个节点,可以通过连续跟踪 next 指针再次到达,则链表中存在环 为了表示给定链表中的环,评测系统内部使用整数 pos…

【Eclipse】查看版本号

1.在Eclipse的启动页面会出现版本号 2. Eclipse的关于里面 Help - About Eclipse IDE 如下图所示,就为其版本 3.通过查看readme_eclipse.html文件

华为浏览器风险提示 - 解决方案

问题 使用华为手机自带的华为浏览器时,可能会遇到网页提示风险提示且无法打开的情况,如下图。这是因为华为浏览器开启了安全浏览功能,下文介绍解决方案。 解决方案 取消华为浏览器设置中的安全浏览功能即可,操作步骤如下。打开…

EtherCAT报文-FPRD(配置地址读)抓包分析

0.工具准备 1.EtherCAT主站 2.EtherCAT从站(本文使用步进电机驱动器) 3.Wireshark1.EtherCAT报文帧结构 EtherCAT使用标准的IEEE802.3 Ethernet帧结构,帧类型为0x88A4。EtherCAT数据包括2个字节的数据头和44-1498字节的数据。数据区由一个或…