数据挖掘(3)特征化

news2024/11/18 19:29:07

从数据分析角度,DM分为两类,描述式数据挖掘,预测式数据挖掘。描述式数据挖掘是以简介概要的方式描述数据,并提供数据的一般性质。预测式数据挖掘分析数据建立模型并试图预测新数据集的行为。

DM的分类:

  • 描述式DM:以简洁、概要的方式描述数据、提供数据的有趣的一般性质。
    • 用以产生数据的特征化和比较描述:
      • 特征化:提供给定数据集的简洁汇总(一个数据集)。
      • 比较(区分):提供两个或多个数据集的比较描述,其中一个为主数据集,其他数据集与其进行对比分析。
  • 预测式DM:分析数据,建立模型,试图预测新数据集的行为。

一、数据概化与基于汇总的特征化

1. 数据概化

  1. 更一般的(而不是较低的) 抽象层描述数据。
  2. 将大量的相关数据从一个较低的概念层次转化到一个比较高的层次。
    • 例如:把location维度上将地区概化为城市,甚至是省份
  3. 方法
    • 数据立方体(或OLAP)方法
    • 面向属性的归纳方法

 

2. 数据立方体(OLAP)方法

  1. 在数据立方体上进行计算和存储结果
  2. 优点:
    1. 数据概化的一种有效实现。
    2. 能计算多种不同的度量值。(count、ave、sum、min、max)
    3. 概化与特征分析通过一系列的数据立方体操作完成,上钻、下钻操作。
  3. 限制:
    * 只能为 非数值类型(离散的)维产生的概念分层。
    * 非数值类型:名义型、序数型(属于离散化的属性)。
    缺乏智能分析,不能自动确定分析中该使用哪些维,概化到哪个层次。

3. 面向属性归纳(AOI)(重点)

  1. 前提:有大量不同的取值
  2. 可处理连续性数据,比数据立方体更加智能
  3. 基本思想:
    1. 首先使用DB 收集任务相关的数据。
    2. 每个属性的不同值的个数进行概化(属性删除、属性概化)。
    3. 基本思想:
      1. 首先使用DB 收集任务相关的数据。
      2. 每个属性的不同值的个数进行概化(属性删除、属性概化)。
    4. 属性删除(重点)
      1. 一个属性有许多不同数值:且
        • 该属性没有定义概化操作符(没有概念分层)。
          • 一个属性拥有许多不同的数值,却没有定义对他的泛化操作。
        • 或较高层概念可以用其他属性表示。
          • eg:出生日期:birth_date:1995-1-1,出生日期是年龄的更高层次,可以将其表现,所以可以将birth_date删除。
    5. 属性概化(重点)
      1. 若一个属性有许多不同数值,且:在该属性上存在概化操作符(有概念分层),则应当选择该概化操作符,并逐层进行概化。
      2. 概化操作符:层次性,比如birth_day:年月日。

4.特征化(面向属性归纳)

两种方法:

  1. 属性概化阈值控制:(控制属性取值个数)
    • 取值范围:[2-8]
    • 属性的不同值个数大于属性概化阈值,则应当删除或概化。
    • 概化层次太高,可加大阈值(属性下钻);反之,减小阈值(属性上卷)。
  2. 概化关系阈值控制:(控制最后的广义元组数量)
    • 控制最后关系、规则的大小。(最后生成广义元组)
    • 设置阈值:[10-30]
    • 概化关系中不同元组的个数超过属性概化阈值,则概化。
    • 概化关系太少,可加大阈值(属性下钻);反之,减小阈值(属性上卷)。
    • 概化到最高层(最底层)也不满足,则需要将其删除。

 

5.例子分析

 

 二、属性相关分析(重点)

  1. 在处理数据中,包含很多与挖掘任务不相关或弱相关的属性,引入属性相关分析。
  2. 如果某个属性可以很好区分该类与其他类,则该属性是任务高度相关的。
  3. 在处理数据中,包含很多与挖掘任务不相关或弱相关的属性,引入属性相关分析。
  4. 如果某个属性可以很好区分该类与其他类,则该属性是任务高度相关的。

1. 属性相关分析法基本思想

  1. 基本思想:给定的数据集,计算某种度量,用于量化属性与给定的类或概念间的相关性。
  2. 常用的度量:信息增益、相关系数、GINI索引、不确定性

2.信息增益法(重点)

  1. 信息增益法:

    1. 决策树归纳学习算法(ID3,C4.5),删除信息量较少的属性,保留信息量较大的属性。
  2. ID3算法

    1. 概念为启发函数。
      •    
      • 熵越大、携带的信息量越大、越不容易被预测

    2. 选择具有最大信息增益的属性作为当前划分节点。
    3. 基本原理:
      • 根据类别已知的训练数据集构造一颗决策树;根据决策树再对类别未知的数据对象进行分类。
      • 每一步选择都是选择最大信息增益。
    4. 决策树:每个节点的选择:选择信息增益最大的属性为当前节点。
    5. 本步骤只是求出不确定性

 

3. 通过熵来进行选择

 

4.属性相关分析步骤

  1. 数据收集:建立目标数据集,以及对比数据集,目标数据集与对比数据集不相交。
  2. 利用保守的AOI方法进行属性相关分析。对初始的数据集进行删除、概化等操作形成候选数据集。
  3. 删除不相关、弱相关的属性。如信息增益度量
  4. 使用AOI产生概念描述:利用更严格的属性概化控制阈值进行属性的归纳。
    • 任务是:概念描述,使用初始目标数据集。
    • 任务是:比较概念描述,使用初始目标数据集,对比数据集。

三、挖掘类比较:区分不同的类

 

  1. 比较概念中,同一个属性要概化到同一个层次。
  2. d—权
    • qa所包含的Cj中数据行数与qa所涵盖的所有数据行数(包括目标数据集及所有对比数据集)之比

四、常见的统计度量指标

  1. 中心趋势:均值、中位数、模(众数)
    • 众数:如果每个数值仅出现1次则无众数
  2. 数据分布:四分位数、方差、标准差
    • 四分位数:
      • 数值下数据集合的第k个百分位数。
      • 中位数:第50个百分位数
      • 第一个四分位数Q_1第25个百分位数;第三个百分位数 Q_3:第75个百分位数
      • 中间四分位区间IQR=Q_3-Q_1
      • 识别孤立点: x \leq Q_1-1.5IQR || x \geq Q_3 + 1.5IQR

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1062796.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

arm代码

RISC精简指令集 长度和执行周期固定 长度为一条机器指令在计算机占用的内存大小 指令周期为CPU执行一条机器指令所发费的时间(时钟周期由CPU工作频率决定) CISC复杂指令集 其架构一般用于PC端 X86和X64都是负载指令集CPU 更注重指令的功能性 指令周期和长度都不固定 ar…

014-第二代软件开发

第二代软件开发 文章目录 第二代软件开发项目介绍正式开始我们的Debian Qt 软件开发主题色QSS U盘检测QFileSystemWatcher 屏幕键盘LibUSB 使用 总结 关键字: Qt、 Qml、 U盘检测、 屏幕键盘、 LibUSB 项目介绍 欢迎来到我们的 QML & C 项目!这…

Qt 综合练习小项目--反金币(2/2)

目录 4 选择关卡场景 4.2 背景设置 4.3 创建返回按钮 4.3 返回按钮 4.4 创建选择关卡按钮 4.5 创建翻金币场景 5 翻金币场景 5.1 场景基本设置 5.2 背景设置 5.3 返回按钮 5.4 显示当前关卡 5.5 创建金币背景图片 5.6 创建金币类 5.6.1 创建金币类 MyCoin 5.6.…

GPT系列论文解读:GPT-2

GPT系列 GPT(Generative Pre-trained Transformer)是一系列基于Transformer架构的预训练语言模型,由OpenAI开发。以下是GPT系列的主要模型: GPT:GPT-1是于2018年发布的第一个版本,它使用了12个Transformer…

JavaEE 网络原理——TCP的工作机制(中篇 三次握手和四次挥手)

文章目录 一、TCP 内部工作机制——连接管理1. 连接(三次握手)(1).有连接和确认应答之间的关系(2). 通过客户端和服务器详细描述三次握手 2. 断开连接(四次挥手)(1)讨论“四次握手”中间步骤的合并问题。(2) 根据简单的 TCP 代码解释断开连接(3) 四次挥手中的两个重要的 TCP 状…

计算机网络-计算机网络体系结构-物理层

目录 一、通信基础 通信方式 传输方式 码元 传输率 *二 准则 2.1奈氏准则(奈奎斯特定理) 2.2香农定理 三、信号的编码和调制 *数字数据->数字信号 数字数据->模拟信号 模拟数据->数字信号 模拟数据->模拟信号 *四、数据交换方式 电路交换 报文交换…

【刷题笔记10.5】LeetCode:排序链表

LeetCode:排序链表 一、题目描述 给你链表的头结点 head ,请将其按 升序 排列并返回 排序后的链表 。 二、分析 这题咱们默认要求:空间复杂度为O(1)。所以这把咱们用自底向上的方法实现归并排序,则可以达到O(1) 的空间复杂…

[极客大挑战 2019]FinalSQL - 异或盲注

1、这题的关键是找注入点,如果选择用户名、密码作为输入点就麻烦了 2、注入点:按钮,点击就传id;当id1时,提示Click others   可以利用id的特性,构造异或匹配   payload: f"1^(ord(substr((select…

nodejs+vue中医体质的社区居民健康管理系统elementui

可以实现首页、中医体质量表、健康文章、健康视频、我的等,在我的页面可以对医生、小区单元、医疗药品等功能进行操作。目前主要的健康管理系统是以西医为主,而为了传扬中医文化,提高全民健康意识,解决人民日益增长的美好生活需要…

基于SpringBoot的图书进销存管理系统

目录 前言 一、技术栈 二、系统功能介绍 用户信息管理 图书类型管理 商品退货管理 客户信息管理 图书添加 客户添加 应收金额 三、核心代码 1、登录模块 2、文件上传模块 3、代码封装 前言 随着信息技术在管理上越来越深入而广泛的应用,管理信息系统的实…

Ubuntu无法引导启动的修复

TLDR:使用Boot-Repair工具。 Boot-Repair Boot-Repair是一个简单的工具,用于修复您在Ubuntu中可能遇到的常见启动问题,例如在安装Windows或其他Linux发行版后无法启动Ubuntu时,或者在安装Ubuntu后无法启动Windows时,…

[CISCN 2019华北Day2]Web1 - 布尔盲注

考点:布尔盲注【注意,sql中的substr初始位置是1不是0】 1、页面提示用id传参,而且我们发现是post传参 2、我们传了id1后提示“Hello, glzjin wants a girlfriend.“ 3、由于这题直接输入查询字符,可以通过字典爆破过滤&#xff0…

深度学习基础之参数量(3)

一般的CNN网络的参数量估计代码 class ResidualBlock(nn.Module):def __init__(self, in_planes, planes, norm_fngroup, stride1):super(ResidualBlock, self).__init__()print(in_planes, planes, norm_fn, stride)self.conv1 nn.Conv2d(in_planes, planes, kernel_size3, …

人机关系不是物理关系也不是数理关系

人机关系是一种复杂的社会技术系统,涉及到人类和机器、环境之间的相互作用和影响。它不仅限于物理接触和数理规律,同时还包括了思维、情感、意愿等方面的交流和互动。在人机关系中,人类作为使用者和机器作为工具(将来可能会上升到…

rust入门一:安装 Hello World

环境: window 11 专业版rust 1.72.1 一、下载安装 直接去官网: https://www.rust-lang.org/tools/install 下载完成后如下: 双击运行一步步安装就行。 如果是更新或卸载,在命令行中运行: rustup update&#xff1a…

ChatGPT基础使用总结

文章目录 一、ChatGPT基础概念大型语言模型LLMs---一种能够以类似人类语言的方式“说话”的软件ChatGPT定义---OpenAI 研发的一款聊天机器人程序(2022年GPT-3.5,属于大型语言模型)ChatGPT4.0---OpenAI推出了GPT系列的最新模型ChatGPT典型使用…

[GXYCTF2019]禁止套娃 无回显 RCE 过滤__FILE__ dirname等

扫除git 通过githack 获取index.php <?php include "flag.php"; echo "flag在哪里呢&#xff1f;<br>"; if(isset($_GET[exp])){if (!preg_match(/data:\/\/|filter:\/\/|php:\/\/|phar:\/\//i, $_GET[exp])) {if(; preg_replace(/[a-z,_]\(…

DevicData-D-XXXXXXXX勒索病毒数据恢复|金蝶、用友、管家婆、OA、速达、ERP等软件数据库恢复

引言&#xff1a; 在数字时代&#xff0c;数据安全成为一项至关重要的挑战。DevicData-D-XXXXXXXX勒索病毒&#xff08;以下简称DevicData病毒&#xff09;是这场战斗中的新敌人&#xff0c;它能够以毁灭性的方式加密您的数据&#xff0c;迫使您在数据和时间之间做出艰难的选择…

nodejs+vue游戏测评交流系统elementui

可以实现首页、发布招募、公司资讯、我的等&#xff0c;另一方面来说也可以提高在游戏测评交流方面的效率给相关管理人员的工作带来一定的便利。在我的页面可以对游戏攻略、我的收藏管理、实际上如今信息化成为一个未来的趋势或者可以说在当前现代化的城市典范中,发布招募等功能…

[图论]哈尔滨工业大学(哈工大 HIT)学习笔记23-31

视频来源&#xff1a;4.1.1 背景_哔哩哔哩_bilibili 目录 1. 哈密顿图 1.1. 背景 1.2. 哈氏图 2. 邻接矩阵/邻接表 3. 关联矩阵 3.1. 定义 4. 带权图 1. 哈密顿图 1.1. 背景 &#xff08;1&#xff09;以地球为建模&#xff0c;从一个大城市开始遍历其他大城市并且返回…