数据挖掘--引论

news2025/1/19 3:16:49

数据挖掘--引论

数据挖掘--认识数据

数据挖掘--数据预处理

数据挖掘--数据仓库与联机分析处理

数据挖掘--挖掘频繁模式、关联和相关性:基本概念和方法

数据挖掘--分类

数据挖掘--聚类分析:基本概念和方法


1.2什么是数据挖掘

数据挖掘是从大量数据中挖掘有趣模式和知识的过程。

数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据。

  1. 数据清理(消除噪声和删除不一致数据)
  2. 数据集成(多种数据源可以组合在一起)
  3. 数据选择(从数据库中提取与分析任务相关的数据)
  4. 数据变化(通过汇总或聚焦操作,把数据变换和统一成适合挖掘的形式)
  5. 数据挖掘(基本步骤,使用智能方法提取数据模式)
  6. 模式评估(根据某种兴趣度量度,识别知识的真正有趣模式)
  7. 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)

1.3数据仓库

数据仓库是一个从多个数据源收集的信息存储库

特点

  • 面向主题
  • 集成的数据
  • 不可更新
  • 随时间不断变化

数据立方体

OLAP(On-line Analytical Processing,联机分析处理)是在基于数据仓库多维模型的基础上实现的面向分析的各类操作的集合。

OLAP的多维分析操作包括:钻取(Drill-down)、上卷(Roll-up)、切片(Slice)、切块(Dice)以及旋转(Pivot),下面还是以上面的数据立方体为例来逐一解释下:

  钻取(Drill-down):在维的不同层次间的变化,从上层降到下一层,或者说是将汇总数据拆分到更细节的数据。

  比如通过对2010年第二季度的总销售数据进行钻取来查看2010年第二季度4、5、6每个月的消费数据,如图;当然也可以钻取浙江省来查看杭州市、宁波市、温州市……这些城市的销售数据。

  上卷(Roll-up):钻取的逆操作,即从细粒度数据向高层的聚合。

如将江苏省、上海市和浙江省的销售数据进行汇总来查看江浙沪地区的销售数据,如图。

  切片(Slice):选择维中特定的值进行分析,比如只选择电子产品的销售数据,或者2010年第二季度的数据。

  切块(Dice):选择维中特定区间的数据或者某批特定值进行分析,比如选择2010年第一季度到2010年第二季度的销售数据,或者是电子产品和日用品的销售数据。

  旋转(Pivot):即维的位置的互换,就像是二维表的行列转换,如图中通过旋转实现产品维和地域维的互换。

1.4可以挖掘什么类型的模式

类/概念描述:特征化与区分

1. 数据特征化

对同类的数据进行汇总,输出方式为饼图、条图等

2. 数据区分

将两个同一属性但不同值的对象进行比较

挖掘频繁模式、关联和相关性

模式

  • 频繁项集:频繁出现的东西
  • 频繁子序列:顾客倾向购买电脑然后购买鼠标
  • 频繁子结构:子结构有不同的结构形式

关联

  • 单维关联规则:x->z
  • 多维关联规则:x,y->z

相关性

属性-值

用于预测分析的分类与回归(了解)

决策树、神经网络、相关分析

聚类分析

聚类是根据类内事物的相似性最大、类间事物的相似性最小的原则把数据对象进行聚类或分组

聚类与分类不同,它们的区别如下:

  • 分类需要训练数据集,属于有监督的学习;而聚类不需要训练数据集,属于无监督的学习。
  • 在进行分类以前,已知道数据的分类情况;而进行聚类以前,对目标数据的分类情况一无所知。常用的聚类方法包括统计分析方法、机器学习方法、神经网络方法等

离群点分析

异常

所有模式都是有趣的吗

数据挖掘的知识有三个重要问题需要回答:

  • 什么样的模式是有价值(感兴趣)的?价值度量
  • 挖掘系统能产生所有有价值的模式吗?算法的完全性问题
  • 数据挖掘到的模式是否都是有价值的知识?优化问题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1801944.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

武汉理工大学 云计算与服务计算 期末复习

云计算与的定义 长定义是:“云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。” 短定义是:“云计算是通过网络按需提供可动态伸缩的廉价计算服务。 云计…

Pytorch语义分割(1)-----加载数据

一、数据标注 (1)使用labelme来进行分割标注,标注完之后会得到一个json,数据格式如下: 二、获取数据信息 读取json文件来得到标签信息,读取jpg文件获取图像。在语义分割中用到的数据无非就是原始图片&…

Redis-sentinel(哨兵模式)的搭建步骤及相关知识

1、什么是redis-sentinel,和redis主从复制相比,它具有什么优势 1.1、redis主从复制 Redis主从复制是一种用于数据冗余和可伸缩性的机制,它将一台Redis服务器的数据复制到其他Redis服务器。在这种模式下,数据会实时地从一个主节点…

SwiftUI六组合复杂用户界面

代码下载 应用的首页是一个纵向滚动的地标类别列表,每一个类别内部是一个横向滑动列表。随后将构建应用的页面导航,这个过程中可以学习到如果组合各种视图,并让它们适配不同的设备尺寸和设备方向。 下载起步项目并跟着本篇教程一步步实践&a…

wx 生命周期

以下内容你不需要立马完全弄明白,不过以后它会有帮助。 下图说明了页面 Page 实例的生命周期。

记录jenkins pipeline ,git+maven+sonarqube+打包镜像上传到阿里云镜像仓库

1、阶段视图: 2、准备工作 所需工具与插件 jdk:可以存在多版本 maven:可以存在多版本 sonar-scanner 凭证令牌 gitlab:credentialsId sonarqube:配置在sonarqube208服务中 3、jenkinsfile pipeline {agent anystages {stage(从…

GSS7000卫星导航模拟器结合RTKLIB 接收NTRIP网络RTCM数据以输出RS232

本文聚焦,使用GSS7000仿真GNSS NTRIP,利用开源工具RTKLIB 作为NTRIP Client 接受GSS7000仿真的RTCM数据, 并通过STRSVR将收到的RTCM数据通过USB-RS232数据线吐出,并转给DUT,让其获得RTK -FIXED 固定解。 废话不多说&a…

微信小程序 导航navigation-bar

属性类型默认值必填说明最低版本titlestring否导航条标题2.9.0loadingbooleanfalse否是否在导航条显示 loading 加载提示2.9.0front-colorstring否导航条前景颜色值,包括按钮、标题、状态栏的颜色,仅支持 #ffffff 和 #0000002.9.0background-colorstring…

如何提高网站收录?

GSI服务就是专门干这个的,这个服务用的是光算科技自己研发的GPC爬虫池系统。这个系统通过建立一个庞大的站群和复杂的链接结构,来吸引谷歌的爬虫。这样一来,你的网站就能更频繁地被谷歌的爬虫访问,从而提高被收录的机会。 说到效…

Python语言读取图像

import cv2 import numpy as np width 640 # 图像宽度height 480 # 图像高度channels 3 # 颜色通道数imgEmpty np.empty((height, width, channels), np.uint8) # 创建空白数组imgBlack np.zeros((height, width, channels), np.uint8) # 创建黑色图像 RGB0imgWhite …

全自动饲料机械成套设备:养殖好帮手

全自动饲料机械成套设备是一套能够自动完成饲料生产全过程的机械设备。从原料的粉碎、混合、制粒,到成品的包装、储存,再到生产过程的监控与管理,全部实现自动化操作。减轻了人工劳动强度,提高了生产效率,同时也保证了…

指针在C/C++中的魔力:一级指针与二级指针

什么是指针? 指针是一个变量,它的值是另一个变量的地址。在C/C中,指针是一个强大的工具,可以让我们直接操作内存地址。指针的主要用途包括动态内存分配、数组和字符串处理、函数参数传递等。 一级指针 一级指针(也称为…

Prometheus+Altermanager实现钉钉告警

PrometheusAltermanager实现钉钉告警 Prometheus和Altermanager的安装这里就不赘述了,我之前的文章有写到 不记得的小伙伴可以去看看Prometheus和Altermanager的安装使用 直接开始上操作 下载钉钉并打开,先创建一个接收告警信息的钉钉群 添加一个自定…

数据结构【二叉树——堆】

二叉树——堆 1.二叉树的概念与性质二叉树的概念特殊的二叉树 2.二叉树的性质3.二叉树的存储结构顺序结构链式结构 4.堆堆的概念堆接口的实现(默认为大堆)堆的结构堆的初始化堆的销毁栈的插入堆的删除取堆顶数据堆的元素个数堆的判空 完整代码Heap.hHeap…

ArcGIS for js 4.x 加载图层

二维&#xff1a; 1、创建vue项目 npm create vitelatest 2、安装ArcGIS JS API依赖包 npm install arcgis/core 3、引入ArcGIS API for JavaScript模块 <script setup> import "arcgis/core/assets/esri/themes/light/main.css"; import Map from arcgis…

计网期末复习指南(五):运输层(可靠传输原理、TCP协议、UDP协议、端口)

前言&#xff1a;本系列文章旨在通过TCP/IP协议簇自下而上的梳理大致的知识点&#xff0c;从计算机网络体系结构出发到应用层&#xff0c;每一个协议层通过一篇文章进行总结&#xff0c;本系列正在持续更新中... 计网期末复习指南&#xff08;一&#xff09;&#xff1a;计算机…

【Go语言精进之路】构建高效Go程序:零值可用、使用复合字面值作为初值构造器

&#x1f525; 个人主页&#xff1a;空白诗 文章目录 引言一、深入理解并利用零值提升代码质量1.1 深入Go类型零值原理1.2 零值可用性的实践与优势1.2.1 切片(Slice)的零值与动态扩展1.2.2 Map的零值与安全访问1.2.3 函数参数与零值 二、使用复合字面值作为初值构造器2.1 结构体…

KT1404A语音芯片USB连电脑,win7正常识别WIN10无法识别USB设备

一、简介 KT1404A语音芯片画的板子&#xff0c;USB连接电脑&#xff0c;win7可以正常识别到U盘&#xff0c;WIN10提示无法识别USB设备&#xff08;获取设备描述符失败&#xff09;&#xff0c;这是什么问题 问题 首先&#xff0c;这款芯片已经出货非常非常多了&#xff0c;所…

【已有项目版】uniapp项目发版pda -- Android Studio

必备资料清单&#xff1a; 构建完成的app项目 在HBuilderX开发的uniapp项目 .keystore文件 文章目录 1. 安装Android Studio&#xff1a;https://developer.android.google.cn/studio?hlzh-cn2. 安装Android 离线SDK&#xff1a;https://nativesupport.dcloud.net.cn/AppDocs…