数据挖掘(1)概述

news2025/1/15 13:04:31

一、数据仓库和数据挖掘概述

1.1 数据仓库的产生

  1. 数据仓库与数据挖掘:
    • 数据仓库和联机分析处理技术(存储)。
    • 数据挖掘:在大量的数据中心挖掘感兴趣的知识、规则、规律、模式、约束(分析)。
  2. 数据仓库用于决策分析:
    1. 数据仓库:是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,并不是‘大型数据库’。
    2. 数据仓库与数据库的区别:
数据库数据仓库
事务处理决策分析
保持事务处理的当前状态保存过去和当前的数据
大量数据库的集成

1.2 数据挖掘的基本概念

  1. 数据挖掘定义:

    1. 数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。
    2. 几层含义:
      • 数据:真实、大量、含噪声。
      • 发现的是用户感兴趣的知识。
      • 发现的知识:可接受、可理解、可运用。
      • 不要求发现全部的知识,仅对特定的问题。
  2. 数据挖掘的一个过程
  3. 数据挖掘的功能

    1. 关联分析(描述)
      • 反映一个事件和其他事件之间依赖或关联的知识。
      • 广泛用于:购物篮、事务数据分析。
    2. 聚类分析(描述)
      • 最大化类内的相似性和最小化类间的相似性(无监督的学习方法)
      • 找出数据集中的共性与差异,将具有共性的对象聚合在相应的类中。
      • 无指导的观察室学习,没有预先定义的类
    3. 分类挖掘(预测)
      • 分类:同类事物共同性质的特征型知识,不同事物之间的差异型特征知识。(有监督的学习方法)
        • 类别:特征联系,决策树
      • 有指导的事例式学习,有预先定义的类
      • 过程:分析训练集中数据,为每个类别建立分类分析模型;用这个分类分析模型对DB中的其他记录进行分类。
      • 聚类与分类的区别:
    4. 孤立点分析
      • 对差异和极端特例的描述
      • 孤立点:事物偏离常规的异常现象。
      • 没有孤立点分析算法。
      • 异常检测:通过构建正常行为模型(特征描述),来检测与特征描述严重偏离的新的模式。

二、数据仓库的基本概念

2.1概念

数据仓库(Data Warehouse)是在数据库已经大量存在的情况下,为了进一步挖掘数据资源,为了决策需要而产生的,它并不是所谓的“大型数据库

2.2数据仓库的两个主要作用

  • 存储经过加工处理的决策需要的数据

  • 查询决策分析的依据

2.3数据仓库的关键特征

  1. 面向主题(从面向应用到面向主题
  2. 集成的(需要使用数据清洗、数据继承来处理数据)
  3. 随时间而变化的(只进行两种数据访问:数据的初始装载、查询操作)
  4. 不容易丢失的(包含时间元素)

2.4为什么要建立数据仓库

  1. 事务型处理(DB):
    1. 日常事务处理
    2. 处理细 节 信 息
  2. 分析型处理(DW):
    1. 用于管理员的决 策 分
    2. 处理宏 观 信 息 
  3. 区别

2.5数据仓库与数据挖掘的关系

  1. 区别:
    • 数据仓库:存储技术,提供对不同决策的数据和信息。
    • 数据挖掘:分析技术,从数据中挖掘信息。
  2. 联系:
    • 成功的数据挖掘:通过访问正确的、完整的、集成的数据,进行深层次的分析。
    • 数据仓库并不是数据挖掘的必要条件:
      • DM不一定建立在DW之上,DW不是实施DM的必要条件。
      • 在开发DW过程中所进行的数据集成、清洗、准备,才使得DW对DM有重要的价值。

2.6数据立方体

1. 概念分层(单个维)
  1. 定义:定义一个映射序列,将低层概念映射到更一般的高层概念中。
  2. 比如:在城市->省份->国家->州,维度中,我们可以从中选取一个维度进行考查。
2.方体的格(维的集合)
  1. 定义:给定一个维的集合,将在不同汇总级别上给出的数据立方体。
  2. 0维方体:存放最高层的汇总,顶 点 方 体 
  3. 最底层汇总:基 本 方 体 

 2.7 数据仓库的三级模型

1.概念模型:
  1. 首先将现实世界抽象为概念模型、然后再用计算机世界的模型和语言描述。
  2. 数据仓库的第一层、最高层
  3. 据仓库用信 息 包 图表示概念模型。
  4. 信息包图

eg:确定维度、级别(类别、概念分层、将维度细分)、度量(指标与事实)。 

2.逻辑模型:
  1. 数据仓库第二层
  2. 三种表示:星型、雪花模型、事实星座模型。
  3. 几个基本概念:
    1. 维:视角、观点;eg:时间维度、产地维度。
    2. 维表:每一维都有一个表与之对应。
    3. 事实:数字度量。
    4. 事实表:事实的名称或度量、以及每个相关维表的关键字。
  4. 星型模型
    1. 事实表在中心,周围围绕地连接维表。

    2.  通常由三种逻辑模型表示法:星型模型,雪花模型,事实星座模型
  5. 雪花模型
    1. 相当于增加了外键,维护表与表的关系,减少了冗余。

  6. 事实星座模型
    1. 对主题的数据仓库,需要多个事实表共享维表。
3.物理模型:
  1. 定义:是逻辑模型在数据仓库中的实现。
  2. 主要进行:数据存储结构、存储策略、索引策略、存储分配优化。
  3. 两种常见的存储结构:
    1. 分布式存储
      1. 物理上分布、逻辑上统一。
    2. 集中式存储
      • 通过FC(光纤通信)交换机来直接访问所有数据,而不需要其它节点。

2.8DW的设计

  1. 数据仓库设计与数据库设计的区别(** )
  2. DW设计的原则
    1. 以数据驱动为中心,数据驱动和需求驱动相结合
    2. 数据驱动:根据当前数据基础和质量进行数据源分析
    3. 需求驱动:根据业务方向需求进行调整。

三、联机分析处理

建立数据仓库的目的,是要为决策提供必要的支持。

3.1 OLAP概述

1. OLAP的基本概念
  1. 定义:联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。
  2. 核心技术是,OLAP是多维数据分析工具的集合。
  3. OLAP与数据仓库的多维数据组织管理正好形成相互结合相互补充的关系。
2. 几个关系?
  1. OLAP与DW
    1. 数据仓库:侧重于存储和管理面向主题的数据。
    2. OLAP:侧重于数据仓库中的数据分析,并将其转换成辅助决策的信息。
      • 多维数据分析,这与数据仓库的多维数据组织管理相互结合、相互补充。
      • 使得DW能快速分析查询,从而能有效的联机分析。
  2. OLAP(联机处理分析)与OLTP()
    1. OLTP:关系型数据库的主要应用,增删改查。事务型
    2. OLAP:数据仓库的主要应用,分析与决策,并提供查询结果。分析型
      • OLAP的数据来自于OLTP数据库

3. OLAP的特性
  1. 快速性:在5s内对用户大大部分分析要求作出反应。
  2. 可分析性:能处理任何逻辑分析和系统分析。
  3. 多维性:关键属性,提供数据的多维视图和分析
  4. 信息性:应能及时获取信息,管理大容量信息。

3.2 OLAP的分析方法

  • 切片

    选定一个二维子集,切出一个平面

  • 切块

    选定一个三位子集,切出立方体

  • 旋转

    改变一个报告显示的维方向

  • 钻取

    根据维层次改变数据的粒度

1.相关概念

2. 切片
  1. 广义:某一维上一个维成员。降1维
  2. 狭义:选取一个二维子集。降n-2维
3. 切块
  1. 广义:在某一维上选定某一区间的维成员,没有降维
    • 比如考察2021年1月到2021年6月的信息。
  2. 狭义:选取一个三维子集。降n-3维
4. 钻取(某个维的层次性)

 5. 旋转

3.3 OLAP的数据组织 

ROLAP

rolap是基于关系型数据库的OLAP

  • 利用关系数据库存储、管理、聚合数据。
  • 良好扩展性,可以简单增加新维
  • 星型模型
  • 响应时间长。

MOLAP

MOLAP是基于多维数据库存储方式建立的OLAP,采用类似多维数组的结构

  • 多维数据库
  • 预综合的数据快速索引。
  • 响应速度快。
  • 增加新的维度,需要重新建立数据库。

HOLAP

HOLAP是混合型的

  • 常用维:多维数据库存储。
  • 不常用的维:用ROLAP存储。

ROLAP和MOLAP的对比

  1. 数据存储速度:ROLAP需要将SQL语句转化为多维存储语句,临时拼合为多维数据立方体,因此ROLAP的响应时间较长
  2. 维度变化的适应性:MOLAP增加新的维度,则多维数据库通常需要重新建立,ROLAP对于维表的变更有很好的适应性

四、数据挖掘的基本概念

4.1 什么是数据挖掘

  1. 定义:从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1052660.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在Qt中,怎么获取到在mainwindow.ui文件中添加的控件

2023年9月30日,周六晚上 假设我在mainwindow.ui中添加了一个名为textEdit的QTextEdit对象 在mainwindow.cpp中,可以通过ui对象来获取到这个控件

妙不可言的Python之旅----(一)

初识Python python的起源 1989年,为了打发圣诞节假期,Gudio van Rossum吉多 范罗苏姆(龟叔)决心开发一个新的解释程序(Python雏形) 1991年,第一个Python解释器诞生 Python这个名字&#xff…

怎么修改jupyter lab 的工作路径而不是直接再桌面路径打开

要修改Jupyter Lab的工作路径,你可以按照以下步骤操作: 打开终端或命令提示符窗口。 输入 jupyter lab --generate-config 命令来生成Jupyter Lab的配置文件。 找到生成的配置文件,通常会位于 ~/.jupyter/jupyter_notebook_config.py。 使…

C++ AB组辅导课

C AB组辅导课 蓝桥杯C AB组辅导课 第一讲 递归与递推 Acwing1、整数划分(递归)2、acwing92. 递归实现指数型枚举10凑算式(全排列)11李白打酒(全排列)12、棋牌总数(递归)13、剪邮票(递归)14、1050. 鸣人的影分身 (递归或动态规划(记忆化搜索))15、方格分割 (dfs思维&…

蓝桥杯每日一题2023.9.30

蓝桥杯大赛历届真题 - C&C 大学 B 组 - 蓝桥云课 (lanqiao.cn) 题目描述 题目分析 对于此题,首先想到了dfs进行一一找寻,注意每次不要将重复的算进去,故我们每次循环可以记录一个开始的位置,下一次到这个位置时,…

Git版本控制系统

概念: 一个免费的 开源 分布式源码仓库,帮助团队维护代码 个人使用 多人联机使用 git安装: 这里直接看大佬的安装 文章 很不错的 git 安装配置https://blog.csdn.net/mukes/article/details/115693833 安装完毕之后: 使用命名git -v查看…

腾讯云最新优惠活动汇总!来看看腾讯云最近都有哪些优惠活动!

腾讯云作为国内领先的云服务提供商之一,经常推出各种优惠活动来吸引用户,本文将为大家汇总腾讯云最新的优惠活动,希望能够帮助大家降低上云成本,提高用户上云体验。 一、腾讯云新用户优惠券【点击领取】 腾讯云针对新用户推出了…

mysql面试题6:MySQL索引的底层原理,是如何实现的?B+树和B树的区别?

该文章专注于面试,面试只要回答关键点即可,不需要对框架有非常深入的回答,如果你想应付面试,是足够了,抓住关键点 面试官:MySQL索引的底层原理,是如何实现的? MySQL索引的底层实现是通过B+树来实现的。B+树是一种多叉平衡查找树,它的特点是能够高效地支持数据的插入…

300多元耳机推荐哪个牌子好、性价比最高的开放式耳机推荐

随着蓝牙耳机产业的迅猛发展,目前最备受欢迎的蓝牙耳机类型之一就是开放式耳机。与传统的耳塞式蓝牙耳机相比,开放式耳机具备诸多优势,包括长时间佩戴的舒适性和安全性。开放式耳机不需要插入耳朵,也能提供音乐欣赏的体验&#xf…

【C++】多态面试题

🚀write in front🚀 📜所属专栏: C学习 🛰️博客主页:睿睿的博客主页 🛰️代码仓库:🎉VS2022_C语言仓库 🎡您的点赞、关注、收藏、评论,是对我最大…

【AIGC核心技术剖析】研究报告分享与汇总

AIGC研究报告 AI画画工具项目参考 AIGC(Artificial General Intelligence Control)技术是一种人工智能(AI)技术,旨在管理和控制人工智能系统的行为,以确保它们在执行任务时遵守一定的规则、伦理和价值观。A…

c进阶--指针进阶

🌼🌼🌼🌼🌼🌼🌼🌼🌼🌼🌼🌼🌼🌼🌼 指针的简单回顾🌼🌼🌼&#x…

助企上云新举措!移动云网盘服务平台正式上线

近日,移动云网盘服务平台(DSP)V1.0重磅发布。DSP作为移动云首个自研aPaaS平台,具备多存储节点纳管、高效文件管理、极速文件传输、多媒体数据处理、一体化运维支撑等功能特性,可满足文档管理、内容协作、云上会议、数据…

9.30消息队列

发送方&#xff1a; #include<myhead.h>//消息结构体 typedef struct {long msgtype; //消息类型char data[1024]; //消息正文 }Msg_ds;#define SIZE sizeof(Msg_ds)-sizeof(long) //正文大小int main(int argc, const char *argv[]) {//1.创建key值key_t key;if(…

国庆9.30

消息队列实现进程间通信 snd #include <myhead.h> //消息结构体 typedef struct {long msgtype; //消息类型char data[1024]; //消息正文 }Msg_ds;#define SIZE sizeof(Msg_ds)-sizeof(long) //正文大小int main(int argc, const char *argv[]) {//1、创建key…

中国1km分辨率逐月降水数据集(1901-2020)

佳节 中国逐月降水量数据集&#xff08;1901-2021&#xff09;是根据CRU发布的全球0.5气候数据集以及WorldClim发布的全球高分辨率气候数据集&#xff0c;通过Delta空间降尺度方案在中国地区降尺度生成的。使用了496个独立气象观测点数据进行验证&#xff0c;验证结果可信。数…

模块化CSS

1、什么是模块化CSS 模块化CSS是一种将CSS样式表的规则和样式定义封装到模块或组件级别的方法&#xff0c;以便于更好地管理、维护和组织样式代码。这种方法通过将样式与特定的HTML元素或组件相关联&#xff0c;提供了一种更具可维护性、可复用性和隔离性的方式来处理样式。简单…

在MyBatisPlus中添加分页插件

开发过程中&#xff0c;数据量大的时候&#xff0c;查询效率会有所下降&#xff0c;这时&#xff0c;我们往往会使用分页。 具体操作入下&#xff1a; 1、添加分页插件&#xff1a; package com.zhang.config;import com.baomidou.mybatisplus.extension.plugins.Pagination…

整理mongodb文档:副本集二

个人博客 整理mongodb文档:副本集二 个人博客&#xff0c;求推荐&#xff0c;本片内容较为乱 文章概叙 本文章主要讲在MongoDB的副本集中的一些注意点&#xff0c;主要是如何对seconadry进行数据操作&#xff0c;以及对更新数据的一些介绍 查看当前节点 上一集讲了关于搭…

【JavaEE】CSS

CSS 文章目录 CSS语法引入方式内部样式表行内样式表外部样式 选择器基础选择器标签选择器类选择器id选择器通配符选择器 复合选择器后代选择器伪类选择器链接伪类选择器 字体设置设置文本颜色粗细样式文本对齐 背景背景颜色背景平铺背景尺寸 圆角矩形元素显示模式块级元素 盒模…