《数据仓库与数据挖掘》 总复习

news2024/11/26 14:29:11

试卷组成  

第一章图

第二章图

第三章图

第四章图 

第五章图

第六章图

第九章图

第一章 DW与DM概述 (特点、特性)

DB到DW

主要特征

(1)数据太多,信息贫乏(Data Rich, Information Poor)。

(2)异构环境数据的转换和共享。(不同数据库数据结构不一样,如何整合?)

(3)利用数据进行事务处理转变为利用数据支持决策。

总结:D多,异构,事决

好多D,DB和DW发生争执给他们异构体,事情解决

演变4点

(1)DB用于事务处理,DW用于决策分析。

(2)DB保持事务处理的当前状态。 DW既保存过去的数据又保存当前的DB中的数据。

随业务的变化一直更新,保存当前数据。

不随时间变化而变化,保留历史数据和当前数据。

(3)DW的数据是大量DB的集成。

(4)对DB的操作比较明确,操作数据量少。 对DW操作不明确(通过某种算法),操作数据量大。

总结:事决,状态,集成,操作

想要事情解决,D保持良好状态,集成精力施以操作

OLTP到 OLAP

联机事务处理 (On Line Transaction Processing,OLTP)

概念:用户的数据可以立即传送到计算中心进行处理,短时间内给出处理结果。

实时系统(Real Time System)

联机分析处理 (On Line Analytica Processing,OLAP)

概念:多维数据库和多维分析

元数据 (Meta Data)

什么是元数据?

描述数据的数据(Data About Data)

为什么研究?

数据越多,越需要能对数据进行描述说明的数据。

重要性:数据仓库中数据的描述(数据字典)

元数据的分类?

  1. 关于数据源的元数据
    对不同平台上的数据源的物理结构和含义的描述。(提示我们如何将数据转换到DW中)
  2. 关于数据模型的元数据
    描述了DW中有什么数据以及数据之间的关系。
  3. 关于DW映射的元数据
    是数据源与DW数据间的映射。 (获取数据的第一步)
  4. 元数据反映DW中的数据项从哪个数据源抽取的,经过哪些ETL
    关于DW使用的元数据。
  5. DW中信息使用情况的描述。

总结:D源模W映用,物含关系,映射使用

元数据的分类查看原魔应用

DW特点(6)

  1. 面向主题
    每一个主题基本对应一个宏观的分析领域。(对什么决策?)
  2. 集成的
    对不同的数据来源进行统一数据结构和编码。
  3. 稳定的
    大量的历史数据(只进不出)
  4. 随时间变化(长时间)
  5. 数据量很大
  6. 软、硬件要求较高
    巨大的硬件平台
    并行的数据库系统

特点总结:题集稳时数要求

DW提及问题时要数要求

本书核心

数据仓库是为辅助决策而建立的

DM

  • 知识发现 (Knowledge Dicovery in Database,KDD):从数据中发现有用知识的整个过程。主要算法是归纳学习算法。
  • KDD过程中的一个特定步骤,它用专门算法从数据中抽取知识。

DM与OLAP比较

  • OLAP多维分析:切片、切块、钻取操作。辅助决策。
  • DM:任务在于聚类(如神经网络聚类)、分类(如决策树分类)、预测等。
    确定一个高价值的客户或可能离开的客户特征。

第二章 DW原理

DW结构包含哪几类数据?

(5:历当轻高元)

数据集市 (Data Marts)

概念:更小、更集中、具特定应用的DW。

特性:规模小、特定应用、面向部门、快速实现、投资快速回收、可升级到完整DW。

分类?

独立数据集市 (Dependent Data Mart)

        数据来源:直接来源于各生产系统

从属数据集市 (Independent Data Mart)

        数据来源:直接来自中央DW

数据集市与DW差别?

  • 主题
    DW:面向企业范围。
    数据集市:面向某一特定部门。
  • 数据详细程度
    DW:非常详细
    数据集市:低,概要多
  • 数据组织
    DW:第三范式等。
    数据集市:星型模型。

总结:题详细组织,企部,高低,三星

主题公园的D详细组织,起步高低的三星

DW系统结构

由数据仓库(DW)、仓库管理和分析工具三部分组成。

1、仓库管理包括什么? (4部分)

(1)数据建模:是建立DW的数据模型(Data Model)

DW数据模型按设计过程分类?

  • 概念数据模型

    • 最高层次的数据模型, 它定义了组织的数据仓库的业务概念和需求。

  • 逻辑数据模型

    • 概念数据模型的具体化, 它描述了数据元素之间的关系,但不涉及存储细节。

  • 物理数据模型

    • 逻辑数据模型的实现, 它详细描述了数据在数据库中的存储方式。

总结:概逻物,需求关系存储

盖螺屋,rrs

(2)数据抽取、转换、装载 (ETL: Extract、Transform、Load) 70%工作量
  • 抽取(Extract)

    • 第一步,从各种数据源中收集数据。 批量实时提取数据。

  • 转换(Transform)

    • 核心步骤,将原始数据转换成适合DW格式的数据。

      • 转换过程

        • 数据清洗 (去除错误和不一致的数据)

        • 数据集成 (合并来自不同源的数据)

        • 数据聚合 (汇总数据以减少数据量)

        • 数据映射 (将数据映射到数据仓库模型)

        • ......

    • 转换过程确保数据的一致性、准确性,并满足数据仓库的业务需求。

  • 装载(Load)

    • 最后一步,涉及将转换后的数据加载到DW中。

  • 总结:ETL,收集数据,转格式,加载DW

(3)元数据
  • 3功能:DW字典,指导ETL工作,指导用户使用DW。

(4)系统管理
  • 4部分:数据管理、性能监控、存储器管理、安全管理。

总结:数性存安

dpss

2、分析工具

(1)查询工具:可视化工具

(2)多维分析工具(OLAP工具)

(3)数据挖掘(DM)工具

(4)C/S工具

DW运行结构

  1. 典型的客户/服务器(C/S)
  2. DW应用的三层C/S结构

C/S(OLAP,DW) 有个公用OLAP层,工作效率更高

DW的数据模型

  • 多维数据模型

    • 星型模型

      • 由“事实表”(大表)以及多个“维表”(小表)所组成。

    • 雪花模型

      • 对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域。

    • 星网模型

      • 将多个星型模型连接起来形成网状结构。

    • 第三范式

      • 传统DB设计理论

        • 减少数据冗余

  • 优势

    • 星型模型

      • 多维数据分析时速度很快

        • 但是增加维度将是很困难的事情。

    • 第三范式

      • 海量数据(如TB级),大量的动态业务分析

第三章 OLAP (联机分析处理)

概念

定义

OLAP是共享多维信息的快速分析。

4个特征

1、快速性

2、可分析性

3、多维性

4、信息性

总结:快可多信

快速的多维分析信息值得信赖

特点

  • 1.线性(On Line),由网络上的C/S结构完成。

  • 2.多维分析,OLAP的核心所在。

准则 (主要4条)

  • (1)多维数据分析;

  • (2)客户/服务器结构;

  • (3)多用户支持;

  • (4)一致的报表性能等。

    • 数据维数和数据的综合层次增加时, 提供的报表能力和响应速度不应该有明显的降低。 (即便D量,维度增加,速度不应该下降)

OLAP的数据模型

  • 分类

    • MOLAP数据模型

      • Multidimensional Online Analytical Processing

      • 基于多维数据库存储方式建立的OLAP

      • 表现为“超立方”结构,采用类似于多维数组的结构。

    • ROLAP数据模型

      • Relational Online Analytical Processing

      • 是基于关系数据库的OLAP。

      • 是一个平面结构,用关系数据库表示多维数据时,采用星型模型。

  • 比较

    • 1.数据存取速度(MOLAP的响应速度快 )

      • M

      • R需要转化SQL语句

    • 2.数据存储的容量( ROLAP存储容量上没有限制)

      • R

      • M立体方式存放数据,数据量级不大

    • 3.多维计算的能力(MOLAP能够支持高性能计算 )

      • M

      • R无法多行/维计算

    • 4.维度变化的适应性(ROLAP对于维表的变更有很好的适应性 )

      • R

      • M增维需重建DB

    • 5.数据变化的适应性( ROLAP对于数据变化的适应性高 )

      • R

      • M在数据频繁变化时需要大量重新计算

    • 6.软硬件平台的适应性(ROLAP适应性很好 )

      • R

    • 7.元数据管理

      • 均无成形标准。

    • 总结:as计维变适管,多关多关关关无

      • 存计为多,其余为关

多维数组的表示

(维1,维2,……,维n,变量)

一个4维的结构,即(产品,地区,时间,销售渠道,销售额)。(元组)

多维数据的显示

  • 多维数据的显示只能在平面上展现出来。

  • 多维数据的分析视图

    • 平面显示多维数据,利用行、列和页面三个显示组表示。(页面,行,列,指标维)

      • 页面:商店3(商店维) 行:月份(时间维:1月,2月,3月) 列:产品(产品维:上衣,裤子,帽子) 指标维:固定成本,直接销售

多维数据分析的基本操作分别是怎么执行的?

(切片、切块、旋转、钻取)

  • 1.切片

    • 选定多维数组的一个二维子集的操作。

  • 2. 切块

    • 多维数组的某个维上选定某一区间的维成员的操作。

    • 选定多维数组的一个三维子集的操作。

  • 3. 钻取

    • 维度的细分。

    • 向上钻取(drill up )

      • 向上钻取获取概括性的数据。

      • 缩小地图:区-市-省-国

    • 向下钻取(drill down )

      • 向下钻取是使用户在多层数据中能通过导航信息而获得更多的细节性数据。

      • 放大地图:国-省-市-区

  • 4.旋转

    • 得到不同视角的数据。 相当于平面数据将坐标轴旋转。

  • 总结:片块上下转,二三概细多视角。

数据立方体

概述:实际为数据仓库结构图中的综合数据层(轻度和高度)。

多维数据集的属性分类?

  • 维属性

  • 度量属性

典型的压缩型数据立方体

  • (1)冰山立方体

    • 数据的筛选:在冰山立方体的生成计算中,仅聚集高于(或低于)某个阈值的子立方体。

  • (2)紧凑数据立方体

    • 用一条数据来代表之前表中的多条数据元组压缩如(产品,地区,时间,销售渠道,销售额)

  • (3)外壳片段立方体

  • (4)流式数据立方体

第四章 DW的决策支持

DW用户

信息查询者 (业务层面)

  • user

    • 是使用DW的主要用户。

  • 特点

    • 以一种可预测的、重发性的方式使用数据仓库平台。

  • 作用

    • 使用数据仓库能发现目前存在的问题。

  • 方法

    • 创建数据阵列

    • 预连接表格

    • 预聚集数据

    • 聚类数据

知识探索者 (分析决策)

  • user

    • 典型的DM者。

  • 特点

    • 有一个完全不可预测的、非重复性的数据使用模式。

  • 作用

    • 发现问题并找出原因。

  • 方法

    • 创建单独的探索仓库,不影响数据仓库的常规用户。

      • “标识技术”数据压缩,提高数据分析速度。

    • 使用模型帮助决策分析。

    • 采用数据挖掘工具来获取商业知识。

总结比较:

  • user

    • DW;DM

  • 特点

    • 可预测,重发性;不可预测和重复

  • 作用

    • 找到问题;问题和原因

第五章 DM原理(了解即可)

KDD

概念:从数据中发现有用知识的整个过程。

过程

  • 数据准备、DM、结果评估

数据准备的三个步骤?

数据选择,数据预处理,数据转换

DM
  • KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式(patterns)。

  • 按照DM任务采取不同方法

    • 聚类方法 (结果未知)

      • 在没有类别的数据中,按照”距离“远近聚集若干类别。

      • 典型方法:k均值聚类算法,统计分析方法,机器学习方法,神经网络方法等

    • 分类方法 (结果已知)

      • 对有类别的数据,找出各类别的描述知识。

      • 典型方法:ID3、C4.5、IBLE等分类算法

总结

有无类别

结果评估
  • 数据质量好坏的两个影响因素?

    • DM技术的有效性

    • 挖掘数据的质量和数量

总结:技术和数据

DM任务和分类

DM任务

  • (1)关联分析

    • 两个或多个数据项的取值之间重复出现且概率很高时,它就存在某种关联,可以建立起这些数据项的关联规则。

  • (2)时序模式

    • 通过时间序列搜索出重复发生概率较高的模式

  • (3)聚类

    • 在没有类的数据中,按“距离”概念聚集成若干类。

    • 距离

      • 同一类别中个体之间的距离较小

      • 而不同类别上的个体之间的距离偏大

  • (4)分类

    • 在聚类的基础上,对已确定的类找出该类别的概念描述,它代表了这类数据的整体信息。

    • 类的内涵描述

      • 特征描述

        • 对类中对象的共同特征的描述。

      • 辨别性描述

        • 对两个或多个类之间的区别的描述

  • (5)偏差检测

    • 从数据分析中发现异常情况

  • (6)预测

    • 利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类,特征等

什么是聚类和分类?

决策树知识

  • ps:在其基础上考计算题 (信息熵和信息增益)

  • 决策树是一种常用的机器学习算法,用于分类和回归任务。

  • 基本概念

    • 决策树通过一系列的问题将数据分割成不同的分支,最终达到一个结论或决策。

  • 构建过程

    • 从根节点开始,选择一个特征和阈值进行分割,递归地在子节点上重复这个过程,直到满足停止条件。

  • 特征选择

    • 特征选择是决策树构建中的关键步骤,用于决定在每个节点上使用哪个特征进行分割。常见的特征选择方法包括信息增益、信息增益率和基尼不纯度。

第六章 信息论方法 (计算题)

  • 决策树方法 (了解即可)

    • 决策树是一种知识表示形式,它是对所有样本数据的高度概括。

    • 决策树,如ID3、C4.5方法,是把信息量最大的属性作为树或子树的根结点,属性的取值作为分枝。

ID3决策树

  • 结点

    • 根结点

      • 是所有样本中信息量最大的属性。

    • 中间结点

      • 是该结点为根的子树所包含的样本子集中信息量最大的属性。

    • 叶结点

      • 是样本的类别值。

信息熵和信息增益

  • 信息传递系统 (信道模型)

    • 发送端(信源)

    • 接收端(信宿)

    • 连接两者的通道(信道)

  • 概念

    • 1、信息熵 H(U) 也称为先验熵

      • 先验不确定性

        • 先验不确定性不能全部被消除,只能部分地消除

      • 接收端(信宿)不确定发送端(信源)状态。

        • 是信源输出前的平均不确定性,也称先验熵。

      • 总结

        • P(U):所有例子中的正例和反例在总例的占比

        • H(U):(-占比log占比)二者相加

    • 2、条件熵H(U/V) 也称为后验熵

      • 后验不确定性

      • 通信结束之后,信宿仍然具有一定程度的不确定性。

      • 后验不确定性总要小于先验不确定性 H(U/V)< H(U)

        • 相等,表示信宿没收到信息。

        • 后验不确定性为0,表示信宿收到全部信息。

      • 总结

        • P(V):属性某一取值在总例的占比

        • P(U/V):属性某一取值的正反例占比

        • H(U/V):(-总例占比×(属性取值占比log属性取值占比)之和)之和

    • 3、信息量用互信息来表示,也称为信息增益=先验熵-后验熵 I(U,V)=H(U)- H(U/V)

      • 信息是用来消除(随机)不确定性的度量。

      • 总结

        • 计算所有属性的互信息量I

    • 4、建决策树树根和分支

      • 树根

        • 选择互信息量I最大的特征值

      • 分支

        • 划分特征子集F

    • 5、递归建树

      • 继续求剩余特征的互信息量,找互信息量最大的一个作为分支的根结点向下分支,最后标记正反例(分类)

计算

第九章 遗传算法和计算智能 (了解)

遗传算法 (Genetic Algorithms,GA)

是模拟生物在自然环境中的遗传和进化过程而形成的一种自适应全局优化搜索算法。

遗传算子

  • 选择 (Selection)

    • 依据每个染色体的适应值大小,适应值越大,被选中的概率就越大,其子孙在下一代产生的个数就越多。

    • 选择操作是建立在群体中个体的适应值评估基础上的,目前常用的选择算子有适应值比例法、最佳个体保存法、期望值方法等。

  • 交叉(重组) (Crossover)

    • 通过染色体重组来产生新一代染色体。

  • 变异 (Mutation)

    • 变异增加了遗传算法找到接近最优解的能力。

    • 变异就是以很小的概率,随机地改变字符串某个位置上的值。把某一位的内容进行变异。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1875242.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

侯捷C++面向对象高级编程(上)-2-构造函数

1.inline函数 2.访问级别 3.构造函数 4.重载

【力扣高频题】004.两个正序数组的中位数

------------------ 长文警告 ------------------ 4.两个正序数组的中位数 给定两个大小分别为 m 和 n 的正序&#xff08;从小到大&#xff09;数组 nums1 和 nums2。请你找出并返回这两个正序数组的 中位数 。 算法的时间复杂度应该为 O ( l o g ( m n ) ) O(log(mn)) O…

【期末速成】计算机操作系统 EP03 | 学习笔记

文章目录 一、前言&#x1f680;&#x1f680;&#x1f680;二、正文&#xff1a;☀️☀️☀️2.1 考点五&#xff1a;进程的概念及特征2.1 考点六&#xff1a;进程的状态与切换 三、总结&#xff1a;&#x1f353;&#x1f353;&#x1f353; 一、前言&#x1f680;&#x1f6…

Unix/Linux shell实用小程序1:生字本

前言 在日常工作学习中&#xff0c;我们会经常遇到一些不认识的英语单词&#xff0c;于时我们会打开翻译网站或者翻译软件进行查询&#xff0c;但是大部分工具没有生词本的功能&#xff0c;而有生字本的软件又需要注册登陆&#xff0c;免不了很麻烦&#xff0c;而且自己的数据…

linux-内存映射MMAP-lseek-dup-fifo-通信-IO多路复用

1、内存映射MMap&#xff1a; DMA&#xff1a; 可以用*/[]取代read和write&#xff1b; 限制&#xff1a; 1、文件大小固定不能改变&#xff1b;&#xff08;ftruncate&#xff09; 2、只能是磁盘文件&#xff1b; 3、建立映射之前先open mmap函数&#xff1a; mmap第一个…

GAN论文阅读笔记(10)—— High-fidelity GAN Inversion with Padding Space

论文&#xff1a;High-fidelity GAN Inversion with Padding Space paper&#xff1a;136750036.pdf (ecva.net) code&#xff1a;EzioBy/padinv: [ECCV 2022] PadInv: High-fidelity GAN Inversion with Padding Space (github.com) 关键词&#xff1a;GAN, GAN 反演 ( GAN I…

MobPush HarmonyOS NEXT 版本集成指南

开发工具&#xff1a;DevEco Studio 集成方式&#xff1a;在线集成 HarmonyOS API支持&#xff1a;> 11 集成前准备 注册账号 使用MobSDK之前&#xff0c;需要先在MobTech官网注册开发者账号&#xff0c;并获取MobTech提供的AppKey和AppSecret&#xff0c;详情可以点击查…

React实战学习(一)_棋盘设计

需求&#xff1a; 左上侧&#xff1a;状态左下侧&#xff1a;棋盘&#xff0c;保证胜利就结束 和 下过来的不能在下右侧&#xff1a;“时光机”,保证可以回顾&#xff0c;索引 语法&#xff1a; 父子之间属性传递&#xff08;props&#xff09;子父组件传递&#xff08;写法上&…

第十三章 常用类

一、包装类 1. 包装类的分类 &#xff08;1&#xff09;针对八种基本数据类型相应的引用类型—包装类 &#xff08;2&#xff09;有了类的特点&#xff0c;就可以调用类中的方法。 2. 包装类和基本数据的转换 jdk5 前的手动装箱和拆箱方式&#xff0c;装箱&#xff1a;基本…

使用SpringBoot整合filter

SpringBoot整合filter&#xff0c;和整合servlet类似&#xff0c;也有两种玩儿法 1、创建一个SpringBoot工程&#xff0c;在工程中创建一个filter过滤器&#xff0c;然后用注解WebFilter配置拦截的映射 2、启动类还是使用ServletComponentScan注解来扫描拦截器注解WebFilter 另…

通过百度文心智能体创建STM32编程助手-实操

一、前言 文心智能体平台AgentBuilder 是百度推出的基于文心大模型的智能体&#xff08;Agent&#xff09;平台&#xff0c;支持广大开发者根据自身行业领域、应用场景&#xff0c;选取不同类型的开发方式&#xff0c;打造大模型时代的产品能力。开发者可以通过 prompt 编排的…

主从复制、哨兵以及Cluster集群

目录 1.Redis高可用 2.Redis主从复制 2.1 主从复制的作用 2.2 主从复制流程 2.3 搭建Redis主从复制 2.3.1 修改Redis配置文件&#xff08;Master节点操作&#xff09; 2.3.2 修改Redis配置文件&#xff08;Slave节点操作&#xff09; 2.3.2 验证主从复制结果 3.Redis哨…

Oracle新特性速递:未来数据库技术的无限可能

文章目录 一、自治数据库&#xff1a;智能化与自动化的革命二、机器学习集成&#xff1a;智能数据分析的新境界三、区块链技术&#xff1a;确保数据完整性与透明性四、云原生数据库&#xff1a;灵活扩展与快速部署五、人工智能优化器&#xff1a;智能查询执行计划《Oracle从入门…

Pow(x,n)快速冥算法

快速幂算法 快速幂算法是一种通过分治和递归的方式来计算幂运算的方法&#xff0c;其核心思想是利用分治和递归减少乘法的次数来显著提高效率。 基本原理&#xff1a; 给定 x 和 n&#xff0c;计算 x^n 的过程如下&#xff1a; 基本情况处理&#xff1a;如果指数 n 是 0&…

【STM32修改串口波特率】

STM32微控制器中的串口波特率调整通常涉及到USART&#xff08;通用同步接收器/发送器&#xff09;模块的配置。USART模块提供了多个寄存器来设置波特率&#xff0c;其中关键的寄存器包括BRR&#xff08;波特率寄存器&#xff09;和USART_CR1&#xff08;控制寄存器1&#xff09…

【嵌入式操作系统(Linux篇)】实验期末复习(1)

以下是关于嵌入式操作系统&#xff08;Linux篇&#xff09;的实验汇总&#xff0c;大概率都是会考的 特别是shell程序和文件IO的操作 嵌入式操作系统实验小结—涉及期末大题 &#xff08;一&#xff09;Linux操作系统的使用实验 1、认识Linux操作系统的目录结构 请进入自己…

【C++课程设计——演讲比赛系统】

文章目录 前言一、演讲比赛程序需求二、每个功能模块的实现1. 创建管理类(.h文件)2.1. 创建管理类(.cpp文件)3.创建参赛选手类(.h)4.将整体逻辑进行封装 测试项目总结 前言 在学习完C的stl容器后&#xff0c;我们来写一下小项目对其进行应用&#xff01; 项目名称为&#xff1…

cocos creator 调试插件

适用 Cocos Creator 3.4 版本&#xff0c;cocos creator 使用google浏览器调试时&#xff0c;我们可以把事实运行的节点以节点树的形式显示在浏览器上&#xff0c;支持运行时动态调整位置等、、、 将下载的preview-template插件解压后放在工程根目录下&#xff0c;然后重新运行…

day23-- 39. 组合总和+40.组合总和II + 131.分割回文串

一、 39. 组合总和 题目链接&#xff1a;https://leetcode.cn/problems/combination-sum/ 文章讲解&#xff1a;https://programmercarl.com/0039.%E7%BB%84%E5%90%88%E6%80%BB%E5%92%8C.html 视频讲解&#xff1a;https://www.bilibili.com/video/BV1KT4y1M7HJ 1.1 初见思路…

JAVA期末速成库(10)第十一章

一、习题介绍 Check Point&#xff1a;P416 11.1&#xff0c;11.6&#xff0c;11.7&#xff0c;11.8&#xff0c;11.12&#xff0c;11.17&#xff0c;11.24 Programming Exercise&#xff1a;11.1 二、习题及答案 Check Point&#xff1a; 11.1 True or false? A subcl…