计算机三级 - 数据库技术 - 第十四章 数据仓库与数据挖掘 笔记

news2024/11/15 12:37:40

第十四章 数据仓库与数据挖掘

 

内容提要:

  1. 了解数据仓库相关技术
  2. 了解数据仓库的设计、建造、运行及维护
  3. 了解OLAP及多维数据模型
  4. 了解数据挖掘技术

  • 决策支持系统(DSS):综合利用大量数据有机组合众多模型(数学模型和数据处理模型),通过人机交互,辅助各级决策者实现科学决策的系统。

14.2  数据仓库技术概述:

  1. 数据仓库的概念与特性:

    • 建立数据仓库的目的:
      • 根据决策需求对企业的数据采取适当的手段进行集成,形成一个综合的面向分析的数据环境,用于支持企业的信息型决策型的分析应用。
    • 数据仓库的特性:
      1. 面向主题性:
        • 数据仓库中的数据是以面向主题的方式进行组织的。
        • 目前,数据仓库主题数据的实现采用关系型数据库技术。
      2. 集成性:
        • 数据仓库最重要的特性。分为数据抽取、转换、清理(过滤)和装载4项任务
      3. 不可更新性:
        • 数据仓库中的数据以批量方式处理,不进行一般意义上的数据更新。
      4. 时间特性:
        • 随时间变化:不断捕捉数据。

  1. 数据仓库的体系结构与环境:

    • 从数据层次角度可分为:操作性数据、操作性数据存储、数据仓库、数据集市,也可以包括个体层数据
    • 从功能结构角度可分为:数据处理、数据管理、数据应用

  1. 数据仓库的数据组织:

    • 粒度:
      • 数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度越小
    • 数据分区(分割):
      • 将数据分散到各自的物理单元中去,它们能独立地处理。
      • 最常见的是按照时间标准分区。
    • 元数据:
      • 关于数据的数据,或叫描述数据的数据,用于构造、维持、管理、和使用数据仓库,在数据仓库中尤为重要。
      • 它描述了数据的结构、内容、链和索引等内容
      • 分为:技术型元数据和业务型元数据
    • 数据集市 -- 小型的,面向部门或工作组级数据仓库

  1. 操作型数据存储(ODS) :

    • 是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境,是DW扩展后得到的一个混合形式。
    • 四个基本特点:面向主题、集成、可变、当前或接近当前的。

14.3 设计与建造数据仓库

CLDS由数据开始,一旦数据到手,就集成数据,然后,如果数据有偏差,就检验看看数据存在什么偏差,再针对数据写程序,分析程序执行结果,最后,系统需求才得到理解。

  1. 数据仓库的数据模型:

    • 数据仓库的数据模型分为概念(E-R图)、逻辑(关系型模型或多维数据模型)、物理三级数据模型。与普通数据库系统的数据模型不同。
      1. 一般不包含纯操作型数据。
      2. 一般需要扩充关键字结构,在其中加入时间属性。
      3. 需要增加导出数据。
  2. 数据仓库设计步骤:

    • 数据仓库的设计过程分为:

                             概念模型设计、技术评估与环境准备工作、逻辑模型设计、物理模型设计、数据生成与应用实现、数据仓库运行与维护

14.4 数据仓库的运行和维护

  1. 数据仓库数据的更新维护

  • 维护策略
    1. 实时维护

                                在数据源发生变化时,立即更新

                    2.延时维护

                                在数据仓库中的视图被查询时完成更新

                    3.快照维护

                                定期对数据仓库进行维护,触发条件是时间

  • 捕捉数据源的变化

        典型的方法有:

  1. 触发器
  2. 修改数据源应用程序
  3. 通过日志文件
  4. 快照比较法

14.5 联机分析处理与多维数据模型:

  1. OLAP简介

    • OLAP--联机分析处理或在线分析处理
      • 主要用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持。
    • OLAP工具一般具有快速、可分析和多维的特点。

  1. 多维分析的基本操作

    1. 钻取与卷起

                        OLAP分析最基本的操作。钻取指对应于某维逐步向更细节层方向观察数据,卷起则反

               2. 切片和切块

                        实现局部数据的显示。

                3. 旋转

                        改变一个报告或页面显示的维方向,得到不同视角的数据。最简单的旋转就是数据交叉

  • OLAP的实现方式

        OLAP的实现方式有三种:

  1. 基于多维数据库的OLAP(MOLAP)
    • 以多维数组为基本存储结构。
  2. 基于关系数据库的OLAP(ROLAP)
    • 采用关系表表示和存储。(星形模式或雪花模式)
  3. 混合型的OLAP(HOLAP)
    • 结合MOLAP与ROLAP。具有最好的查询性能。

14.6 数据挖掘技术:

  • 数据挖掘:
    • 就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程

  1. 数据挖掘步骤:

  • 数据挖掘作为知识发展的过程,分为三个阶段
    1. 数据准备

                                三个子步骤:数据选取,数据预处理,数据变化

                    2.  数据挖掘

                                首先确定挖掘的任务,其次决定挖掘算法

                    3.  结果解释评估

                                剔除几余或无关的模式

  • 常见的数据挖掘任务:

    1. 分类预测任务

                                常见的方法:决策树、神经网络、规则归纳、支持向量机、贝叶斯、粗糙集、回归分析、K-最近邻等。

                    2.  描述型任务

                                典型的方法:聚类、关联、分析等。

  1. 关联规则挖掘

  • 关联规则挖掘过程主要包含两个阶段:
    • 第一阶段必须先从资料集合中找出所有的高频项目组
    • 第二阶段再由这些高频项目组中产生关联规则

  1. 分类挖掘

    • 用于预测数据对象的离散类别
    • 一般分为两个步骤:
      • 通过已知数据集,建立分类函数,构造分类器
      • 利用所获得的分类函数对未知类别标记的数据项进行分类操作。

  1. 聚类挖掘

    • 用于对集中的数据进行分组,使得每组内的数据尽量相似而不同,组间的数据尽可能不同。
    • 聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法等

  1. 时间序列分析

    • 时间序列----用时间排序的一组随机变量。
    • 时间序列分析----又称为数据演变分析,描述行为随时间变化的对象的规律或趋势,并对其进行建模
    • 从不同角度可分为:一元时间序列和多元时间序列;等间隔时间序列和不等间隔时间序列;平稳时间序列和非平稳时间序列。

其余章节进我主页进行查看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2127073.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

uniapp 端开发 echarts 树结构图

实现效果 &#xff1a; 1. 在uniapp 中写echarts 树结构图需要使用 <script module"echarts" lang"renderjs"> 否则会无法显示echarts 图形 rebderjs 代码 引入了 /static/echarts.min.js 是在 ECharts 在线构建 定制你的echarts <te…

001 RabbitMQ入门及安装

RabbitMQ入门及安装 文章目录 RabbitMQ入门及安装1.介绍1.AMQP和JMS2.目前主流的消息队列 2.安装1.Linux安装1.1 安装erlang1.2 RabbitMQ安装 2.Docker安装 3.核心组件 1.介绍 RabbitMQ是实现了高级消息队列协议&#xff08;AMQP&#xff09;的开源消息代理软件&#xff08;亦…

嵌入式音视频开发:探索多领域的融合与创新

摘要&#xff1a; 本文深入探讨了嵌入式音视频开发领域。从嵌入式系统的基础概念入手&#xff0c;阐述了其在音视频领域的独特地位。详细介绍了嵌入式音视频开发中涉及的硬件组件&#xff0c;如处理器、编解码器、存储设备等。分析了音视频编解码技术&#xff0c;包括常见的编解…

空间数据库概述

空间数据库简介 空间数据库是 地理信息系统 在计算机物理存储介质中存储的&#xff0c;与GIS应用相关的地理空间数据的总和。一般以一系列特定结构的文件形式组织后存储在介质上。 空间数据库的特点 可以存储、处理空间数据相比普通数据库提供更多、更复杂的数据类型以及更多…

[SWPU2019]Web1 超详细教程

老规矩先看源码&#xff0c;没找到啥提示&#xff0c;后面就是登录口对抗 弱口令试了几个不行&#xff0c;就注册了个账户登录进去 可以发布广告&#xff0c;能造成xss&#xff0c;但是没啥用啊感觉 查看广告信息的时候&#xff0c;注意到url当中存在id参数&#xff0c;可能存…

Leetcode面试经典150题-134.加油站

解法都在代码里&#xff0c;不懂就留言或者私信 class Solution {public int canCompleteCircuit(int[] gas, int[] cost) {/**如果只有一个加油站&#xff0c;那它本来就在那个为止&#xff0c;0就是它的编号?但是这只是你的想象&#xff0c;题目有个变态规定&#xff0c;自…

【linux】进程控制(2)

3. 进程等待 1. 是什么 通过系统调用 wait/waitpid 对子进程的退出状态进行检测和回收的功能 2. 为什么 僵尸进程无法杀死&#xff0c;通过进程等待来杀掉它&#xff0c;进而解决内存泄漏的问题 &#xff08;一&#xff09;进程等待的方法 a. wait : 代码 wait : 等待任意一…

解锁SAP数据的潜力:SNP Glue与SAP Datasphere的协同作用

在各种文章中&#xff0c;我们研究了客户如何利用SNP Glue与基于云的数据仓库和数据湖相结合&#xff0c;以充分利用其SAP数据。SNP Glue 通过高性能集成解决方案帮助客户解锁 SAP 数据孤岛。例如&#xff0c;可以使用SNP Glue先进的增量捕获&#xff08;CDC&#xff09;近乎实…

【Linux 报错】Ubuntu 20.04.5 LTS报错:“E: Unable to locate package xx”

问题描述&#xff1a; 在使用 &#xff08;Ubuntu 20.04.5 LTS&#xff09;学习 Linux 时&#xff0c;想要安装 tree 命令&#xff0c;出现下面的报错&#xff1a; rootiZwz9asjf1ddlt6fy1ebqpZ:~# apt install tree Reading package lists... Done Building dependency tree…

蓝光3D扫描仪用于小尺寸精密注塑零件三维检测

在现代精密制造领域&#xff0c;微小型零件的加工和检测依然极具挑战。无论是微型机械零件、电子元器件&#xff0c;汽车注塑件&#xff0c;还是高端医疗器械部件&#xff0c;制造商都必须确保零件尺寸符合设计要求。传统的检测方法已无法满足日益严苛的要求&#xff0c;企业亟…

828华为云征文 | Flexus X的力量,驱动Halo博客在云端飞驰

前言 华为云Flexus云服务器 X实例&#xff0c;以卓越性能与灵活配置&#xff0c;为Halo博客搭建起梦想的云端舞台。在这个828企业上云节节日里&#xff0c;华为云Flexus云服务器 X实例不仅提供了稳定高效的运行环境&#xff0c;更助力Halo博客实现内容创作的无限可能。无论是流…

240912-通过Ollama实现网站知识总结

A. 最终效果 B. 准备工作 报错: USER_AGENT environment variable not set, consider setting it to identify your requests.-CSDN博客 C. 完整代码 # https://coreyclip.github.io/Ollama-Web-Summaries/import os os.environ[USER_AGENT] Mozilla/5.0 (Windows NT 10.…

docker安装部署Canal-监听mysql

文章目录 安装和配置Canal1.开启MySQL主从1.1.开启binlog1.2.设置用户权限 2.安装Canal2.1.创建网络2.3.安装Canal 遇到的问题 安装和配置Canal 下面我们就开启mysql的主从同步机制&#xff0c;让Canal来模拟salve 1.开启MySQL主从 Canal是基于MySQL的主从同步功能&#xff…

cheat:在终端中,在线查询Linux命令

cheat.sh 是一个命令查询网站&#xff0c;在终端中也能够使用。特点是返回简单易懂的代码示例和注解&#xff0c;可以帮助用户快速了解命令的使用方法。 ​​ 1.语法 curl cheat.sh/command2.示例 查询 ls 命令的用法 curl cheat.sh/ls查询 chmod 命令的用法 curl cheat.…

sqlite在Windows环境下安装、使用、node.js连接

sqlite在Windows环境下安装、使用、node.js连接 前言&#xff1a;2024年9月10日 1. 下载安装 sqlite 的安装非常简单 去官网下载对应压缩包 将两个压缩包解压&#xff0c;并将解压出来的文件放在同一目录下 将上面的目录路径配置到环境变量 path 中 2. 执行 sql sqlite …

Day7 | Java框架 | SpringMVC

Day7 | Java框架 | SpringMVC SpringMVC简介SpringMVC 概述入门案例入门案例工作流程分析Controller 加载控制与业务bean加载控制&#xff08;SpringMVC & Spring&#xff09;PostMan 请求与响应请求映射路径请求方式&#xff08;不同类型的请求参数&#xff09;&#xff1…

基于Linux文件编程实现处理Excel表格的数据

目录 前言 整体的代码框架 如何读取数据文件的数据 read_line 如何处理读取到的数据 process_data 运行结果 总结 前言 本文是基于Linux文件编程的一个小实验&#xff0c;用文件IO来读取Excel表格的数据&#xff0c;处理后写入另一个文件&#xff0c;本文只是对文件IO的…

一些硬件知识(二十二)

二极管&#xff08;Diode&#xff09;伏安特性、技术参数和项目中的应用 在正向偏置下&#xff0c;二极管呈现出良好的导电性能&#xff0c;可以允许电流通过&#xff1b;而在反向偏置下&#xff0c;二极管具有很高的阻断能力&#xff0c;几乎不允许电流通过。这是由构成二极管…

CC工具箱使用指南:【字段计算器学习版】

一、简介 这个工具算是Pro自带的字段计算器的扩展版。 工具预制了几种计算模式&#xff0c;通过可视化操作&#xff0c;帮你自动生成代码。 生成代码后&#xff0c;可以直接运行&#xff0c;也可以将代码复制到Pro自带的字段计算器中进行计算。 总之&#xff0c;这是给不会…

【CanMV K230 AI视觉】 人体检测

【CanMV K230 AI视觉】 人体检测 人体检测 动态测试效果可以去下面网站自己看。 B站视频链接&#xff1a;已做成合集 抖音链接&#xff1a;已做成合集 人体检测 人体检测是判断摄像头画面中有无出现人体&#xff0c;常用于人体数量检测&#xff0c;人流量监控以及安防监控等。…