第十一章数据仓库和商务智能10分

news2024/11/24 15:23:55

【数据仓库-后端,商务智能-前端】
基本算法:关联关系(牵手-谈恋爱),集群关系(杭州人爱吃酸甜口),决策树,线性回归,贝叶斯,神经网络,时间序列
用法:精准营销,客户价值分析,旅客生命周期价值分析,风险,聚类和集群,实施需求和匹配,社会地位参数,
忠诚度和客户粘度,时间序列。

11.1 引言

数据仓库(Data Warehouse,DW),商务智能(Business Inteligence,BI)

11.1.2 目标和原则【非常重要】

一个组织建设数据仓库的目标通常有:
1)支持商务智能活动。
2)赋能商业分析和高效决策。
3)基于数据洞察寻找创新方法。

数据仓库建设应遵循如下指导原则:
1)聚焦业务目标
确保数据仓库用于组织最优先级的业务并解决业务问题。
2)以终为始。
让业务优先级和最终交付的数据范围驱动数据仓库内容的创建。
3)全局性的思考和设计,局部性的行动和建设。
让最终的愿景指导体系架构,通过集中项目快速迭代构建增量交
付,从而实现更直接的投资回报。
4)总结并持续优化,而不是一开始就这样做。
以原始数据为基础,通过汇总和聚合来满足需求并确保性能,但不
替换细节数据。
5)提升透明度和自助服务。
上下文(各种元数据)信息越丰富,数据消费者越能从数据中获得更多数据价值。向
利益相关方公开集成的数据及其流程信息。
6)与数据仓库一起建立元数据。
数据仓库成功的关键是能够准确解释数据。能回答一些基本问题,如“这个数字为
什么是 X”“这个怎么计算出来的”“这个数据哪里来的”。元数据的获取应该作为软件开发周期的一部分,元数据的管
理也应该作为数据仓库持续运营的一部分。
7)协同。
与其他数据活动协作,尤其是数据治理、数据质量和元数据管理活动。
8)不要千篇一律。
为每种数据消费者提供正确的工具和产品。

11.1.3 基本概念

1.商务智能商务智能两层含义。

第一层含义,商务智能指的是一种理解组织诉求和寻找机会的 数据分析活动 。数据分析的结果用来提高组织决策的成功率。当人们说数据是竞争优势的关键要素时,他们其实是在说商务智能的内在逻辑:如果一个组织向自己的数据“正确提问”,他就能获得关于产品、服务及客户方面的洞见,为实现自己的战略目标做出更好的决策。
第二层含义,商务智能指的是支持这类数据分析活动的 技术集合。决策支持工具、商务智能工具的不断进化,促成了数据查询、数据挖掘、统计分析、报表分析、场景建模、数据可视化及仪表板等一系列应用,它们被用于从预算到高级分析的方方面面。

2.数据仓库

数据仓库有两个重要组成部分:一个集成的决策支持数据库和与之相关的用于收集、清理、转换和存储来自各种操作和外部源数据的软件程序。

4.数据仓库建设的方法【一定会考】

大部分关于数据仓库构建的讨论,都受到两位有影响力的思想领袖 Bill Inmon 和 Ralph Kimball 的影响,他们各有不同的数据仓库建模和实施方法。Inmon 把数据仓库定义为“面向主题的、整合的、随时间变化的、相对稳定的支持管理决策的数据集合”,用规范化的关系模型来存储和管理数据。而 Kimball 则把数据仓库定义为“为查询和分析定制的交易数据的副本”,他的方法通常称作多维模型(参见第 5 章)。虽然 Inmon 和 Kimball 提倡的数据仓库建设方法不同,但他们遵循的核心理念相似:
1)数据仓库存储的数据来自其他系统。
2)存储行为包括以提升数据价值的方式整合数据。
3)数据仓库便于数据被访问和分析使用。
4)组织建设数据仓库,因为他们需要让授权的利益相关方访问到可靠的、集成的数据。
5)数据仓库数据建设有很多目的,涵盖工作流支持、运营管理和预测分析。

【OLTP 尽量少用索引】

【数仓侧重点是 BI,但也可以做 AI,数据湖侧重 AI】
【数仓是ETL,数据湖是ELT】
【数仓是结构化数据,数据湖即可结构化也可非结构化数据】
【进入数仓数据是知道业务场景的,进入数据湖的数据业务场景不明确】
【数仓对已经发生的事情的一个总结和展现,数据湖对未来的一个预测和数据的挖掘】

Q:数仓目标是 BI
A:错,数仓侧重点是 BI。
多维模型通常称为星型模型,由事实表(包含有关业务流程的定量数据,如销售数据)和维度表(存储与事实表数
据相关的描述性属性,为数据消费者解答关于事实表的问题,如这个季度产品 X 卖了多少)组成。
Q:数据集市是必须要的产品嘛?
A:错,数据集市是数仓的一小部分,
Q:主数据是必须要的嘛?
A:错,数据源、ETL、核心数据仓库是必须要的。

7.数据仓库架构组件

(1)源系统
(2)数据集成
(3)中央数据仓库

数据结构的设计元素包括:
①基于性能考虑而设计的业务主键和代理主键之间的关系。
②创建索引和外键以支持维度表。
③用于检测、维护和存储历史记录的变更数据捕获(Change Data Capture,CDC)技术。

8.加载处理的方式

数据仓库建设涉及两种主要的数据集成处理类型:历史数据加载和持续不断的数据更新。历史数据通常只需要加载一次,或者为了处理数据问题加载有限的几次,然后再也不会加载。“持续不断的数据更新”需要始终如一地规划和执行,以保证数据仓库中包含最新的数据。
在这里插入图片描述

Q:有几种方法识别增量?
A4 种:时间戳增量加载、日志表增量加载、数据库交易日志、消息增量。
Q:处理数据量最大的方法
A:全量加载。

11.2活动

11.2.3 开发数据仓库和数据集市

通常来说,数据仓库/商务智能建设项目有三条并存的构建轨迹:
1)数据
2)技术
3)商务智能工具

11.3 工具

11.3.3 商务智能工具的类型

常见的 OLAP 操作包括切片和切块、向下钻取、向上钻取、向上卷积和透视。
1)切片(Slice)。切片是多维数组的子集,对应不在子集中的维度的一个或多个成员的单个值。
2)切块(Dice)。切块操作是数据立方体上两个以上维度的切片,或者是两个以上的连续切片。
3)向下/向上钻取(Drill down/up)。向下钻取或向上钻取是一种特定的分析技术,用户可以在不同数据级别之间导航,范围从最概括(向上)到最详细(向下)。
4)向上卷积(Roll-up)。卷积涉及计算一个或多个维度的所有数据关系。为此,需要先定义计算关系或公式。
5)透视(Pivot)。透视图会更改报表或页面的展示维度。

三种经典的 OLAP 实现方法如下:
1)关系型联机分析处理(ROLAP)。ROLAP 通过在关系数据库(RDBMS)的二维表中使用多维技术来支持 OLAP。
星型架构是 ROLAP 环境中常用的数据库设计技术。
2)多维矩阵型联机分析处理(MOLAP)。MOLAP 通过使用专门的多维数据库技术支持 OLAP。
3)混合型联机分析处理(HOLAP)。它是 ROLAP 和 MOLAP 的结合。HOLAP 实现允许部分数据以 MOLAP 形式存储,而另一部分数据存储在 ROLAP 中。控件的实现方式各不相同,设计师对分区的组合也各有不同。

11.4 方法

驱动需求的原型,自助式商务智能,可查询的审计数据。

11.6 数据仓库/商务智能治理

11.6.5 度量指标(3 个)

3 个度量指标:使用指标、主题域覆盖率、响应时间和性能指标。

1.使用指标

数据仓库中使用的度量指标通常包括注册用户数、连接用户数或并发用户数。这些度量指标表示组织内有多少人正在使用数据仓库。为每个工具授权多少个用户账户是一个很好的开始,特别是对于审计员而言。但是,实际有多少用户连接到该工具是一个更好的度量指标,并且每个时间段由用户社区申请的查询(或与查询相当)数量对于容量规划是更好的技术指标。允许多个分析指标,如审核用户、已生成的用户查询量和使用用户。

2.主题域覆盖率

主题域覆盖百分比衡量每个部门访问仓库的程度(从数据拓扑的角度来看),还强调哪些数据是跨部门共享的,哪些还不是但也可能是共享的。
将操作源映射到目标是另一种自然的扩展,它强制和验证已经收集的血缘关系和元数据,并可以提供渗透分析,确定哪些部门在使用哪些源系统分析。通过减少对大量使用的源对象的更改,有助于将工作调整集中在那些具有高影响力的分析查询上。

3.响应时间和性能指标

大多数查询工具会测量响应时间。通过工具检索响应或性能指标。此数据指标代表用户的数量和类型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1600738.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Linux】磁盘扩容到根目录逻辑卷(LVM)

目录 一、物理卷和逻辑卷 1.物理卷和逻辑卷的区别 2.在Linux系统中查看所有物理卷的信息 3.在Linux系统中查看所有逻辑卷的信息 二、文件系统 三、实操-对root(/)目录进行扩容 1.使用lsblk命令查看新加入的磁盘信息 2.fdisk -l命令查看系统中磁盘…

景区导览系统平台|智能导览|数字人导游|VR游园

随着人工智能、元宇宙等技术的飞速发展,文旅行业正迎来一场前所未有的变革。道可云文旅元宇宙平台以其独特的智慧景区导览系统、元宇宙空间以及数字人导游等创新应用,为景区和游客带来了全新的旅游体验,也标志着文旅行业正式步入了元宇宙时代…

含多种需求响应及电动汽车的微网/虚拟电厂日前优化调度

1 主要内容 程序主要建立一个微网/虚拟电厂的日前优化调度模型,以燃气轮机运行成本、购售电费用、电动汽车电池损耗成本以及需求响应费用之和为目标,在日前经济调度模型中,加入了电动汽车模型,考虑了电动汽车出行规律以及充放电规…

华硕ROG幻16笔记本电脑模式切换管理工具完美替代华硕奥创中心管理工具

文章目录 华硕ROG幻16笔记本电脑模式切换管理工具完美替代华硕奥创中心管理工具1. 介绍2. 下载3. 静音模式、平衡模式、增强模式配置4. 配置电源方案与模式切换绑定5. 启动Ghelper控制面板6. 目前支持的设备型号 华硕ROG幻16笔记本电脑模式切换管理工具完美替代华硕奥创中心管理…

环境搭建创建项目_使用DevEco开发工具进行开发_创建项目_认识项目结构---HarmonyOS4.0+鸿蒙NEXT工作笔记001

首先去下载DevEco Studio然后再去安装就可以了 安装下一步下一步非常简单 首先去安装nodejs,可以看到,有两个安装方法,左边是自己安装的制定文件夹就可以了,然后 右边是使用鸿蒙自带的,我们选择第二个 然后我们看这个ohpm其实就跟npm是一个意思,用来管理鸿蒙的包的. 这里我们…

JavaEE:JVM

基本介绍 JVM:Java虚拟机,用于解释执行Java字节码 jdk:Java开发工具包 jre:Java运行时环境 C语言将写入的程序直接编译成二进制的机器语言,而java不想重新编译,希望能直接执行。Java先通过javac把.java…

【机器学习】贝叶斯算法在机器学习中的应用与实例分析

贝叶斯算法在机器学习中的应用与实例分析 一、贝叶斯算法原理及重要性二、朴素贝叶斯分类器的实现三、贝叶斯网络在自然语言处理中的应用四、总结与展望 在人工智能的浪潮中,机器学习以其独特的魅力引领着科技领域的创新。其中,贝叶斯算法以其概率推理的…

用于密集视觉冲击的紧凑三维高斯散射Compact 3D Gaussian Splatting For Dense Visual SLAM

Compact 3D Gaussian Splatting For Dense Visual SLAM 用于密集视觉冲击的紧凑三维高斯散射 Tianchen Deng 邓天辰11Yaohui Chen 陈耀辉11Leyan Zhang 张乐妍11Jianfei Yang 杨健飞22Shenghai Yuan 圣海元22Danwei Wang 王丹伟22Weidong Chen 陈卫东11 Abstract 摘要 …

通过腾讯云搭建跨境电商demo的详细操作过程(建站系统 保姆级指导,巨详细)

引言: 有许多做跨境电商的朋友,或者为跨境电商服务的小企业,都会面临搭建电商平台V1.0的问题 因此,花了点时间,找了一个开源的项目,让大家可以跑起来,一方面了解平台都有哪些模块,另…

Unity 左右折叠显示与隐藏UI的简单实现

要实现一个简单的UI左右折叠显示与隐藏,可以结合遮罩,通过代码控制UI区块的宽度和位移来实现。 具体可以按以下步骤实现: 1、新建一个Image组件,并添加精灵,调整大小后,复制一份作为该UI的父物体&#xf…

1、MYSQL系列-深入理解Mysql索引底层数据结构与算法

索引的本质 索引是帮助MySQL高效获取数据的排好序的数据结构 索引数据结构 二叉树红黑树Hash表BTree B-Tree B-Tree 叶节点具有相同的深度,叶节点的指针为空,所有索引元素不重复,节点中的数据索引从左到右递增排列 BTree(B-Tree变种) 非叶…

Pytorch搭建GoogleNet神经网络

一、创建卷积模板文件 因为每次使用卷积层都需要调用Con2d和relu激活函数,每次都调用非常麻烦,就将他们打包在一起写成一个类。 in_channels:输入矩阵深度作为参数输入 out_channels: 输出矩阵深度作为参数输入 经过卷积层和relu激活函数…

Qt对象池,单例模式,对象池可以存储其他类的对象指针

代码描述: 写了一个类,命名为对象池(ObjectPool ),里面放个map容器。 3个功能:添加对象,删除对象,查找对象 该类只构建一次,故采用单例模式功能描述:对象池可…

04 MySQL --DQL 专题--Union、exists

1. UNION、UNION ALL UNION 关键字的作用? 合并两个或多个 SELECT 语句的结果。发挥的作用与 or 非常相似 UNION关键字生效的前提? 每个 SELECT 语句必须拥有相同数量的列。每个 SELECT 语句中的列的顺序必须相同。列必须拥有相似的数据类型。 SELEC…

WebRTC直播间搭建记录

考虑到后续增加平台直播的可能性,笔记记录一下WebRTC相关. 让我们分别分析两种情况下的WebRTC连接建立过程: 情况一:AB之间可以直接通信 1.信令交换: 设备A和设备B首先通过信令服务器交换SDP(Session Description Pr…

负载均衡集群——LVS

目录 1.LVS简介 2.LVS体系结构 3.LVS相关术语 4. LVS工作模式 5. LVS调度算法 6.LVS集群介绍 6.1 LVS-DR模式 6.2 LVS – NAT 模式 6.3 LVS – TUN 模式 7.LVS 集群构建 7.1 LVS/NAT 模式配置 实验操作步骤 步骤 1 Nginx1 和 Nginx2 配置 步骤 2 安装和配置 LVS …

R语言使用installr包对R包进行整体迁移

今天分享一个R语言的实用小技巧,如果咱们重新安装了电脑(我重装了电脑)或者因为需要卸载旧版本的R软件,安装新版本的R,那么必然会造成R包的库缺失,需要重新下载,有些还不是官方的R包&#xff0c…

如何从零开始创建React应用:简易指南

🌟 前言 欢迎来到我的技术小宇宙!🌌 这里不仅是我记录技术点滴的后花园,也是我分享学习心得和项目经验的乐园。📚 无论你是技术小白还是资深大牛,这里总有一些内容能触动你的好奇心。🔍 &#x…

认识异常(1)

❤️❤️前言~🥳🎉🎉🎉 hellohello~,大家好💕💕,这里是E绵绵呀✋✋ ,如果觉得这篇文章还不错的话还请点赞❤️❤️收藏💞 💞 关注💥&a…

Python 基于 OpenCV 视觉图像处理实战 之 OpenCV 简单实战案例 之十三 简单去除图片水印效果

Python 基于 OpenCV 视觉图像处理实战 之 OpenCV 简单实战案例 之十三 简单去除图片水印效果 目录 Python 基于 OpenCV 视觉图像处理实战 之 OpenCV 简单实战案例 之十三 简单去除图片水印效果 一、简单介绍 二、简单去除图片水印效果实现原理 三、简单去除图片水印效果案例…