数据模型篇之大数据领域建模综述

news2024/11/26 10:44:19

第8章 大数据领域建模综述

1.为什么需要数据建模

为了更好的将数据进行有序、有结构地分类组织和存储。数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。
数据建模的好处:

性能:良好的数据模型能帮助我们快速查询所需要的数据,减少数据的 110 吞吐。
成本:良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果复用,极大地降低大数据系统中的存储和计算成本。
效率:良好的数据模型能极大地改善用户使用数据的体验,提高使用数据的效率。
质量:良好的数据模型能改善数据统计口径的不一致性,减少数据计算错误的可能性。

2.关系数据库系统和数据仓库

E . F .Codd是关系数据库的鼻祖,它首次提出了数据库系统的关系模型,开创了数据库关系方法和关系数据理论的研究。

两者的关系:大量的数据仓库系统依托强大的关系数据库能力存储和处理数据,其采用的数据模型发放也是基于关系数据库理论的。

3.从OLTP和OLAP系统的区别看模型方法论的选择

On-Line Transaction Processing联机事务处理过程(OLTP),也称为面向交易的处理过程,其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作快速响应的方式之一。
On-Line Analytical Processing联机分析处理过程(OLAP)。OLAP对业务数据执行多维分析,并提供复杂计算,趋势分析和复杂数据建模的能力。它主要用于支持企业决策管理分析,是许多商务智能(BI)应用程序背后的技术。OLAP使最终用户可以对多个维度的数据进行即席分析,从而获取他们所需知识,以便更好地制定决策。OLAP技术已被定义为实现“快速访问共享的多维信息”的能力。

OLTP 系统通常面向的主要数据操作是随机读写,主要采用满足3NF 实体关系模型存储数据,从而在事务处理中解决数据的冗余和一致性问题。
OLAP 系统面向的主要数据操作是批量读写,事务处理一致性不是 OLAP 关注的,其主要关注数据的整合,以及在的复杂大数据查询和处理中的性能,因此它需要采用一些不同的数据模方法。

4. 典型的数据仓库建模方法论

  • ER模型

数据仓库之父 Bill lnmon 提出的建模方法是从全企业的高度设计3NF 模型,用实体关系( Entity Relationship, ER )模型描述企业业务,在范式理论上符合 3NF 。
特点

需要全面了解企业业务和数据
实施周期非常长。
对建模人员的能力要求非常高

建模步骤

高层模型:一个高度抽象的模型,描述主要的主题以及主题间的关系,用于描述企业的业务总体概况。
中层模型:在高层模型的基础上,细化主题的数据项。
物理模型(也叫底层模型):在中层模型的基础上,考虑物理存储,同时基于性能和平台特点进行物理属性的设计,也可能做一些表的合并、分区的设计等。

  • 维度模型

维度模型是数据仓库领域的 Ralph Kimball 大师所倡导的,他的 The Data rehouse Tolkit-The Complete Guide to Dimensional Modeling数据仓库工程领域最流行的数据仓库建模的经典。
建模步骤

选择需要进行分析决策的业务过程。业务过程可以是单个业务事件,比如交易的支付、退款等;也可以是某个事件的状态,比如当前的账户余额等;还可以是一系列相关业务事件组成的业务流程,具体需要看我们分析的是某些事件发生情况,还是当前状态,或是事件流转效率。
选择粒度。在事件分析中,我们要预判所有分析需要细分的程度,从而决定选择的粒度。粒度是维度的一个组合。
识别维表。选择好粒度之后,就需要基于此粒度设计维表,包括维度属性,用于分析时进行分组和筛选。·选择事实。确定分析需要衡量的指

  • Data Vault模型

Data Vault Dan Linstedt 发起创建的一种模型,它是ER模型的衍生,其设计的出发点也是为了实现数据的整合,但不能直接用于数据分析决策。
组成

Hub :是企业的核心业务实体,由 实体 key 、数据仓库序列代理键、装载时间、数据来源组成。
Link :代表 Hub 之间的关系。这里与 模型最大的区别是将关系作为一个独立的单元抽象,可以提升模型的扩展性。它可以直接描述 : :n n:n 的关系,而不需要做任何变更。它由 Hub的代理键、装载时间、数据来源组成。
Satellite :是 Hub 的详细描述内容, 一个 ub 可以有多个 Satellite它由 Hub 的代理键、装载时间、来源类型、详细的 Hub 描述信息组成。

模型实例
在这里插入图片描述

  • Anchor模型

Anchor Data Vault 模型做了进一步规范化处理, Lars. Ri:innback 的初衷是设计 个高度可扩展的模型,其核心思想是所有的扩展只是添加而不是修改,因此将模型规范到 6NF ,基本变成了 k-v 结构化模型。

组成

Anchors :类似于 Data Vault Hub ,代表业务实体,且只有主键。
Attributes :功能类似于 Data Vault Satellite ,但是它更加规范化,将其全部 k-v 结构化, 个表只有 Anchors 的属性描述。
Ties :就是 Anchors 之间的关系,单独用表来描述,类似于 DataVault Link ,可以提升整体模型关系的扩展能力。
Knots :代表那些可能会在 Anchors 中公用的属性的提炼,比如性别、状态等这种枚举类型且被公用的属性

模型图
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/90274.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

4款国产实用软件,只因功能强大,常被误认为是外国人开发的

过去常听说国外的XXX好,国外的月亮一定更圆,国产软件一样很良心,然而由于偏见,却被误认为是外国人开发的,闹出笑话。 1、Cruiser EXP Alpha 这是我见过最强大的电脑工具箱,没有之一,收纳了超120…

被新华社技术局点名!中国电信这个“黑盒子”干啥了?

全媒体时代,新闻报道又快又好,需要先进技术提供有力支撑。近日,中国电信收到新华社通信技术局感谢信,点赞中国电信5G商企专网产品,基于5G专线进行点对点快速组网,实现了前方报道重要节点物理线路的“空天备…

Springboot整合EasyExcel,实现Excel文件上传

一、概念 EasyExcel是一个基于Java的、快速、简洁、解决大文件内存溢出的Excel处理工具。 它能让你在不用考虑性能、内存的等因素的情况下,快速完成Excel的读、写等功能。EasyExcel是在尽可能节约内存的情况下支持读写百M的Excel。 二、Excel的上传(读Excel) 1.E…

Spring Batch 批处理-作业增量参数

引言 接着上篇:Spring Batch 批处理-作业参数校验,了解作业参数校验后,本篇就来了解一下Spirng Batch 作业增量参数。 作业增量参数 不知道大家发现了没有,每次运行作业时,都改动作业名字,或者改动作业的…

php就业招聘系统mysql数据库web结构计算机软件工程网页wamp

一、源码特点 PHP就业招聘系统 是一套完善的web设计系统,对理解php编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环 境为PHP APACHE,数据库为mysql5.0,使用php语言开发。 php就…

【C00098】基于SSM的校园疫情防控管理系统——可视化大屏

基于SSM的校园疫情防控管理系统——可视化大屏项目简介项目获取开发环境项目技术运行截图注意:2022年最新款,全网唯一!! 先到先得!! 项目简介 基于ssm框架开发的校园疫情防控管理系统共分为四个角色&…

非零基础自学Golang 第6章 Go语言内置容器 6.3 映射

非零基础自学Golang 文章目录非零基础自学Golang第6章 Go语言内置容器6.3 映射6.3.1 声明映射6.3.2 初始化映射6.3.3 遍历映射6.3.4 从映射中删除键值对第6章 Go语言内置容器 6.3 映射 映射(map)是一种无序的键值对的集合,map的键类似于索引…

聚观早报 | 特斯拉上线Steam平台;苹果CEO库克访问索尼

今日要闻:特斯拉上线Steam平台;苹果CEO库克访问索尼;三星向华为转让多项专利;NASA将在太空调查水资源;传推特拖欠总部租金数周特斯拉上线Steam平台 12 月 14 日消息,特斯拉已经为其ModelS和ModelX电动汽车上…

建筑建材企业如何高效进行合同签署?数商云B2B系统推动企业合同签约规范化

建筑建材行业作为重要的材料工业,其主要产品包括建筑材料及制品、非金属矿及制品、无机非金属新材料三大门类,现广泛应用于建筑、军工、环保、高新技术产业和人民生活等领域,占国民生产总值的20%左右,但目前建筑建材行…

开关电源环路稳定性分析(08)——电流型补偿网络

大家好,这里是大话硬件。 在上一节分析了3种类型的电压型补偿网络,当然前面的内容还达不到环路补偿的要求,在后面会有内容对其进行补充。我们先把整个开关电源的闭环控制所需要基本知识点过一遍,再针对性的分析。 这一讲我们来分…

源码角度详解Java中的优先队列PriorityQueue(堆的实现)

if (e null) throw new NullPointerException(); modCount; int i size; if (i > queue.length) grow(i 1); size i 1; if (i 0) queue[0] e; else siftUp(i, e); return true; } 在offer方法中,我们会先判断数组是否需要扩容,然…

DataX 原理解析和性能优化

datax简介 datax是阿里开源的用于异构数据源之间的同步工具,由于其精巧的设计和抽象,数据同步效率极高,在很多公司数据部门都有广泛的使用。本司基于datax在阿里云普通版的rds服务器上实现了通过公网,从阿里云杭州到美国西部俄勒…

一种基于Spark深度随机森林的网络入侵检测模型

一种基于Spark深度随机森林的网络入侵检测模型学习目标学习内容目前存在的不足为了解决这个问题特征分片深度并行随机森林Deep Parallel Random Forest(DPRF)投票策略Spark 上的并行化高复用缓存计算每个RDD的权重分层替换模型评估局限性参考论文申明: 未经许可&…

ASP.NET Core Web API 学习笔记

目录 一、Demo 1. 创建项目 2. 启动项目 3. 编写 api demo 二、C# .NET WEB 程序结构 一、Demo 1. 创建项目 创建的项目结构如下: Properties 配置文件,存放了一些 .json 文件用于配置 ASP.NET Core 项目 Propertics/launchSettings.json 启动配置文件&…

以岭药业:连花清瘟火爆背后,数字化重塑人力资源管理

近日,随着疫情防控政策“国十条”发布,新冠防疫政策逐步进入后防疫时代,每个人要做自己健康的“第一责任人”。而连花清瘟作为中医药治疗新冠肺炎筛选出的“三药三方”之一,也成为新疫情防控模式下的家庭常备药。连花清瘟自上市以…

怎么将图片内容转换成文字?这两种方法可以轻松实现

如何将图片的内容转换成文字呢?大家在使用图片文件的时候,遇到那种图片中包含一些有用的文字信息时,没有办法直接复制下来使用,只能对照着图片将文字信息给记录下来,这样会很耗费我们的时间。其实是有方法能够直接将图…

Python学习中常见的几个报错,看你踩雷没

前言 嗨嗨 今天给大家统计一下, 在学习Python中遇到的常见报错, 不一定会很全面, 但是应该会持续更新, 有用的话, 记得收藏哦~ 下面我会总结遇到的报错截图, 给出解决办法, 如果有需要补充的报错, 或者你解决不了的报错, 欢迎来文章最下方QQ群里面找我~ 1. 模块未安装 (Mod…

面试中这样介绍自己的项目经验,轻松拿Offer

面试时7分靠能力,3分靠技能,而刚开始时的介绍项目又是技能中的重中之重,所以本文将从“介绍”和“引导”两大层面告诉大家如何准备面试时的项目介绍。 在面试时,经过寒暄后,一般面试官会让介绍项目经验 。常见的问法是…

Go C 编程 第4课 变色魔法(魔法学院的奇幻之旅 有Go C编程绘图)

慧通教育 慧通教育 34.画彩色旗帜 (魔法学院第4课)--2022.12.15 登录 35.画转动的方形 (魔法学院第4课) 登录 36.画wifi信号 (魔法学院第4课) 登录 888.哪个大? (课程6) 难度:1 登录 889.余数大小 (课程6) 难度:1 登录 适合…

Java学习—网络编程

网络编程 目的:数据交换、通信 1. 网络通信的要素 通信双方地址(IP端口号)网络通信协议 Java万物皆对象 2. IP地址 IP地址的类:InetAddress 唯一定位一台网络上的计算机127.0.0.1 本机地址 package com.xiaozhang.lesson01;…