【大数据】什么是数据架构?

news2024/9/20 7:02:56

目录

一、什么是数据架构?

二、数据架构的发展历程

1. 早期阶段(1960年代-1970年代)

2. 关系数据库的兴起(1970年代-1980年代)

3. 数据仓库和数据挖掘(1980年代-1990年代)

4. 大数据和NoSQL(2000年代)

5. 数据湖和云计算(2010年代至今)

三、流行数据架构框架

The Open Group Architecture Framework (TOGAF)

DAMA-DMBOK 2

Zachman 企业架构框架

四、数据管理系统的类型

五、数据架构的类型

六、数据架构的优势


数据架构是指组织和管理数据的方式,包括数据的存储、处理、流动和使用方式。它涉及到如何设计和构建数据模型、数据库系统、数据交换机制等,以确保数据的有效性、安全性和可用性。数据架构的目标是支持业务需求、提高数据的质量和一致性,并促进数据的共享和集成。

什么是数据架构?

数据架构描述如何管理从收集到转换、分发和使用的数据。 它为数据及其在数据存储系统中流动的方式设定了蓝图。 它是数据处理操作和人工智能 (AI) 应用程序的基础。

数据架构的设计应该由业务需求驱动,数据架构师和数据工程师使用这些需求来定义相应的数据模型以及支持它的底层数据结构。 这些设计通常有助于满足业务需求,例如报告或数据科学计划

随着物联网 (IoT) 等新兴技术的出现,新的数据源不断涌现,良好的数据架构可以确保数据易于管理且具有利用价值,从而支持数据生命周期管理。 更具体地说,它可以避免冗余数据存储,通过清理和重复数据删除来提高数据质量,并支持新的应用程序。 现代数据架构还提供了跨域(例如部门或地理区域之间)集成数据的机制,打破了数据孤岛,因而消除了将所有数据存储在同一地方所带来的巨大复杂性。

现代数据架构经常利用云平台来管理和处理数据。 虽然它的成本更高,但它的计算可扩展性使重要数据处理任务能够快速完成。 存储可扩展性还有助于应对不断增长的数据量,并确保所有相关数据都可用,以提高训练 AI 应用程序的质量。

二、数据架构的发展历程

1. 早期阶段(1960年代-1970年代)

文件系统时代:早期的数据存储主要依赖于文件系统,数据存储在平面文件中。数据管理和处理通常是应用程序内部的一部分,这种方式很难实现数据共享和整合。

层次模型和网状模型:1960年代末和1970年代初,出现了层次数据模型(如IBM的Information Management System)和网状数据模型(如CODASYL DBTG模型)。这些模型允许更复杂的数据关系,但仍然较为复杂且不够灵活。

2. 关系数据库的兴起(1970年代-1980年代)

关系模型:1970年,Edgar Codd提出了关系模型,它用数学理论来描述数据结构和操作方法。关系模型使得数据组织更加灵活,并支持使用结构化查询语言(SQL)来进行数据操作。

数据库管理系统(DBMS):随着关系模型的普及,关系数据库管理系统(如IBM的DB2、Oracle、MySQL)迅速发展,成为企业数据管理的主要工具。

3. 数据仓库和数据挖掘(1980年代-1990年代)

数据仓库:数据仓库概念由Bill Inmon和Ralph Kimball在1990年代提出,它涉及将来自不同数据源的数据整合到一个中央仓库中,以支持决策分析。数据仓库设计强调数据整合、历史数据的保存以及查询和报告的高效性。

数据挖掘:数据挖掘技术开始得到关注,用于从大量数据中提取有价值的信息和模式。

4. 大数据和NoSQL(2000年代)

大数据:随着互联网和社交媒体的兴起,数据的规模和多样性大幅增加,传统的关系数据库面临挑战。大数据技术(如Hadoop、Spark)应运而生,用于处理和分析海量数据。

NoSQL数据库:为了处理非结构化数据和高并发请求,NoSQL数据库(如MongoDB、Cassandra)获得了广泛应用。NoSQL数据库不依赖于传统的关系模型,支持更灵活的数据存储和访问模式。

5. 数据湖和云计算(2010年代至今)

数据湖:数据湖的概念强调将各种类型的数据(结构化、半结构化、非结构化)以原始格式存储在一个集中式存储系统中。数据湖支持灵活的数据访问和分析,常与大数据技术结合使用。

云数据架构:云计算的普及使得数据存储和处理的模式发生了变化。云数据库(如Amazon RDS、Google BigQuery)和数据仓库服务(如Snowflake)提供了弹性、可扩展的解决方案,使得企业能够以更低的成本管理和分析数据。

数据架构的发展反映了技术的进步和业务需求的变化。从最初的简单文件存储,到复杂的关系模型、数据仓库、大数据技术,再到现代的云计算和数据湖架构,数据架构不断演变,以应对不断增长的数据量和复杂的数据处理需求。

流行数据架构框架

数据架构可以借鉴流行的企业架构框架,包括 TOGAF、DAMA-DMBOK 2 和 Zachman 企业架构框架。

The Open Group Architecture Framework (TOGAF)

这个企业架构方法由 The Open Group 于 1995 年开发,IBM 是该组织的白金会员。

该架构有四大支柱:

业务架构,它定义企业的组织结构、业务策略和流程。

数据架构,它描述概念、逻辑和物理数据资产,以及这些资产在整个生命周期中的存储和管理方式。

应用程序架构,它代表应用程序系统,以及这些系统与关键业务流程以及相互之间的关系。

技术架构,它描述支持任务关键型应用程序所需的技术基础架构(硬件、软件和网络)。

因此,TOGAF 为设计和实现企业的 IT 架构(包括其数据架构)提供了一个完整的框架。

DAMA-DMBOK 2

DAMA International 最初成立时的名称是 Data Management Association International,是一个致力于推进数据和信息管理的非营利组织。 其数据管理知识体系 DAMA-DMBOK 2 涵盖数据架构以及治理和道德、数据建模和设计、存储、安全和集成。

Zachman 企业架构框架

该框架最初由 IBM 的 John Zachman 于 1987 年开发,使用一个从上下文到详细信息的六层矩阵,映射了诸如为什么、怎么做和是什么等六个问题。 它提供了一种正式的数据组织和分析方式,但不包括具体方法。

数据管理系统的类型

1.数据仓库

数据仓库将来自企业内不同关系数据源的数据聚合到单个集中的统一存储库中。 提取后,数据流经 ETL 数据管道,经过各种数据转换,才能满足预定义数据模型的需求。 一旦加载到数据仓库中,数据就可以支持不同的商业智能 (BI) 和数据科学应用程序。

2.数据集市

数据集市是一个有针对性的数据仓库版本,它包含一个较小的数据子集,这些数据对组织内的单个团队或选定用户组很重要且是必需的。 由于数据集市包含较小的数据子集,因此在使用更广泛的数据仓库数据集时,数据集市使部门或业务线能够更快地发现更有针对性的洞察。 最初创建数据集市的目的是应对组织在 20 世纪 90 年代建立数据仓库的困难。 当时集成来自整个组织的数据需要进行大量手动编码,而且非常耗时。 与集中式数据仓库相比,数据集市的范围更有限,使其实现起来更容易且更快速。

3.数据湖

数据仓库存储已处理的数据,而数据湖存储原始数据,通常为 PB 级别。 数据湖可以存储结构化和非结构化数据,这使其与其他数据存储库不同。 这种灵活的存储需求对于数据科学家、数据工程师和开发人员尤其有用,让他们能够访问数据进行数据发现练习和机器学习项目。 最初创建数据湖的目的是应对数据仓库无法处理数量、速度和种类不断增加的大数据的情况。 虽然数据湖比数据仓库慢,但它们的价格也更低廉,因为在采集之前几乎不需要数据准备。 如今,它们作为云数据迁移工作的一部分持续演变。 数据湖支持广泛的用例,因为在收集数据时不需要定义数据的业务目标。 不过,两个主要用例包括数据科学探索以及数据备份和恢复工作。 数据科学家可以使用数据湖进行概念验证。 机器学习应用程序可以从能够在同一个地方存储结构化和非结构化数据中受益,这是使用关系数据库系统无法实现的。 数据湖也可以用于测试和开发大数据分析项目。 当应用程序开发完成并识别出有用数据后,可以将数据导出到数据仓库以供操作使用,并且可以利用自动化来实现应用程序扩展。 数据湖还可以用于数据备份和恢复,因为它们能够以低成本进行扩展。 出于同样的原因,数据湖非常适合存储尚未定义业务需求的“以备不时之需”数据。 现在存储这些数据意味着可以在以后出现新计划时使用。

数据架构的类型

1.数据结构

数据结构是一种架构,它侧重于数据提供者和数据使用者之间的数据价值链中的数据集成、数据工程和治理的自动化 数据结构基于“活动元数据”的概念,使用知识图、语义、数据挖掘和机器学习 (AI) 技术来发现各种类型元数据(例如系统日志、社交等)中的模式。 然后,将这种洞察应用于自动化并编排数据价值链。 例如,它可以使数据使用者能够找到数据产品,然后自动向他们提供该数据产品。 数据产品和数据使用者之间数据访问的增加减少了数据孤岛,并提供了更完整的组织数据视图。 数据结构是一种具有巨大潜力的新兴技术,可用于增强客户概要分析、欺诈检测和预防性维护。 根据 Gartner 的数据,数据结构使集成设计时间减少 30%,部署时间减少 30%,维护时间减少 70%。

2.数据网格

数据网格是一种去中心化的数据架构,按业务领域来组织数据。 使用数据网格时,组织需要不再将数据视为流程的副产品,而是开始将其视为产品本身。 数据生产者充当数据产品所有者。 作为主题专家,数据生产者可以利用他们对数据主要使用者的理解为他们设计 API。 这些 API 也可以从组织的其他部分访问,提供了更广泛的受管数据访问渠道。

数据湖、数据仓库等相对传统的存储系统可以作为多个去中心化的数据存储库来实现数据网格。 数据网格还可以与数据结构一起使用,借助数据结构的自动化,可以更快地创建新的数据产品或执行全球治理。

数据架构的优势

结构完善的数据架构可以为企业提供许多关键优势,其中包括:

1.减少冗余:不同来源中可能存在重叠的数据字段,从而会导致不一致、数据不准确和错失数据集成机会的风险。 良好的数据架构可以使数据存储方式标准化,并且可能减少重复,从而改善质量和整体分析。

2.提高数据质量:精心设计的数据架构可以解决管理不善的数据湖(也称为“数据沼泽”)所带来的一些挑战。 数据沼泽缺乏适当的数据质量和数据治理实践来提供有洞察力的学习。 数据架构可以帮助实施数据治理和数据安全标准,从而对数据管道进行适当的监督,使其按预期运行。 通过改进数据质量和治理,数据架构可以确保数据以一种现在和将来都具有价值的方式存储。

3.支持集成:由于数据存储的技术限制和企业内部的组织障碍,数据经常孤立存在。 当今的数据架构应该旨在促进跨域数据集成,以便不同的地理区域和业务部门可以访问彼此的数据。 这有助于对常用指标(例如费用、收入以及相关驱动因素)形成更准确、更一致的理解。 它还支持更全面地了解客户、产品和地理位置,从而更好地为决策提供信息。

4.数据生命周期管理:现代数据架构可以解决如何随时间推移管理数据的问题。 随着存在时间的增加和访问频率的降低,数据的使用价值通常会减少。 随着时间的推移,可以将数据迁移到成本更低、速度更慢的存储类型,这样就可以继续用于报告和审计,但无需使用高性能存储。

FineDataLink是一款低代码/高时效的数据集成平台,它不仅提供了数据清理和数据分析的功能,还能够将清理后的数据快速应用到其他应用程序中。FineDataLink的功能非常强大,可以轻松地连接多种数据源,包括数据库、文件、云存储等,而且支持大数据量。此外,FineDataLink还支持高级数据处理功能,例如数据转换、数据过滤、数据重构、数据集合等。使用FineDataLink可以显著提高团队协作效率,减少数据连接和输出的繁琐步骤,使整个数据处理流程更加高效和便捷。

免费试用、获取更多信息,点击了解更多>>>体验FDL功能

了解更多数据仓库与数据集成关干货内容请关注>>>FineDataLink官网

往期推荐:

OLAP与OLTP:数据处理系统的两种核心架构_oltp,olap-CSDN博客

【大数据】什么是数据对接?(附方法及工具介绍)_数据接口对接定义-CSDN博客

什么是湖仓一体?湖仓一体解决了什么问题?-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2038510.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机基础|数据溢出

一、概念 在类似C这样的非高级语言存在数值溢出问题&#xff0c;简单概括&#xff1a;高位数据丢失被低位数据占据位置。 二、举例 2.1 以C语言 for循环为例 /*int8_t value range from -128 to 127*/int8_t input;for (input 124; input < 130; input) {printf("%…

《Unity3D网络游戏实战》深入了解TCP

从TCP到铜线 应用层 应用层功能是应用程序&#xff08;游戏程序&#xff09;提供的功能。在给客户端发送“hello”的例子中&#xff0c;程序把“hello”转化成二进制流传递给传输层&#xff08;传送给send方&#xff09;​。操作系统会对二进制数据做一系列加工&#xff0c;使…

嵌入式八股文-网络编程、多线程和进程

网络编程 1. TCP头部结构 TCP固定头部结构 每个TCP报文段都包含着此报文段的TCP头部信息,用于指定源端端口、目的端端口以及管理TCP连接等。完整的TCP头部结构可分为固定头部结构和头部选项两个部分。 32位端口号:包括了16位源端口号和16位目的端口号。32位序号:假设第一次…

Linux驱动开发基础(Hello驱动)

所学内容来自百问网 目录 1. 文件在内核中的表示 2. 打开字符设备节点时&#xff0c;内核中也有对应的struct file 3. 编写驱动程序步骤 4. 相关知识点 4.1 涉及函数解析 4.2 module_init/module_exit的实现 4.3 register_chrdev的内部实现 4.4 class_destroy/device_…

(Jmeter、Fiddler)脚本转换Loadrunner脚本

背景:公司政治任务、各种体系文档要留档,但有些不在体系内的工具生成的脚本需要转化到体系内以备留档。 一、Loadrunner代理设置 开始录制配置: Record->Remote Application via LoadRunner Proxy LoadRrunner Proxy listens on port-> 8889 (系统建立出入站规则…

解析防蠕动交叉导轨的防蠕动机制

随着工业自动化的不断发展&#xff0c;对机械导轨系统的精度和稳定性要求越来越高。防蠕动交叉导轨作为一种新型导轨系统&#xff0c;能够有效提高设备的运行精度和稳定性&#xff0c;降低维护成本。 蠕动现象通常发生在导轨负载超出其额定范围、表面粗糙度不足或润滑不良等情况…

Python 实现 Excel 文件操作的技术性详解

目录 一、引言 二、Excel 文件格式及库的选择 2.1 Excel 文件格式 2.2 库的选择 三、安装必要的库 四、使用 openpyxl 读取 Excel 文件 4.1 基本步骤 4.2 实战案例 五、使用 pandas 读取 Excel 文件 5.1 基本步骤 5.2 实战案例 六、写入 Excel 文件 6.1 使用 …

【每日刷题】Day100

【每日刷题】Day100 &#x1f955;个人主页&#xff1a;开敲&#x1f349; &#x1f525;所属专栏&#xff1a;每日刷题&#x1f34d; &#x1f33c;文章目录&#x1f33c; 1. 【模板】堆_牛客题霸_牛客网 (nowcoder.com) 2. 【模板】链表_牛客题霸_牛客网 (nowcoder.com) 3…

Linux系统移植——开发板烧写

目录&#xff1a; 目录&#xff1a; 一、什么是EMMC分区&#xff1f; 1.1 eMMC分区 1.2 分区的管理 二、相关命令介绍&#xff1a; 2.1 mmc 2.1.1 主要功能 2.1.2 示例用法 2.2 fdisk 2.2.1 基本功能 2.2.2 交互模式常用命令 2.2.3 注意事项 三、U-BOOT烧写 3.1 mmc命令 3.2 f…

24小时监控识别潜在的非安全生产隐患的明厨亮灶开源了。

明厨亮灶视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒&#xff0c;省去繁琐重复的适配流程&#xff0c;实现芯片、算法、应用的全流程组合&#xff0c;从而大大减少企业级应用约95%的开发成本。AI技术可以24小时…

【JS】旋涡数组

前言 实现如下图的旋涡数组&#xff0c;简单理解为遇到拐点自动拐弯&#xff0c;否则一直沿当前方向推进。 封装一个函数接收两个参数分别为行数以及列数&#xff0c;实现该旋涡数组。 思路 二维数组&#xff0c;初始填充0分别记录水平和垂直方向的坐标&#xff0c;并根据步…

学习记录702@计算机组成原理之计算机硬件组成细化

运算器 ACC是累加器ALU是逻辑和算数运算单元MQ是乘商寄存器 X是操作数寄存器各部分存储的值 控制器 PC是程序计数器&#xff0c;用来存放下一条应该执行程序的地址&#xff0c;与MAR地址寄存器相连&#xff0c;找到下一个要执行的程序的地址。IR指令寄存器&#xff0c;用来…

怎么利用XML发送视频彩信

传统的短信推广主要以文字为主&#xff0c;用户接收到的信息往往显得单调乏味。而视频彩信则不同&#xff0c;它结合了视频和音频的优势&#xff0c;通过生动的画面和悦耳的音乐&#xff0c;给用户带来强烈的视听冲击&#xff0c;从而极大地提高了用户的吸引力。 XML成功返回示…

某通电子文档安全管理系统 CDGAuthoriseTempletService1接口SQL注入漏洞复现 [附POC]

文章目录 某通电子文档安全管理系统 CDGAuthoriseTempletService1接口SQL注入漏洞复现 [附POC]0x01 前言0x02 漏洞描述0x03 影响版本0x04 漏洞环境0x05 漏洞复现1.访问漏洞环境2.构造POC3.复现0x06 修复建议某通电子文档安全管理系统 CDGAuthoriseTempletService1接口SQL注入漏…

聚鼎科技:现在开一家装饰画店铺究竟受欢迎吗

在这个时代&#xff0c;装饰画不仅仅是墙上的一抹色彩&#xff0c;它已经成为人们情感寄托、审美追求的象征。那么&#xff0c;现在开一家装饰画店铺究竟受欢迎吗? “家&#xff0c;是一幅画。”这句话道出了现代人对于家的期待与向往。在这个快节奏的时代&#xff0c;人们渴望…

8.13 哈希表中等 128 Longest Consecutive Sequence 138 Copy List with Random Pointer

128 Longest Consecutive Sequence class Solution { public:int longestConsecutive(vector<int>& nums) {//无序array整数数组&#xff0c;返回最长的连续的序列长度&#xff0c;首先这些数不按顺序//时间复杂度O(n)//使用哈希表&#xff0c;先存后遍历---->no …

web页面的性能测试

背景 测试大模型主要web页面的性能 使用工具 通过google自带的lighthouse测试页面的性能 各个参考指标 First Contentful Paint(FCP):测量在用户导航到页面后浏览器呈现第一段 DOM 内容所花费的时间。页面上的图像、非白色<canvas>元素和 SVG 被视为 DOM 内容&#…

C++STL之string类:基本使用及模拟实现

目录 一&#xff0c;前言 为什么要学习string类 C语言中的字符串 C中的字符串 STL(Standard Template Library) 里面的 string 类 二&#xff0c;string类的基本使用 文档的阅读 常见接口的基本使用 1&#xff0c;构造函数(constructor) 2&#xff0c;拷贝构造(copy …

程序员喜欢的7个免费公共API

本文将介绍七个程序员们喜爱的免费公共API&#xff0c;它们覆盖了从天气信息、翻译到数据分析、游戏等多个领域。这些API不仅易于使用&#xff0c;而且功能全面&#xff0c;能够帮助开发者快速实现项目需求&#xff0c;无论是个人学习、小项目开发还是商业应用&#xff0c;都能…

诸葛io孔淼:聚焦区域性银行,新一代自主可控的埋点分析平台

近日&#xff0c;由金科创新社主办的2024金融科技创新发展论坛顺利召开&#xff0c;诸葛智能创始人孔淼受邀出席并发表演讲&#xff0c;他表示&#xff0c;区域性银行需要构建新一代的数智化营销体系&#xff0c;驱动营销效率与经营效能增长。 孔淼指出&#xff0c;中小银行应…