怎么建设数据中台?详解数据中台架构内的三大平台

news2024/12/23 14:51:11

一、什么是数据中台?

要知道“中台”是什么,就得先了解“前台”和“后台”。

前台,就是我们日常使用的过程中可以直接看到和感知到的东西,比如你打开某东app买了个3080显卡,在这个过程中你看到的页面以及搜索、点击详情之类的交互操作都属于前台。

后台,就是支撑这些展示的算法、数据、流程等,这些是看不见摸不着的。现在不都讲究精准推送嘛,你今天某音看了美女视频,接下来天天都给你推,这背后的算法逻辑就属于后台。

如果按照传统“前台—后台”架构,企业业务的增多会导致n多前台和n多后台产生。就拿某节来说,它不止有某音,还有某条、某车帝、某瓜视频之类的,它们有很大一部分模块或功能是重复的,比如搜索、创作后台、查重机制、推送方式等。为了不重复造轮子,提高开发效率,就需要一个统一的平台来承接共性的功能模块,作为n多前台和n多后台的桥梁,这个时候“中台”就出现了。

那到底什么是数据中台呢?

一句话概括:数据中台是一套“持续让企业把数据用起来”的机制。

001393593f121d847f13db70b53cd163.jpeg

数据中台主要是解决2个问题,一个是搞定企业后台开发跟不上前台业务需求变化速度,第二个是业务系统解决数据孤岛问题。

我们可以把数据中台看作是一个智能家居中枢控制中心,家里的各种智能设备如灯泡、音响、门锁等是前台,控制它们系统是后台,而数据则相当于向各个智能设备发送的指令和信息。

数据连接:智能家居中枢控制中心可以连接到各个智能设备,通过与这些设备建立通信,获取设备发送的指令和数据。

数据处理整合:数据中台对收集到的数据进行处理、整合和转换,确保数据的一致性和可用性。例如,将不同设备发送的指令进行标准化和统一,以便更好地进行集中控制。

控制和调度:基于数据中台收集到的数据,智能家居中枢控制中心可以执行控制和调度操作。它可以根据你的指令和设定,控制各个智能设备的状态,例如调整灯光亮度、播放音乐、解锁门锁等。

总结来说,数据中台的作用有:

健全各部门协作机制:通过系统的解决方案,实现企业数据相关人员如业务人员、研发人员、产品团队等的高效协作。

帮助企业建立数据基础:通过建立数据建设规范和指标规划,对收集到的数据进行处理、整合和转换,确保数据的一致性和可用性。

节约企业数据应用成本:通过数据中台,拉通整合了不同业务系统数据,不仅减少了重复开发成本,还缩短了数据加工到使用的时间。

示例中提到的数据模板分享给大家——
https://s.fanruan.com/8j9is
零基础快速上手,还能根据需求进行个性化修改哦


二、怎么建设数据中台?

数据中台需要采集数据作为原材料进行数据加工、数据建模,然后分门别类地储存,再根据实际的业务场景,打造各类数据服务(含数据应用平台)从而实现对业务的赋能加速。

但以上流程的实现,需要有对应的系统与产品作为支撑,那么怎么建设数据中台,基础的数据中台到底应该由哪些系统或者产品组成?

对于怎么建设数据中台,这里我们可以先来看一下几个企业的数据中台架构。

ecdc5a42402c0de597eb1e3671658764.jpegb3043cbe8a4fff6a1818b5586ab02094.jpeg

可以看出,虽然每个企业由于自身业务的不同,衍生出来的数据中台体系都有所不同,但大的架构方面是基本统一的,都需要通过一个“数据采集接入”-“加工存储”-“统一管理”-“服务应用”的阶段。

怎么建设数据中台?数据中台的功能架构应该由大数据平台、数据资产管理平台与数据服务平台三大部分组成,其中在数据服务平台中自助分析平台与标签管理系统的应用场景最为广泛。

2c7f0cbb0c60cea02e7a5186596fe66b.jpeg

1、大数据平台

大数据平台是数据中台的基座,我们也可以把大数据平台称为大数据开发平台,它需要具备与大数据相关的开发能力,提供数据存储、数据清洗/计算、数据查询展示及权限管理等功能。

市面上各个公司的大数据平台结构其实大同小异,各类架构都包含了数据采集组件、数据存储组件、数据计算引擎、数据权限与安全组件,以及集群管理与监控组件等。

除了少数像阿里这样倾力打造自研“飞天”系统的企业,其他企业在底层组件选用上,还是以 Hadoop 生态构建的技术体系为主,依托各类开源组件进行优化改进与二次开发。例如,数据存储组件可以选择HBase、Hive等组件,数据计算引擎可以选择Spark、Flink等分布式计算引擎。

既然大家选用的组件相同或者相似,那为什么最终各企业大数据平台的服务能力还是存在差距呢?这有些类似于购买零件组装台式电脑,零件不需要选最贵的,而是要根据实际需求来选择最适合的。

好用的大数据平台需要拥有为用户解决问题的能力。因此,数据中台的大数据平台建设不是比拼引用了多少新技术、覆盖了多少技术组件,而是要看它能否解决数据中台建设中所面临的复杂数据现状,能否成为数据中台打破数据壁垒的技术保障,能否提供简洁有效的数据处理工具,如提供自助配置式的数据采集与数据清洗工具等,以及能否提供更多的附加价值。

数据中台的大数据平台建设,可以避免各事业部技术团队各自搭建大数据集群所带来的资源浪费。统一的、成熟的大数据平台对企业来说,不能一蹴而就,需要循序渐进、分步实施,在持续迭代中构建企业的大数据平台生态。

2、数据资产管理平台

顾名思义,数据资产管理主要解决数据资源的管理工作。通常情况下,数据资产遍布在各个大数据组件中,有 hive 的表, 有 hbase 的表, 有 druid 的 datasource, 有 kafka 中的流, 各个组件的管控系统很难互相打通, 所以需要一个统一的数据资产管理服务, 来统筹大数据资源的管理。

随着大数据平台的建设,构建数据中台的数据体系成为可能,通过对各业务线数据的归类整合,我们可以构建出各个数据主题域,完成数据的规范存储,形成数据资产,进而完成数据资产管理。

在数据中台体系中,数据资产管理平台主要由元数据管理与数据模型管理组成,下面让我们分别了解一下。

1)元数据管理

讲述元数据管理,我们需要先弄清楚什么是元数据。

元数据(MetaData)通常被定义为:关于数据的数据(Metadata),或者描述数据的数据(data about data),对数据及信息资源的描述性信息。元数据是所有数据中最重要的数据。

这里举一个最通俗的例子。当我们去图书馆借书时,直接面对数以万计的图书,自然难以寻找,但是你通过在图书馆查询系统中输入这本的书名、作者、出版社等信息,获取就能准确的图书位置。那么这些书名、作者等信息,就可以理解为元数据,而图书的存放位置、借阅历史记录等,则是我们系统中的普通数据。

在数据库中,每一张数据表的表名、创建信息(创建人、创建时间、所属部门)、修改信息、表字段(字段名、字段类型、字段长度等),以及该表与其他表之间的关系等信息都属于这张数据表的元数据。

其实,元数据有多种分类方式,笔者更倾向于按照元数据的用途来区分,总共分为三类:业务元数据、技术元数据和管理元数据。

业务元数据:描述数据的业务含义、业务规则等,包括业务规则、数据字典以及安全标准等多项内容。通过明确业务元数据,让人们产生统一的数据认知,消除数据歧义,让不懂数据库的业务方读懂数据表的内容。

技术元数据:描述数据源信息、数据流转信息及数据结构化信息,主要服务于数据开发人员,让开发人员明晰数据表结构与所依赖的上下游任务,主要包括库表字段(存储位置、数据库表、字段长度和类型)、数据模型、ETL脚本(调度信息)与SQL脚本等。

管理元数据:描述数据的管理归属信息,包括业务归属、系统归属、运维归属以及数据权限归属等信息,是数据安全管理的基础。

becbca4145e99d5dad665968131591eb.jpeg

所以有人说,元数据记录了数据从无到有的全过程,就像一本有关数据的“字典”,让我们可以查询到每一个字段的含义与出处,同时它又像是一张“地图”,让我们可以追溯数据产生的路径。

通过对数据体系的建设,数据中台的元数据汇聚了企业各业务线与各系统的数据信息,让数据中台具备了提供全域数据资产视图的能力,实现了统一数据资产查询与获取入口的目标。

元数据管理包括对元数据增删与编辑管理、版本管理、元数据统计分析与元模型管理。通过上述功能模块,有计划地进行数据体系的落地实施,实现数据中台元数据的结构化与模型化,这样既可以避免元数据出现杂乱与冗余的现象,也便于用户查询与定位数据。

2)数据模型管理

介绍元数据时,我们提到技术元数据中包括数据模型,这里的数据模型就是指使用元数据进行数据建模的工作产物。

根据底层数据的使用情况,如数据表的关联信息、SQL脚本信息(数据聚合与查询信息等),来获取元数据,可以更好地完成对业务的抽象,提高建模效率。

数据模型是数据整合的有效手段,它完成了各数据源之间的映射关系设计,为数据主题建设提供了“实施图纸”。

同时,在数据建模过程中,通过明确数据标准,可以确保数据的一致性,还可以消化冗余数据。

至于数据模型管理,其是指在数据建模过程中,通过既定的数据模型管理制度,实现对数据模型增、删、改、查的管理,同时遵守数据标准化与数据统一化的要求,确保数据质量。

0153adbb196de23322a69569b6925dd9.jpeg

3、数据服务平台

举例:自助分析平台

自助分析平台,也就是商业智能平台(BI平台)。BI平台目前已经是很多企业的标配,目前BI商用市场的行业竞争日趋激烈,进场者可以分为如下3类:

►国内BI厂商,如Fine BI

►国外BI厂商,如Tableau

►互联网大厂内部孵化

BI 平台是数据中台服务能力的主要输出方,要想让数据中台发挥出应有价值,那么BI平台的建设必不可少,所以需要将BI平台建设划分在数据中台体系下。综合来看,BI平台应该具备如下能力。

(1)数据接入

除了数据中台的自有数据源,BI平台还需要支持外部数据源的接入。其接入方式,主要有如下3种:

►文件型:支持Excel等文件数据的上传。

►数据连接型:支持Mysql、Oracle等数据库,以及Hadoop、Spark等大数据平台(数据中台的大数据平台也在此列)。

►API读取:支持通过API获取第三方系统数据。

08a079c8f5a19bda0f0f1edab0a65312.jpeg帆软BI平台支持的数据源

(2)数据处理

BI 平台需要能为用户提供数据建模工具,帮助用户创建目标数据(数据集),其提供的功能包括拖拽表字段、自动识别维度/指标、自定义视图语句、预览数据、设置虚拟字段、函数计算、设置参数等基本操作,以及多源异构的 JOIN/UNION等数据处理功能。

cc54b0a4dd4e8edc4660bf3a4fbc190e.jpegFineBI自助数据集数据处理界面

(3)数据分析与可视化

在数据处理的基础上,BI 平台还需要为用户提供丰富的图表制作和联机分析处理(OLAP)操作,让用户在前端页面完成数据分析与数据可视化等工作。

其操作流程如下:用户选择处理后的数据集,对维度与指标进行筛选过滤,然后通过上卷下钻、图表联动、报表跳转等操作,完成业务需求的分析,同时BI平台会为用户提供可视化图形组件,使其最终完成可视化内容的设计。

94b090de0cb44906b584763474ab3dfa.jpeg

(4)内容分发与基础服务

BI平台需要具备分发可视化内容,并进行查看权限与数据权限控制的能力。主要的分发方式包括BI平台、移动BI(App)、数据大屏、邮件、链接访问,以及第三方嵌入等方式。

同时BI平台还需要具备基础的运营管理、角色管理、帮助中心与消息推送等功能。

只有满足以上功能、具备了多维分析、数据可视化与数据大屏等服务能力的BI平台,才可以最大限度的发挥在数据中台体系中的价值,有效地帮助分析师与运营团队提升工作效率。

除了商业智能BI外,各企业还需根据自身所处行业的特性去进行数据应用价值的最大化挖掘。

三、结语

在数字化与信息化高速发展的时代,FineBI——市场占有率第一的BI数据分析软件,旨在帮助企业的业务人员充分了解和利用他们的数据,加速企业数字化转型,提升市场竞争力。得益于FineBI强劲的大数据引擎,用户只需简单拖拽便能制作出丰富多样的数据可视化信息,自由地对数据进行分析和探索,让数据释放出更多未知潜能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1536172.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java学习笔记20——枚举类型的创建与使用

在实际编程中,存在着这样的“数据集”,它们的数值在程序中是稳定的并且个数是有限的。例如春、夏、秋、冬四个数据元素组成了四季的“数据集”,一月到十二月组成了十二个月份的“数据集”,周一到周五及周六周日组成了每周七天的“…

了解交换机上的SFP和QSFP端口

在当今互联的世界中,可靠、高效的网络通信对于企业的蓬勃发展至关重要。为了实现顺畅的连接,了解能够实现该目标的技术非常重要。其中一项关键技术是交换机上的SFP和QSFP端口。本文将简要介绍这些概念,定义并解释交换机SFP端口和QSFP端口的优…

面试官:对于 Java 中多态的理解是什么?

面试官:对于 Java 中多态的理解是什么? 题目 面试官:对于 Java 中多态的理解是什么? 推荐解析 1.父类的引用指向子类的对象 子类重写父类的方法:子类可以继承父类的方法,并对其进行重写。当通过父类的…

Python炒股自动化(5):通过接口查询订单,查询账户资产

上一节我们演示了报单撤单,也叫提交委托和撤销委托,我习惯说下单撤单,与交易所建立连接这里不演示了,没看的可以点下面链接了解一下 Python炒股自动化(4):通过接口向交易所发送订单https://cai…

关于msvcp140.dll丢失的解决方法详情介绍,修复dll文件的安全注意事项

在使用电脑的过程中,是否有遇到过关于msvcp140.dll丢失的问题,遇到这样的问题你是怎么解决的,都有哪些msvcp140.dll丢失的解决方法是能够完美解决msvcp140.dll丢失问题的,今天小编将带大家去了解msvcp140.dll文件以及分析完美解决…

2024年是否值得投资购买Photoshop?优势与劣势解析

相信所有的设计师都是对的 Adobe Photoshop 非常熟悉,它是一款专业的照片编辑软件应用程序。如果您有兴趣购买,请购买。 Adobe Photoshop,也许你想知道Adobe Photoshop价格。Adobe Photoshop的价格反映了它强大的使用价值,下面是不…

Vuex状态、数据持久化(vue2、vue3状态数据持久化)

简介:Vuex是一个仓库,是vue的状态管理工具,存放公共数据,任何组件都可以使用vuex里的公共数据。Vuex提供了插件系统,允许我们使用 vuex-persistedstate插件,将Vuex的状态持久化到本地存储中,解决…

@arco.design radioGroup 组件手写 beforeChange 方法

官方是没有提供 beforeChange 事件的&#xff0c;只能自己写一个 子组件&#xff08;CustomRadioGroup&#xff09; <template><a-radio-group :model-value"modelValue" change"onRadioChange"><a-radio v-for"item in list" …

【C语言】基础(与python语法比较)

1、【C#】 printf ① 头文件stdio.h&#xff0c;② 注意语法格式&#xff0c;③ printf的文本结尾不换行&#xff0c;④ printf中参数是字符&#xff0c;其它类型可以转为文本&#xff0c;例如"%i","%f"等。 #include <stdio.h>int main(void) {in…

今日问题:动态分配内存出错

2024.3.22 在搜素了许多文章和查阅了许多博客后依然没有找到问题所在&#xff0c;最后无意之间翻看以前的关于动态内存管理的代码后发现&#xff1a; 没加头文件&#xff1a;#include<stdlib.h> 苦笑不得了属于是 #define _CRT_SECURE_NO_WARNINGS 1 #include<stdio…

抖音,剪映,TikTok,竖屏短视频转场pr模板视频素材

120个叠加效果视频转场过渡素材&#xff0c;抖音,剪映,TikTok,短视频转场pr模板项目工程文件。 效果&#xff1a;VHS、光效、胶片、霓虹灯闪光、X射线、信号、老电影等。 适用软件&#xff1a;Adobe Premiere Pro 2018 12.0或更高版本。 视频素材与大多数应用程序兼容&#xff…

JavaWeb:AOP、配置优先级、Bean管理、SpringBoot原理、Maven高级

1 AOP 1.1 基本语法 面向切面编程、面向方面编程&#xff0c;面向特定方法编程 在管理bean对象的过程中&#xff0c;主要通过底层的动态代理机制&#xff0c;对特定的方法进行编程 应用&#xff1a;统计每一个业务方法的执行耗时 xml引入依赖 <!-- AOP-->&l…

全闪存存储怎样对AI大模型赋能

随着科技的飞速发展&#xff0c;人工智能&#xff08;AI&#xff09;与机器人学习&#xff08;ML&#xff09;已经逐渐成为引领未来的核心技术。近期火爆市场的Chat GPT AI大模型深度结合AI与机器人学习技术&#xff0c;实现人机交流、学术研究、内容创作等应用&#xff0c;国内…

【进阶五】Python实现SDVRP(需求拆分)常见求解算法——禁忌搜索+模拟退火算法(TS+SA)

基于python语言&#xff0c;采用经典禁忌搜索&#xff08;TS&#xff09;模拟退火&#xff08;SA&#xff09;对 需求拆分车辆路径规划问题&#xff08;SDVRP&#xff09; 进行求解。 目录 往期优质资源1. 适用场景2. 代码调整3. 求解结果3.1 TS3.2 SA 4. 代码片段参考 往期优质…

迷宫(蓝桥杯)——DFS和BFS

迷宫 题目描述 下图给出了一个迷宫的平面图&#xff0c;其中标记为 1 的为障碍&#xff0c;标记为 0 的为可以通行的地方。 010000 000100 001001 110000迷宫的入口为左上角&#xff0c;出口为右下角&#xff0c;在迷宫中&#xff0c;只能从一个位置走到这 个它的上、下、左…

表格列内容过长显示省略号,并悬浮展示信息

自定义全局指令&#xff1a; 指定超出行数的内容&#xff0c;以省略号替代。 // main.ts import App from ./App.vue;const app createApp(App);// 自定义指令app.directive(textOverflow, {mounted(el, binding, vnode) {const maxRows binding.value || 3;// 添加样式vnod…

哪些因素决定SSL证书的定价?DV、OV和EV证书多少钱?

在当前网络环境安全问题日益凸显的时代背景下&#xff0c;SSL证书已成为保障网站及用户数据传输安全的核心手段。然而&#xff0c;由于不同供应商、证书类型和功能差异&#xff0c;SSL证书的价格存在较大浮动空间。本文将概述SSL证书的基本定价范围及其决定因素&#xff0c;为选…

什么快递可以寄摩托车?看你要啥样的了

一辆49cc的二冲程摩托车仅需561元。 购买125的组装车不会超过1元&#xff0c;购买250品牌发动机的组装车不会超过4000元。 购买一辆名牌摩托车大约需要4000到10000元。 花一万到两百万多就能买到一辆像样、动力强劲、能玩的炫酷摩托车。 哈哈&#xff0c;就看你想要什么了&…

基于ssm的乡镇自来水收费系论文

摘 要 互联网发展至今&#xff0c;无论是其理论还是技术都已经成熟&#xff0c;而且它广泛参与在社会中的方方面面。它让信息都可以通过网络传播&#xff0c;搭配信息管理工具可以很好地为人们提供服务。针对乡镇自来水收费信息管理混乱&#xff0c;出错率高&#xff0c;信息安…

算法第三十一天-直方图的水量

直方图的水量 题目要求 解题思路 使用面向列的计算比面向行的计算更加容易。我们只需要考虑当前的位置的左右最高模板的高度。 方法一、暴力解法 每个位置能接到多少雨水&#xff0c;很容易想到[木桶效应]&#xff0c;即是由两边最短的木板限制的。那么直观思路就是&#x…