浅谈物理集中式数据中台架构在数据开发中的不足

news2024/9/22 15:37:33

在传统数据开发和生产领域,企业面临的问题主要源于数据规模的急剧增长,多源异构数据的不断扩张,以及数据消费端看数、用数的人员越来越多。初期,数据仓库的主要功能聚焦于支持经营仪表盘的视图构建,旨在为企业提供直观的运营看板。随着业务发展,企业的需求逐渐超越了单纯的报表展示,转而追求更为深入的应用场景,如生产线实时监控、产能精准预测及产品质量控制等高级分析。这些高级需求促使企业寻求通过数据管理技术与策略,释放数据潜力,为业务决策与运营优化提供超越传统看板范畴的深层次价值。

在此背景下,传统物理集中式的数据中台架构显现出其局限性,面临几个核心问题:

其一,成本效益、业务响应速度及开发效率的矛盾。一般我们在传统数据仓库体系下进行数据开发,首先要做数据抽取,即将各种源端的数据集成至数据仓库中。此过程技术复杂度颇高,涉及诸多考量因素,包括但不限于以 Spark 为代表的数据抽取方案、工具等来执行数据抽取任务。他们都有一个共同的特点,就是说,数据必须得抽过来之后,才能去用它,这是一个前提。

其二,数据抽取作业需保持每日不间断运行,以确保数据的时效性与一致性,一旦抽取作业中断,将导致数仓里的数据与源端数据产生偏差,进而影响后续分析及决策的准确性。这种对持续性与稳定性的严格要求,无疑增加了数据抽取过程的运营维护负担,包括但不限于监控、异常处理及性能优化等任务,对技术团队提出了更高的挑战与要求。因此,优化数据收集流程,提高数据抽取效率与稳定性,是缓解此类挑战、提升整体数据开发效能的重点之一。

其三,在完成数据抽取操作后,我随即对这批数据进行加工处理。而在多数 ETL 加工过程中,一个常见的挑战在于,尽管数据已经过精心加工,但当直接服务于报表生成或业务系统查询时,往往面临性能瓶颈。这是由于 ETL 引擎虽擅长高效处理大规模数据的批量转换与加载,但其响应机制并不适配于高频率、低延迟的即时查询需求。

因为这三个动作,所以我们的数据开发团队不得不投入大量精力进行底层技术选型、设计高效的数据迁移策略,并确保数据加工任务的稳定运行。另一方面,数据集中加工处理完成后,随之而来的是如何有效管理无用数据,以及如何在表数量激增时,科学治理这些表及其关联的存储与计算资源。若忽视数据管理,将导致大量资源浪费,对企业来说也是一笔不小的投入成本。

此外,我们不得不正视的一个现象是数据孤岛化的趋势,这并非单纯归咎于数据团队或部门的工作不足,而是一个客观存在的现实。其根源来自于企业业务发展的内在逻辑之中:随着企业规模的扩张,如新产线的引入,必然伴随新系统与新数据源的诞生;同时,企业间的并购活动亦会引入外部数据体系,从而加剧数据孤岛的形成。

另一方面,技术迭代与升级也是促成数据孤岛现象的重要因素,尤其在大型企业中更为显著,如招商银行等头部企业。随着行业技术的日新月异,企业往往积极采纳新技术以提升竞争力,然而,这种持续的技术采纳与更新过程,使得不同业务线逐渐依赖于各自独立的技术栈与数据平台,导致系统间数据流通受阻,形成众多数据孤岛。这些孤岛中的数据积累并非一蹴而就,而是随着业务与技术的不断演进而逐渐累积,因此难以迅速整合与消化。

为了解决这些问题,我们建议可以采用逻辑数据编织平台。因为他有这几个显著的优势:

首先,通过逻辑数据编织平台,能够迅速将原始数据源接入系统,即便在初期不确定具体需使用哪些表的情况下,也能让用户先行探索各类业务表(如用户表、交易表、供应商表等)的数据结构与内容,从而快速形成数据利用方案并构建逻辑数据架构。这种方式有效缩短了从数据接入到业务应用探索的周期,避免了盲目同步大量未知用途的数据表,提高了数据处理与应用的效率。

其次,逻辑数据编织的另一大优势在于其跨异构数据源的无缝集成能力,允许用户无需关注底层数据库的查询语言差异,如 MySQL、Oracle、Elastic 等,通过统一的逻辑表视图和标准化的SQL 查询语言,即可实现对所有集成数据的透明访问。这不仅降低了用户的学习成本,还促进了数据使用的便捷性与灵活性,使得消费端能够专注于数据分析与价值挖掘,而非受限于技术细节。

最后,基于逻辑数据编织的架构,还能够对外提供统一的数据服务接口。这些接口通过 HTTP 协议暴露,使得公司内部其他应用能够便捷地访问和获取所需数据。相较于传统方式中需要依赖专业开发人员编写独立应用来暴露数据服务的做法,逻辑数据编织平台内置的数据服务能力极大地简化了这一过程。用户仅需通过简单的 SQL 查询或视图定义,即可快速创建并发布数据服务 API,实现了数据共享与流通的高效与自动化。

作为国内 Data Fabric 架构理念的实践者与引领者,Aloudata 打造了国内首个逻辑数据平台—— Aloudata AIR,通过自研的数据虚拟化技术和 AI 增强自适应物化加速,可帮助企业轻松实现多源异构数据的逻辑集成和智能查询下推,并通过全局数据目录和统一数据服务为下游用户与应用提供统一的数据发现与访问入口,解决由“数据孤岛”带来的全局数据查找难、跨源联邦查询难和集中安全治理等问题,支持业务灵活开展数据分析工作。

 

目前,Aloudata AIR 逻辑数据平台已在极高复杂度的数据生产和消费环境中落地应用,帮助首创证券通过逻辑化集成整合全域数据,零数据搬运轻松实现 10+ 个不同数据源的快速、准确融合,并利用自适应查询加速能力,1 秒查询响应率达 95%,存算成本节约 70% 以上。如您最近考虑通过统一数据服务平面屏蔽底层引擎的差异性,或遇到“数据孤岛”困局,提升业务用数效率,不妨先了解下 Aloudata AIR 逻辑数据平台,或许能为您带来新的思路。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2043279.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ubuntu:最新安装使用docker

前言 系统:ubuntu 22.04 desktop 目的:安装使用docker 安装小猫猫 没有安装包的,可以自己去瞅瞅,这里不提供下载方式 sudo dpkg -i ./cat-verge_1.7.5_amd64.deb 在应用里,打开这个软件,并开启系统猫猫 配…

单元训练08:外部中断的基本操作

蓝桥杯 小蜜蜂 单元训练08:外部中断的基本操作 #include "stc15f2k60s2.h"#define LED(x) \{ \P0 x; \P2 P2 & 0x1f | 0x80; \P2 & 0x1f; \}#define L1 0xFE; // 定义L1亮…

SpringBoot集成MyBatis和FlyWay

一、什么是FlyWay 一个开源的数据库迁移工具,用于管理和执行数据库结构的版本变更。通俗来说,它帮助开发者跟踪和应用数据库中的更改,比如表的创建、列的修改等。主要的功能为: 数据库版本控制: Flyway 使用一组迁移…

硬件I2C和软件I2C(模拟I2C)的区别

硬件I2C和软件I2C是两种不同的实现I2C(Inter-Integrated Circuit,集成电路间)通信协议的方式,它们在实现方式、性能特点以及应用场景上存在显著差异。 一、实现方式 硬件I2C:通过专门的硬件电路实现,这些…

泛交通领域的可视化大屏作品欣赏,各个都相当惊艳。

各位新老朋友大家好,本次给大家带来泛交通领域的可视化大屏,供大家鉴赏。 泛交通领域是指综合利用各种交通方式和资源,提供全方位、多元化的出行选择和服务的交通体系。 它包括以下几个方面: 1. 公共交通:包括地铁、…

花钱买不到系列之—linux系统调用

关于系统调用是什么,为什么用系统调用? 也是通过生活的例子来说明白。 我们生活中有一种东西叫银行,银行是不是有存钱的仓库对不对?好银行有存钱的仓库,银行有桌椅板凳啊,银行还有电脑,设备啊,…

文华财经期货DK多空提示指标源码

N1:40; A:(COHL)/4; AA0:MA(A,N1),LINETHICK3;//中 MA1:MA(CLOSE,5), NODRAW; MA2:MA(CLOSE,10), NODRAW; MA3:MA(C,60), NODRAW,LINETHICK1; 转折线:MA3, NODRAW,COLORCYAN; 顺势线:MA(CLOSE,10), NODRAW; MA20:MA(C,20), NODRAW; MA30:MA(C,30), NODRAW; ZD:MA3>…

网络 基础

目录 1、协议: 2、OSI 七层 模型: 3、TCP/IP 五层 / 四层 协议 3.1、为什么要有TCP / IP 协议? 3.1.1、主机之间变远产生的问题: 3.1.2、TCP/IP协议于操作系统的关系 4、局域网 4.1、Mac 4.1.1 在Linux内使用指令 …

leetCode - - - 哈希表

目录 1.模拟行走机器人(LeetCode 874) 2.数组的度(LeetCode 697) 3.子域名访问次数(LeetCode 811) 4.字母异位词分组(LeetCode 49) 5.小结 1.常见的哈希表实现 2.遍历Map 1.模…

基于Java中的SSM框架实现医院收费系统项目【项目源码+论文说明】计算机毕业设计

基于Java中的SSM框架实现医院收费系统演示 摘要 随着医疗体制改革的不断深入,医院收费系统成为医院信息化建设的重点内容。医院收费系统是利用计算机、网络技术和数据库技术,实现病人在医疗机构的诊疗信息的电子化存储、传递和分析,从而提高…

[Meachines] [Medium] Mango PHP弱比较绕过+MongoDB注入+TRP00F自动化权限提升+JJS权限提升

信息收集 IP AddressOpening Ports10.10.10.162TCP:22,80,443 $ nmap -p- 10.10.10.162 --min-rate 1000 -sC -sV PORT STATE SERVICE VERSION 22/tcp open ssh OpenSSH 7.6p1 Ubuntu 4ubuntu0.3 (Ubuntu Linux; protocol 2.0) | ssh-host…

<数据集>快递识别数据集<目标检测>

数据集格式:VOCYOLO格式 图片数量:5382张 标注数量(xml文件个数):5382 标注数量(txt文件个数):5382 标注类别数:1 标注类别名称:[Box-Packet] 序号类别名称图片数框数1Box-Packet53828965 使用标注工…

8.15-配置mysql5.7环境+使用python管理数据库+使用中间件mycat配置读写分离

一、配置mysql5.7的环境 1.基础配置 # 将mysql5.7的包拖入xshell [rootmysql_5 ~]# ls anaconda-ks.cfg mysql-5.7.44-linux-glibc2.12-x86_64.tar.gz ​ # 解压 [rootmysql_5 ~]# tar -xf mysql-5.7.44-linux-glibc2.12-x86_64.tar.gz ​ # 备份文件 [rootmysql_5 ~]# cp…

短说V4.2.0测试版发布|字体更换、小名片及个人中心UI更换

Hi 大家好, 我是给你们带来惊喜的运营小番茄。 本期更新为短说V4.2.0测试版,本次更新涉及平台有H5、App、微信小程序。 4.2.0版本除功能优化外,新增了如下功能: 一、新增功能 通用版: ①全站默认字体全部更换为…

淘宝到一个墨水屏,成功实现显示经历记录

一,淘一个墨水屏的原因 在一些小的PCB设计和编程中发现,许多程序控制运行情况如果能够显示出来,会很完美。大学时期使用LCD1602(经典)显示了一个称重传感器的课程设计,后来尝试OLED显示。在过程中发现墨水…

【嵌入式linux开发】智能家居入门5(QT、微信小程序、HTTP协议、ONENET云平台、旭日x3派)

智能家居入门5(QT、微信小程序、HTTP协议、ONENET云平台、旭日x3派) 前言一、QT界面设计二、云平台产品创建与连接三、下位机端QT代码总览:四、微信小程序端代码总览五、板端测试 前言 前四篇智能家居相关文章都是使用STM32作为主控&#xf…

报表的多行业应用!用工具做报表省了我不少事...

一、什么是报表? 说起报表,你不会还停留在Excel报表的层面上吧? 传统的报表一般都是基于Excel制作的,主要面向业务人员、开发人员等,也有一些公司会自己去开发设计,只不过周期较长,耗费人力多。…

端到端自动驾驶落地挑战与驱动力

1、端到端的发展驱动力 1.1 对标驱动:特斯拉FSD的标杆作用吸引行业关注 大部分行业专家表示,特斯拉FSD v12的优秀表现,是端到端自动驾驶这一技术路线快速形成大范围共识的最重要的推动力;而在此之前,从来没有一个自动…

C#模拟量线性变换小程序

1、一步步建立一个C#项目 一步步建立一个C#项目(连续读取S7-1200PLC数据)_s7协议批量读取-CSDN博客文章浏览阅读1.7k次,点赞2次,收藏4次。本文详细介绍了如何使用C#构建一个项目,通过S7net库连接并连续读取S7-1200 PLC的数据,包括创建窗体应用、配置存储位置、安装S7net库…

服务器端请求伪造漏洞

1.客户端请求 客户端请求指的是由客户端设备(如个人计算机、智能手机、平板电脑等)或软件(浏览器、各种APP)发出的请求,以获取指定的网页、图片、视频或其他资源。比如当用户在浏览器中输入URL或点击链接时,浏览器会自动发起HTTP请求,请求服…