数据中台 | 数据资源管理平台介绍

news2024/12/29 9:40:37

01 产品概述

数据资源的盘查、集成、存储、组织、共享等全方位管理能力,无论对于企业的数字化转型,还是对企业数据资产的开发、运营、交易及入表,都具有极为关键的作用。今天,小兵就来为大家介绍我们自研数据智能平台中的核心产品一一数据资源管理系统。

图片

行业痛点:

  • 数据资源分散:企业各部门间存在数据壁垒,形成一个个数据孤岛,导致数据资源的分散与割裂。

  • 数据多源异构:除了数据孤岛外,技术平台与存储技术的多样性(如关系数据库、NoSQL数据库、文件系统、分布式存储等),造成了数据多源异构的现状。

  • 数据标准不一致:缺乏统一的数据定义和标准,同一概念在不同系统中可能有不同的表示方式。

  • 数据查找和应用困难:上面的三个问题造成数据难以查找和应用,这是数据进行后续开发、应用,乃至交易、入表必须首要解决的问题。

产品定位:

数据资源管理平台,面向用户大数场景下海量、多源、异构数据,帮助盘查企业数据资源,集成接入各类企业数据资源,建立企业数据资源目录,为企业提供统一的数据管理界面,为其他用户提供数据共享访问接口,对企业数据资源进行统一的管理。

产品价值:

(1)解决企业数据接入与管理问题:为用户提供数据资源集成和管理的工具,解决用户多源异构数据/非标准化接口等复杂情况数据接入和数据管理问题。

(2)降低技术门槛:数据采集功能全部使用可视化界面通过配置即可实现,降低数据集成的技术门槛。

(3)节省企业成本:存储方式多样化,可根据用户数据和业务情况量身设计存储方案,支持对存储的数据进行分层分类管理,降低数据资源存储和运营成本。

02 产品功能介绍

2.1 整体功能架构

图片

  • 外部数据源:支持多种类型数据源适配,包括结构化、半结构化和非结构化等数据类型,包MYsql、Oracle、DB2、MogoDB、Hive等20+种数据源。

  • 数据盘查:目的是盘查清楚需要集成的数据情况、对接方式及IT环境等信息,为下一阶段数据集成做好准备。提供数据盘查模版,支持数据盘查信息的查询和维护功能。

  • 数据集成:同时支持数据表、API、EXCEL导入、ETL、实时数据(Kafka)等多种集成方式。可以根据需求选择全量集成模式和轻量集成模式。数据集成过程支持对数据进行按需提取、截取、清洗等数据处理。

  • 数据存储:支持根据数据属性和应用需求,按需选择多种存储架构,支持数据连接和内、外部数据源的配置管理。

  • 数据组织:对数据进行分层分类管理,支持数据表创建和维护,支持数据标签功能。

  • 数据仓库:经过分层分类梳理后的数据,以数据目录的形式进行展现,支持数据资源的查询、查看。

  • 数据服务:支持数据目录服务、API服务、中间库服务、消息分发服务等四种数据分发服务。

2.2 技术架构图

图片

源端适配各种类型数据源,目标端支持多种存储方式,通过数据资源管理平台实现数据盘查、集成、存储、组织、数仓目录展示、分发服务的闭环管理。

2.3 数据流图

图片

(1)不同类型、格式、存储方式的数据源,通过数据集成功能采集到数据资源管理平台;

(2)全量采集的原始数据或轻量采集的元数据通过适合的存储方式进行存储落地;

(3)数据服务以数据表、中间库、API、消息分发等形式对外共享数据。

2.4 数据盘查

数据盘查的目的:

数据盘查功能主要服务于后面的数据集成、数据组织、数据仓库等功能,需要摸清如下信息:

(1)数据情况

  • 客户有哪些数据?

  • 属于什么业务系统?

  • 数据类型有哪些?

  • 有多大的数据规模?

  • 这些数据存储在哪里?

  • 是否有安全方面的要求?

  • 有没有相关的数据字典和设计文档?

2)数据集成对接方式

  • 采用哪种方式对接?

  • 具体的对接信息

3)IT环境信息

  • 数据目前存储的服务器配置如何?

  • 服务器间的网络链路关系?

  • 网络带宽情况?

    功能介绍:

  • 支持数据盘查信息的查询、查看、录入、编辑、删除等管理功能;

  • 提供数据盘查模版,可以通过模版将盘查数据直接导入系统。

图片

数据盘查模版

2.5 数据集成

完成数据盘查工作后,便做好了数据集成前的准备工作,可以对盘查的数据进行数据集成,我们支持多种数据集成方式。

数据集成5种方式:

  • 数据表集成:数据表集成用于建立与管理相关数据源的连接关系,基于需求加载相应采集数据表单,采集相关数据表到数据中台的数据仓库中。

  • 自定义SQL集成:通过自定义查询的方式灵活组装数据集,支持动态参数功能按需接入数据。

  • Excel数据导入:通过上传文件的方式,支持Excel数据集导入数据到数据仓库中。

  • ETL:提供基于大数据ETL工具完成数据的抽取同步其他数据库数据的能力。包括任务维护、任务监控等。

        任务维护:提供数据同步任务查询、任务创建、参数配置、任务执行、任务禁用、任务删除等基础功能

        任务监控:提供任务过程监控功能,监控同步数据到数据智能平台。

  • API集成:支持对API数据源的配置管理(协议、URL、报文格式),对API管理维护包括:增删改查、测试连通性。可查看该数据源关联的作业明细。

数据集成2种模式:

  • 全量数据集成:将全量原始数据集成到数据资源管理平台,并进行本地存储,后续的分析和应用均直接使用本地数据。

  • 轻量数据集成:仅将元数据集成到数据资源管理平台,后续的分析、应用场景,都是通过数据引擎直接连接生产库进行分析和取数据;也支持根据需求过滤一部分符合要求的特定数据进行集成,用于满足业务。

图片

2.6 数据存储

大数据场景下,数据的种类、来源越来越多,数据的应用需求也越发复杂,数据的存储方案选型需要根据数据情况量身选定。

功能介绍:

  • 数据连接配置:主要负责适配主流的数据库连接器,提供数据连接器的配置管理功能。目前支持的主流连接器有mysql、oracle、postgreSQL、SQLserver、MariaDB、Hana、HBase、ES、Openguess、Hive、kafka、Mongodb等。

  • 内部数据源管理:提供平台内部数据源的连接配置功能,用于建立与管理内部数据源的连接关系。

  • 外部数据源管理:提供外部数据源的连接配置功能,用于建立与管理外部数据源的连接关系。

目前主流的存储技术包括关系型数据库 (RDBMS)、非关系型数据库 (NoSQL)、分布式文件系统 (DFS)、分布式存储、数据仓库 (Data Warehouse)、数据湖等。需要根据用户的数据情况、业务需求选择合适的存储技术或存储技术组合方案。下面举几个典型的场景进行说明:

(1)用户同时存在热数据与冷数据的场景

可以采用分级存储的解决方案,热数据采用分布式热磁存储或全闪存储,提升数据的读写性能,冷数据可以存储到归档存储(例如低端硬盘、蓝光、磁带库),确保数据长期安全存储的前提下,可以极大的降低存储成本。

(2)用户数据规模较小且以结构化数据为主的场景

以结构化数据为主的小规模数据,可以采用关系型数据库进行数据的存储。

(3)海量规模的数据存储场景

对于海量规模,且有高并发、高响应及高可用性的存储需求的数据,适合使用分布式存储架构,可以较好的支持高可用性和高效读写的应用场景,例如大数据分析、云计算平台、金融交易系统、容灾和备份等。

图片

2.7 数据组织

数据组织是根据数据本身属性以及数据未来的使用场景需求,对数据进行分层分类管理,支持数据表的创建和维护,支持数据打标签功能。经过数据组织后的分层分类数据进入数据仓库,以数据资源目录形式展示并提供查询、查看。

功能介绍:

  • 数据分层分类:支持根据不同的业务属性、数据来源、使用场景等来对数据进行分层和分类,支持以树状形式对数据进行一级、二级编目,所有编目动态生成、自动刷新,反映数据库内容的实时变化。

  • 数据标签:支持对数据库表、非结构化数据打标签,方便数据检索。

  • 数据表维护:支持数据表维护、数据查询、数据预览、数据表详情等数据表管理功能,可预览查看各数据集的数据样本。

2.8 数据仓库

数据经过分层分类后进入数据仓库,并提供数据资源目录进行数据的快速查询定位和查看。

数据资源目录:支撑各部门对数据资源目录的查询、查看。

原始库:数据在原始库中形成数据缓存层,以支持数据加工。同时实现了非结构化数据的关键信息的提取、数据分级分类标签等处理。原始库对外提供了查询、比对、推送、订阅等服务。同时为后续的数据血缘追踪提供溯源支持。

资源库:是对原始库数据进行清洗标准化及轻度整合,形成全量数据的持久化层。资源库对外支持数据的分类检索、轨迹碰撞,及明细数据的统计、分析、比对、推送、订阅等服务。

主题库:通过归并及建模,形成全息视图,并且通过实体间的关系构成了关系类知识图谱和事理图谱。对外在各中心共享了实体间的关系,并完成实体标签、数据分析、统计、比对等服务。

知识库:对外支撑知识类数据的查询以及模型工程、标签工程等服务。

业务库:业务库中的业务专题库实现了业务专题类分析,业务知识库汇聚了单一业务系统的知识,业务实体库中构建了业务的相关模型,业务资源库是对业务的相关数据支撑。在此基础上,实现了对外的数据统计、分析、推送及碰撞等服务。

图片

2.9 数据服务

平台支持通过数据目录服务、API服务、中间库服务、消息分发等四种方式,对存储的数据进行分发和共享。

  • 数据目录服务:提供已发布数据的目录,可以直接下载需要的结构化数据和非结构化数据。

  • API服务:将数据发布成API接口,数据使用方通过API接口调用数据。

  • 中间库服务:定义一个中间库,平台将数据推送至中间库,数据使用方去中间库取数。

  • 消息分发服务:以Kafka为例,平台将数据推到Kafka消息队列,数据使用方从Kafka消息队列取数。

03 产品价值

图片

  • 多源异构数据集成

支持以全可视化方式接入多源异构数据,包括结构化、半结构化和非结构化等数据类型,包括MYsql、Oracle、DB2、MogoDB、Hive等20+种数据源,同时支持数据表集成、自定义SQL集成、Excel数据集成、ETL集成、API集成等多种数据集成方式。

  • 数据存储方式多样化

可根据数据属性和数据应用的不同业务场景,选择存储方式,满足需求的同时降低成本。

  • 轻量级部署,快速交付

根据项目规模灵活选择项目方案,单机版或集群版;支持容器化高效部署,零基础半小时轻松完成全套产品部署,快速上线。

  • 支持二次开发,灵活扩展

数据资源管理平台架构支持二次开发,可按照业务需求进行灵活扩展。

04 小结

在数字化时代,数据成为了新的生产要素,是新质生产力和数据资产的原材料,是企业实现数字化转型的前提。做好数据资源管理,可以为后续数据的分析、挖掘和开发打好基础,进而优化企业流程,支撑业务决策,推动业务创新,最终实现数据资产上市交易和入表,为企业带来真金白银的收益。

而想要做好数据资源管理,数据的盘查、集成、存储、组织、共享等基础能力缺一不可,数据资源管理平台正是因此而生,为企业提供专业的数据资源管理能力,助力企业实现“数据梦想”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2131969.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

废品回收小程序搭建,回收市场的机遇

随着经济的快速发展,居民生活水平普遍提高,产生的各类废品也在不断增加,为废品回收市场提供了发展基础。当下,在大众环保意识增加下,废品回收行业也将成为一个具有广阔发展前景的朝阳行业! 目前&#xff0…

C++vector类 (带你一篇文章搞定C++中的vector类)

感谢大佬的光临各位,希望和大家一起进步,望得到你的三连,互三支持,一起进步 数据结构习题_LaNzikinh篮子的博客-CSDN博客 初阶数据结构_LaNzikinh篮子的博客-CSDN博客 收入专栏:C_LaNzikinh篮子的博客-CSDN博客 其他专…

代码随想录27期|Python|Day54|​单调栈|​42. 接雨水|84. 柱状图中最大的矩形

42. 接雨水 根据常识可以归纳出,对于每一列所能够存住的水的高度 Height min(LeftMax, RightMax) - height 也就是,当前列的存水高度 左侧和右侧柱子的最大高度的较小值,减去当前列的柱子高度,所得到的差值。 可以验证第4列&…

spring常用注解(10)@Order

一、 1、作用 加Order()注解,在注解中加入数字,数字越小,优先级越高,最先执行。 2、使用方法 (1)自定义顺序 Component Order(1) public class XxxFilter extends OncePerRequestFilter{}Component Or…

什么品牌的宠物空气净化器性价比最高?352/希喂/霍尼韦尔/有哈/IAM实测对比

我开着一家猫咪咖啡馆,我们店貌美小猫可没少给我带来回头客~先给大家看看我的招财猫们 开了三年了,也是前不久店里才开始有点盈利,开始那段时间没少收到投诉,差点就干不下去了。店里养着的猫多,平时鱼油、冻干也没稍微…

foc入门

FOC(Field Oriented Control)磁场定向控制 foc,磁场定向控制,通过控制无刷电机三相电流,来实现对无刷电机的角度扭矩的控制。 首先先要理解无刷电机的原理,我们以三槽两极内转子电机进行讲解, 相较于有刷电机,无刷电…

乱弹篇(47)渔友絮语

中秋节连着国庆节长假很快就要来临,这对于久未远行旅游的人来说,真是拉满的幸福日子,因此本“人民体验官”特意推广人民日报官方微博文化产品《收藏!中秋假期博物馆看展攻略》。 截图:来源“人民体验官”推广平台 人民…

Linux编译内核选项说明

内核功能选择 编译内核时出现的提示信息是在描述内核配置界面中的导航和操作方式。具体解释如下&#xff1a; Arrow keys navigate the menu: 使用箭头键可以在菜单中上下左右移动。 <Enter> selects submenus ---> (or empty submenus ----): 按下回车键可以选择一个…

【白话树】之 树的基本知识、存储结构和二叉树转换

快速导航 一、树的基础概念1. 树的定义&#xff1a;2. 树的特点:3. 树的常用术语&#xff1a;4. 树的简单分类&#xff1a; 二、树的存储结构1.顺序存储1) 双亲表示法2) 孩子表示法3) 双亲孩子表示法 2.链式存储1) 孩子链表表示法2) 孩子兄弟表示法 三、树、森林和二叉树的转换…

根据NVeloDocx Word模板引擎生成Word(五)

前面几篇基本上介绍完了NVeloDocx的基础用法&#xff0c;绝大部分的需求其实都是这些基础的东西&#xff0c;本篇将介绍2个不常用但是实际的业务场景&#xff1a; 1、图片列表输出&#xff1b; 比如在E6开发平台生成的客户端中&#xff0c;图片列表往往是这样显示的&#xff…

【数据结构】第八节:链式二叉树

个人主页&#xff1a; NiKo 数据结构专栏&#xff1a; 数据结构与算法 源码获取&#xff1a;Gitee——数据结构 一、二叉树的链式结构 typedef int BTDataType; typedef struct BinaryTreeNode {BTDataType data;struct BinaryTreeNode* left; // 左子树根节点struct BinaryT…

2024年沈阳都市圈电竞大赛 暨TGA腾讯电竞运动会辽宁省选拔赛盛大开赛

去年&#xff0c;由沈阳市体育局主办的“2023年沈阳都市圈首届电竞大赛暨TGA浑南之夏辽宁省英雄联盟选拔赛”成功举办。通过搭建赛事平台&#xff0c;营造了沈阳都市圈电竞氛围&#xff0c;促进了电子竞技全业态发展。 今年&#xff0c;“2024年沈阳都市圈电竞大赛暨TGA腾讯电…

Day24_0.1基础学习MATLAB学习小技巧总结(24)——图形对象属性值的设置和查询

利用空闲时间把碎片化的MATLAB知识重新系统的学习一遍&#xff0c;为了在这个过程中加深印象&#xff0c;也为了能够有所足迹&#xff0c;我会把自己的学习总结发在专栏中&#xff0c;以便学习交流。 参考书目&#xff1a;《MATLAB基础教程 (第三版) (薛山)》 之前的章节都是…

vue3项目实现全局国际化

本文主要梳理vue3项目实现全项目格式化&#xff0c;例如在我前面文章使用若依创建vue3的项目中&#xff0c;地址&#xff1a;若依搭建vue3项目在导航栏中切换&#xff0c;页面中所有的组件的默认语言随之切换&#xff0c;使用的组件库依旧是element-plus&#xff0c;搭配vue-i1…

LeetCode --- 414周赛

题目列表 3280. 将日期转换为二进制表示 3281. 范围内整数的最大得分 3282. 到达数组末尾的最大得分 3283. 吃掉所有兵需要的最多移动次数 一、将日期转换成二进制表示 题目本质就是将数字转成二进制字符串&#xff0c;可以类比将十进制数字的每一位拆开拼成字符串&#x…

【Redis】redis5种数据类型(list)

目录 基本介绍 命令 LPUSH LPUSHX RPUSH RPUSHX LRANGE LPOP RPOP LINDEX LINSERT LLEN LREM LTRIM LSET 阻塞版本的命令 BLPOP 内部编码 基本介绍 list相当于c的双端队列deque 区分获取和删除的区别 lindex能获取到元素的值lrem也能返回被删除元素的值 命…

一条SQL实现GPT大模型【完全看不懂】

用一条SQL实现GPT大模型&#xff0c;简直让人不可思议&#xff0c;但是俄罗斯一位名叫Quassnoi的SQL牛人做到了&#xff0c;Quassnoi每年只写一条SQL&#xff0c;但是每条SQL都非常复杂&#xff1a; 2021年&#xff0c;用SQL绘制新冠病毒的3D图片 2022年&#xff0c;用SQL模拟…

为何初创数字影像企业纷纷选择入驻孵化基地?

在当今数字化时代&#xff0c;数字影像行业正蓬勃发展&#xff0c;越来越多的初创数字影像企业如雨后春笋般涌现。而这些充满活力与创新的初创企业&#xff0c;为何纷纷选择入驻数字影像企业孵化基地呢&#xff1f; 首先&#xff0c;数字影像企业孵化基地为初创数字影像企业提供…

再次进阶 舞台王者 第八季完美童模全球赛形象大使【邱玳莹】赛场秀场超燃合集!

7月20-23日&#xff0c;2024第八季完美童模全球总决赛在青岛圆满落幕。在盛大的颁奖典礼上&#xff0c;一位才能出众的少女——邱玳莹&#xff0c;迎来了她舞台生涯的璀璨时刻。 形象大使——邱玳莹&#xff0c;以璀璨童星之姿&#xff0c;优雅地踏上完美童模盛宴的绚丽舞台&am…

基于图像级监督和自训练的跨模态肿瘤分割转换器模型|文献速递--Transformer架构在医学影像分析中的应用

Title 题目 Image-level supervision and self-training for transformer-basedcross-modality tumor segmentation 基于图像级监督和自训练的跨模态肿瘤分割转换器模型。 01 文献速递介绍 深度学习在各种医学图像分析应用中展现了出色的性能和潜力&#xff08;Chen等&…