01 产品概述
数据资源的盘查、集成、存储、组织、共享等全方位管理能力,无论对于企业的数字化转型,还是对企业数据资产的开发、运营、交易及入表,都具有极为关键的作用。今天,小兵就来为大家介绍我们自研数据智能平台中的核心产品一一数据资源管理系统。
行业痛点:
-
数据资源分散:企业各部门间存在数据壁垒,形成一个个数据孤岛,导致数据资源的分散与割裂。
-
数据多源异构:除了数据孤岛外,技术平台与存储技术的多样性(如关系数据库、NoSQL数据库、文件系统、分布式存储等),造成了数据多源异构的现状。
-
数据标准不一致:缺乏统一的数据定义和标准,同一概念在不同系统中可能有不同的表示方式。
-
数据查找和应用困难:上面的三个问题造成数据难以查找和应用,这是数据进行后续开发、应用,乃至交易、入表必须首要解决的问题。
产品定位:
数据资源管理平台,面向用户大数场景下海量、多源、异构数据,帮助盘查企业数据资源,集成接入各类企业数据资源,建立企业数据资源目录,为企业提供统一的数据管理界面,为其他用户提供数据共享访问接口,对企业数据资源进行统一的管理。
产品价值:
(1)解决企业数据接入与管理问题:为用户提供数据资源集成和管理的工具,解决用户多源异构数据/非标准化接口等复杂情况数据接入和数据管理问题。
(2)降低技术门槛:数据采集功能全部使用可视化界面通过配置即可实现,降低数据集成的技术门槛。
(3)节省企业成本:存储方式多样化,可根据用户数据和业务情况量身设计存储方案,支持对存储的数据进行分层分类管理,降低数据资源存储和运营成本。
02 产品功能介绍
2.1 整体功能架构
-
外部数据源:支持多种类型数据源适配,包括结构化、半结构化和非结构化等数据类型,包MYsql、Oracle、DB2、MogoDB、Hive等20+种数据源。
-
数据盘查:目的是盘查清楚需要集成的数据情况、对接方式及IT环境等信息,为下一阶段数据集成做好准备。提供数据盘查模版,支持数据盘查信息的查询和维护功能。
-
数据集成:同时支持数据表、API、EXCEL导入、ETL、实时数据(Kafka)等多种集成方式。可以根据需求选择全量集成模式和轻量集成模式。数据集成过程支持对数据进行按需提取、截取、清洗等数据处理。
-
数据存储:支持根据数据属性和应用需求,按需选择多种存储架构,支持数据连接和内、外部数据源的配置管理。
-
数据组织:对数据进行分层分类管理,支持数据表创建和维护,支持数据标签功能。
-
数据仓库:经过分层分类梳理后的数据,以数据目录的形式进行展现,支持数据资源的查询、查看。
-
数据服务:支持数据目录服务、API服务、中间库服务、消息分发服务等四种数据分发服务。
2.2 技术架构图
源端适配各种类型数据源,目标端支持多种存储方式,通过数据资源管理平台实现数据盘查、集成、存储、组织、数仓目录展示、分发服务的闭环管理。
2.3 数据流图
(1)不同类型、格式、存储方式的数据源,通过数据集成功能采集到数据资源管理平台;
(2)全量采集的原始数据或轻量采集的元数据通过适合的存储方式进行存储落地;
(3)数据服务以数据表、中间库、API、消息分发等形式对外共享数据。
2.4 数据盘查
数据盘查的目的:
数据盘查功能主要服务于后面的数据集成、数据组织、数据仓库等功能,需要摸清如下信息:
(1)数据情况
-
客户有哪些数据?
-
属于什么业务系统?
-
数据类型有哪些?
-
有多大的数据规模?
-
这些数据存储在哪里?
-
是否有安全方面的要求?
-
有没有相关的数据字典和设计文档?
(2)数据集成对接方式
-
采用哪种方式对接?
-
具体的对接信息
(3)IT环境信息
-
数据目前存储的服务器配置如何?
-
服务器间的网络链路关系?
-
网络带宽情况?
功能介绍:
-
支持数据盘查信息的查询、查看、录入、编辑、删除等管理功能;
-
提供数据盘查模版,可以通过模版将盘查数据直接导入系统。
数据盘查模版
2.5 数据集成
完成数据盘查工作后,便做好了数据集成前的准备工作,可以对盘查的数据进行数据集成,我们支持多种数据集成方式。
数据集成5种方式:
-
数据表集成:数据表集成用于建立与管理相关数据源的连接关系,基于需求加载相应采集数据表单,采集相关数据表到数据中台的数据仓库中。
-
自定义SQL集成:通过自定义查询的方式灵活组装数据集,支持动态参数功能按需接入数据。
-
Excel数据导入:通过上传文件的方式,支持Excel数据集导入数据到数据仓库中。
-
ETL:提供基于大数据ETL工具完成数据的抽取同步其他数据库数据的能力。包括任务维护、任务监控等。
任务维护:提供数据同步任务查询、任务创建、参数配置、任务执行、任务禁用、任务删除等基础功能
任务监控:提供任务过程监控功能,监控同步数据到数据智能平台。
-
API集成:支持对API数据源的配置管理(协议、URL、报文格式),对API管理维护包括:增删改查、测试连通性。可查看该数据源关联的作业明细。
数据集成2种模式:
-
全量数据集成:将全量原始数据集成到数据资源管理平台,并进行本地存储,后续的分析和应用均直接使用本地数据。
-
轻量数据集成:仅将元数据集成到数据资源管理平台,后续的分析、应用场景,都是通过数据引擎直接连接生产库进行分析和取数据;也支持根据需求过滤一部分符合要求的特定数据进行集成,用于满足业务。
2.6 数据存储
大数据场景下,数据的种类、来源越来越多,数据的应用需求也越发复杂,数据的存储方案选型需要根据数据情况量身选定。
功能介绍:
-
数据连接配置:主要负责适配主流的数据库连接器,提供数据连接器的配置管理功能。目前支持的主流连接器有mysql、oracle、postgreSQL、SQLserver、MariaDB、Hana、HBase、ES、Openguess、Hive、kafka、Mongodb等。
-
内部数据源管理:提供平台内部数据源的连接配置功能,用于建立与管理内部数据源的连接关系。
-
外部数据源管理:提供外部数据源的连接配置功能,用于建立与管理外部数据源的连接关系。
目前主流的存储技术包括关系型数据库 (RDBMS)、非关系型数据库 (NoSQL)、分布式文件系统 (DFS)、分布式存储、数据仓库 (Data Warehouse)、数据湖等。需要根据用户的数据情况、业务需求选择合适的存储技术或存储技术组合方案。下面举几个典型的场景进行说明:
(1)用户同时存在热数据与冷数据的场景
可以采用分级存储的解决方案,热数据采用分布式热磁存储或全闪存储,提升数据的读写性能,冷数据可以存储到归档存储(例如低端硬盘、蓝光、磁带库),确保数据长期安全存储的前提下,可以极大的降低存储成本。
(2)用户数据规模较小且以结构化数据为主的场景
以结构化数据为主的小规模数据,可以采用关系型数据库进行数据的存储。
(3)海量规模的数据存储场景
对于海量规模,且有高并发、高响应及高可用性的存储需求的数据,适合使用分布式存储架构,可以较好的支持高可用性和高效读写的应用场景,例如大数据分析、云计算平台、金融交易系统、容灾和备份等。
2.7 数据组织
数据组织是根据数据本身属性以及数据未来的使用场景需求,对数据进行分层分类管理,支持数据表的创建和维护,支持数据打标签功能。经过数据组织后的分层分类数据进入数据仓库,以数据资源目录形式展示并提供查询、查看。
功能介绍:
-
数据分层分类:支持根据不同的业务属性、数据来源、使用场景等来对数据进行分层和分类,支持以树状形式对数据进行一级、二级编目,所有编目动态生成、自动刷新,反映数据库内容的实时变化。
-
数据标签:支持对数据库表、非结构化数据打标签,方便数据检索。
-
数据表维护:支持数据表维护、数据查询、数据预览、数据表详情等数据表管理功能,可预览查看各数据集的数据样本。
2.8 数据仓库
数据经过分层分类后进入数据仓库,并提供数据资源目录进行数据的快速查询定位和查看。
数据资源目录:支撑各部门对数据资源目录的查询、查看。
原始库:数据在原始库中形成数据缓存层,以支持数据加工。同时实现了非结构化数据的关键信息的提取、数据分级分类标签等处理。原始库对外提供了查询、比对、推送、订阅等服务。同时为后续的数据血缘追踪提供溯源支持。
资源库:是对原始库数据进行清洗标准化及轻度整合,形成全量数据的持久化层。资源库对外支持数据的分类检索、轨迹碰撞,及明细数据的统计、分析、比对、推送、订阅等服务。
主题库:通过归并及建模,形成全息视图,并且通过实体间的关系构成了关系类知识图谱和事理图谱。对外在各中心共享了实体间的关系,并完成实体标签、数据分析、统计、比对等服务。
知识库:对外支撑知识类数据的查询以及模型工程、标签工程等服务。
业务库:业务库中的业务专题库实现了业务专题类分析,业务知识库汇聚了单一业务系统的知识,业务实体库中构建了业务的相关模型,业务资源库是对业务的相关数据支撑。在此基础上,实现了对外的数据统计、分析、推送及碰撞等服务。
2.9 数据服务
平台支持通过数据目录服务、API服务、中间库服务、消息分发等四种方式,对存储的数据进行分发和共享。
-
数据目录服务:提供已发布数据的目录,可以直接下载需要的结构化数据和非结构化数据。
-
API服务:将数据发布成API接口,数据使用方通过API接口调用数据。
-
中间库服务:定义一个中间库,平台将数据推送至中间库,数据使用方去中间库取数。
-
消息分发服务:以Kafka为例,平台将数据推到Kafka消息队列,数据使用方从Kafka消息队列取数。
03 产品价值
-
多源异构数据集成
支持以全可视化方式接入多源异构数据,包括结构化、半结构化和非结构化等数据类型,包括MYsql、Oracle、DB2、MogoDB、Hive等20+种数据源,同时支持数据表集成、自定义SQL集成、Excel数据集成、ETL集成、API集成等多种数据集成方式。
-
数据存储方式多样化
可根据数据属性和数据应用的不同业务场景,选择存储方式,满足需求的同时降低成本。
-
轻量级部署,快速交付
根据项目规模灵活选择项目方案,单机版或集群版;支持容器化高效部署,零基础半小时轻松完成全套产品部署,快速上线。
-
支持二次开发,灵活扩展
数据资源管理平台架构支持二次开发,可按照业务需求进行灵活扩展。
04 小结
在数字化时代,数据成为了新的生产要素,是新质生产力和数据资产的原材料,是企业实现数字化转型的前提。做好数据资源管理,可以为后续数据的分析、挖掘和开发打好基础,进而优化企业流程,支撑业务决策,推动业务创新,最终实现数据资产上市交易和入表,为企业带来真金白银的收益。
而想要做好数据资源管理,数据的盘查、集成、存储、组织、共享等基础能力缺一不可,数据资源管理平台正是因此而生,为企业提供专业的数据资源管理能力,助力企业实现“数据梦想”。