解决这个问题,还得从技术系统架构和数据开发、消费的流程管理上来找原因:
一、数据集成或同步过程中有一些技术挑战,如多源异构数据集成时缺失去重策略、数据同步机制的不完善或配置错误,导致重复数据被多次引入系统;
二、传统的数据存储与管理系统存在局限性,如数据库设计没有充分考虑到数据唯一性约束、数据清洗与去重流程的自动化程度不足,使得重复数据在系统内部长期存在;
三、业务逻辑与系统架构不匹配,业务需求加快,但系统响应滞后,以及系统间数据交互协议的不一致,都可能导致数据在开发、流转、消费的不同环节被重复存储或处理;
四、系统升级或迁移时,若数据转换和映射策略不完善,也会导致重复数据的产生。
重复数据的产生,导致企业面对“数据”这座金山,不得不经受“千淘万漉”的痛苦,特别是“找不到有价值数据”,使得很多数据开发人员,不得不投入更多精力进行数据开发,工作繁重且不说,还要面对业务用数不满意的评价。
因此,企业对重复数据的治理需求越来越强烈,特别在业务端,通过字段口径找出相似表,有一套解决方案满足以下场景尤为迫切。
一、识别集市层不同表的公共部分(下沉集市层表的公共逻辑)
这一步不仅限于简单地找出表之间的共同字段或结构,更重要的是要深入理解这些表在业务逻辑上的共通之处。通过深入分析集市层中“表 1、表 2、表 3”等及其下属多层表的字段、计算逻辑以及数据流转路径,精准地提炼出这些表在数据处理、业务规则应用上的共同特征。一旦识别并下沉到公共层,将极大地简化后续的数据处理流程,提升数据处理的标准化和一致性,进而促进公共层的广泛利用,减少数据冗余和重复计算。
二、识别集市层的表与公共层的表的重复度(提高公共层的复用)
这一步旨在优化数据架构,减少不必要的数据复制和存储开销。通过比对直接引用 bdata 的集市层表与 pdata 中已存在的表,不仅要找出结构上的相似性,更要评估数据内容、业务含义以及数据使用场景的重合度,揭示哪些集市层表实际上是公共层已有表的重复或变种,进而指导企业将这些表迁移到 pdata 的相应表中,或调整其设计以更好地复用公共层资源。
三、识别加工逻辑相似的表(快速定位数据加工冗余环节)
这一步是优化数据处理流程、提升数据质量的关键一环。在集市层中,往往存在多张表,虽然数据来源不同,但在数据处理、清洗、转换等环节采用了相似甚至相同的逻辑。通过自动化工具,可以系统地识别出这些加工逻辑相似的表,并输出详细的相似表及其字段口径对比,帮助企业快速定位数据加工过程中的冗余环节,推动数据处理逻辑的标准化和复用。
此外,要实现对重复数据的自动识别,因为涉及数据量大,所以对性能要求极高,以避免一复杂就会崩的场面。
为实现重复数据自动识别,目前市场面有很多方式,比如利用数据库管理系统(DBMS)提供的去重功能,或者使用数据库索引来加速查询过程,提高去重效率,再或者利用 Hadoop、Spark 等大数据平台,结合 MapReduce 或 Spark SQL 等处理框架,对海量数据进行分布式处理和去重等,但依靠于这些单点能力的堆叠,并不能够全面帮助企业实现重复数据的自动识别。
相较于上述方案,国内 Data Fabric 架构理念的实践者与引领者 Aloudata 大应科技,通过全球首创的“算子级血缘”技术,打造了全球首个算子级血缘主动元数据平台——Aloudata BIG。
通过 Aloudata BIG 主动元数据平台,企业可以自动构建一张全面、准确、精细、实时的算子级血缘图谱,深入到数据开发、消费的每一个细节之中,不仅可对字段口径进行任意跨层穿透、合并及比对,还可对字段级实现多级相似度计算,包括算子级别的加工逻辑,精准捕获数据字段之间的计算关系。例如,判断是否来自同一数据源、是否采用相同汇总方式、是否具有相同的汇总粒度或统计周期,以及数据范围是否一致等。
在全域重复数据的识别过程中,Aloudata BIG 主动元数据平台可以自动采集库、表、列、报表、模型、指标、标签、脚本等一切与数据相关的元数据信息,支持自定义元数据实体及关系数据上报,可将各处的元数据统一管理,形成相互关联的元数据图谱,一个地方看清所有数据,进而实施数据治理策略。
目前,Aloudata BIG 主动元数据平台已经在包含达 10 万级数据资产规模的生产环境中,实现了全域范围内的精准识别和去重,不仅帮助企业完成数据资产的盘点治理,还大幅减少人力成本和冗余浪费,提供了一种更科学的途径避免数据存储与计算成本的浪费。欢迎访问Aloudata 官网,了解更多。