Datahub是LinkedIn开源的基于现代数据栈的元数据管理平台,原来叫做WhereHows 。经过一段时间的发展datahub于2020年2月在Github开源。
官网地址为:A Metadata Platform for the Modern Data Stack | DataHub
源码地址为:GitHub - datahub-project/datahub: The Metadata Platform for the Modern Data Stack
目前标星8.8K,最新稳定版本0.12.0。
开发语言为Java和Python。
官网
页面
Datahub支持的功能:
Datahub是现代数据栈的元数据管理平台,支持Tableai、PowerBI、Superset等数据可视化工具。也支持Airflow、Spark、ES、Kafka、Hive、Mysql、Oracle等大数据组件的元数据的获取。
有搜索,数据血缘,数据分析,标签,术语表等功能,也可以集成数据质量框架,如GreatExceptions。
Datahub的优缺点:
优势:
强大的数据发现和搜索功能,方便用户快速定位所需数据。
提供数据质量元数据,帮助用户理解和信任数据。
支持多种数据源,包括传统的关系数据库和现代的数据湖。
社区活跃,不断有新功能和改进加入。
劣势: 初学者可能会觉得界面和配置相对复杂。
在某些情况下,集成新的数据源可能需要额外的开发工作。
总之Datahub是目前最优秀的元数据管理项目,如果能掌握Datahub对于学习元数据管理帮助巨大。