如上,是ChatGPT的百度指数和微信指数,继2022年12月上旬技术圈火热之后,因为微软、谷歌等巨头的推广加持,ChatGPT成为全球大众热源的话题。各大媒体都在消费这波舆论红利,打开微信公众号,劈天盖地各种姿势的ChatGPT推文。关于ChatGPT是否会替代人类的文章,在各个领域和行业都在讨论。
那么,对于数据从业者而言,我觉得应该是不用太担心的哈。ChatGPT就是一个吃海量、高质量数据的怪兽。它越流行,数据从业者就越被需要。所以,数据人要掌握好数据采集、数据处理、数据治理(元数据管理、数据质量)的知识和工具。
本文是【12款开源数据资产(元数据)管理平台选型分析】系列的前两篇12款开源数据资产(元数据)管理平台选型分析(一)、12款开源数据资产(元数据)管理平台选型分析(二)得到了一些朋友的鼓励和肯定,本文是该系列第三篇,介绍的是4款商用数据资产平台,它山之石可以攻玉吧。如何只喜欢开源研究的伙伴,可以不用完全看完了。
说好的12款开源数据资产(元数据)管理平台,只介绍了8款,欠下的4款开源平台,后续补上。
后续,计划写【16款开源数据质量管理工具选型分析】、【33款开源数据集成/同步工具选项分析】等数据中台开源技术,欢迎大家持续关注。
如果你急着看这些组件的全貌,请移步【最全大数据开源组件思维导图】(https://www.jianshu.com/p/5eead28f01a0)查阅,该文档整理了大数据生态的开源技术组件思维导图,至今有4K+的下载量。
下图是12款数据资产(元数据)管理平台的横向、多维度对比全家福。大家可以作为选型的参考,当然,本系列文章中,每个平台都做了较为详细的分析,可以针对每个平台做细致的调研。
本文整理剩下的四款(Atlan、Alation、Ataccama、Monte Carlo)开源数据资产平台,并简单分析其优缺点,供选项参考。
Atlan
开源地址:https://github.com/atlanhq
Atlan将元数据管理、数据治理作为一种协同工作台,这种设计让数据使用者和维护者,有种天然的感觉:数据治理是一种日常的工作。具有丰富的功能,例如数据目录和发现、数据血缘和治理以及数据探索和集成。内置支持多种数据质量工具。
Atlan的优点:
- 功能丰富、支持协同工具,Slack等集成
- UI界面美观、操作指引友好
- 内置支持多种数据集成工具及数据探索工具
Atlan的不足:
- 其实是商用产品,部分开源
相关介绍:https://atlan.com/
选型建议:1)只能自研做参考学习,不能拿来主义。
Alation
开源地址:无
Alation是一个数据目录,它优先考虑处理数据的人的方面。它支持许多有用的功能,以加快登录、查询重用和自动化管理。最重要的是,它的UI简单、一致且直观。但是,如果您要使用Alation,请记住它有一个自定义的摄取协议,并且缺少ML实体。这对于想要超越简单分析和商业智能,进入AI/ML领域的企业来说至关重要。
相关介绍:https://atlan.com/
选型建议:只能自研做参考学习的榜样,不能拿来主义。
Ataccama
开源地址:无
Atacama是一个人工智能驱动的数据和元数据企业平台,具有数据质量、主数据管理和数据集成组件。该平台的UI很好,它使快速分析团队、高度监管的治理团队和技术数据团队能够轻松处理其数据资产。Atacama的一大优点是它的设计非常注重数据质量。这对于敏捷、数据驱动的组织至关重要。
相关介绍:https://www.ataccama.com/
选型建议:只能自研做参考学习的榜样,不能拿来主义。
Monte Carlo
开源地址:无
Atacama是一个数据平台,可帮助数据团队解决数据停机问题,使他们能够更有效地处理仪表盘,更快地训练更准确的ML模型,并推动分析操作。该平台广泛关注机器学习驱动的数据可观测性,这为数据团队提供了深入研究数据和大规模识别潜在问题的高级能力。这使得蒙特卡洛在数据可观测性方面比其竞争对手具有相当大的优势。
与许多其他专有数据目录解决方案一样,蒙特卡洛将用户锁定到自己的数据接收协议中。它还缺少某些ML实体,这可能会破坏当今许多组织的交易。
相关介绍:https://www.montecarlodata.com/
选型建议:只能自研做参考学习的榜样,不能拿来主义。
总结
随着智能硬件及物联网的快速发展,企业与政府数字化转型的深入、AI不断刷新人类的认知、数据资产成为第五要素,数据采集、数据存储、数据计算、数据治理等技术,必将迎来新的一轮发展与突破。如何管好、用好存量海量数据及源源不断产生的增量海量数据,数据治理的技术、组织面临着重大的挑战。
或许,这就是各大集团性企业、特别是国有企业,大量高薪招聘数据治理专员的原因吧。你准备好了么?