12款开源数据资产(元数据)管理平台选型分析(三)

news2024/9/29 11:37:25

ChatGPT百度指数
ChatGPT微信指数
如上,是ChatGPT的百度指数和微信指数,继2022年12月上旬技术圈火热之后,因为微软、谷歌等巨头的推广加持,ChatGPT成为全球大众热源的话题。各大媒体都在消费这波舆论红利,打开微信公众号,劈天盖地各种姿势的ChatGPT推文。关于ChatGPT是否会替代人类的文章,在各个领域和行业都在讨论。

那么,对于数据从业者而言,我觉得应该是不用太担心的哈。ChatGPT就是一个吃海量、高质量数据的怪兽。它越流行,数据从业者就越被需要。所以,数据人要掌握好数据采集、数据处理、数据治理(元数据管理、数据质量)的知识和工具。

本文是【12款开源数据资产(元数据)管理平台选型分析】系列的前两篇12款开源数据资产(元数据)管理平台选型分析(一)、12款开源数据资产(元数据)管理平台选型分析(二)得到了一些朋友的鼓励和肯定,本文是该系列第三篇,介绍的是4款商用数据资产平台,它山之石可以攻玉吧。如何只喜欢开源研究的伙伴,可以不用完全看完了。

说好的12款开源数据资产(元数据)管理平台,只介绍了8款,欠下的4款开源平台,后续补上。

后续,计划写【16款开源数据质量管理工具选型分析】、【33款开源数据集成/同步工具选项分析】等数据中台开源技术,欢迎大家持续关注。

如果你急着看这些组件的全貌,请移步【最全大数据开源组件思维导图】(https://www.jianshu.com/p/5eead28f01a0)查阅,该文档整理了大数据生态的开源技术组件思维导图,至今有4K+的下载量。

下图是12款数据资产(元数据)管理平台的横向、多维度对比全家福。大家可以作为选型的参考,当然,本系列文章中,每个平台都做了较为详细的分析,可以针对每个平台做细致的调研。
12款开源数据资产管理平台全家福
本文整理剩下的四款(Atlan、Alation、Ataccama、Monte Carlo)开源数据资产平台,并简单分析其优缺点,供选项参考。
在这里插入图片描述

Atlan

在这里插入图片描述

开源地址:https://github.com/atlanhq

Atlan将元数据管理、数据治理作为一种协同工作台,这种设计让数据使用者和维护者,有种天然的感觉:数据治理是一种日常的工作。具有丰富的功能,例如数据目录和发现、数据血缘和治理以及数据探索和集成。内置支持多种数据质量工具。

Atlan的优点:

  • 功能丰富、支持协同工具,Slack等集成
  • UI界面美观、操作指引友好
  • 内置支持多种数据集成工具及数据探索工具

Atlan的不足:

  • 其实是商用产品,部分开源

相关介绍:https://atlan.com/

选型建议:1)只能自研做参考学习,不能拿来主义。

Alation

在这里插入图片描述

开源地址:无

Alation是一个数据目录,它优先考虑处理数据的人的方面。它支持许多有用的功能,以加快登录、查询重用和自动化管理。最重要的是,它的UI简单、一致且直观。但是,如果您要使用Alation,请记住它有一个自定义的摄取协议,并且缺少ML实体。这对于想要超越简单分析和商业智能,进入AI/ML领域的企业来说至关重要。

相关介绍:https://atlan.com/

选型建议:只能自研做参考学习的榜样,不能拿来主义。

Ataccama

在这里插入图片描述

在这里插入图片描述

开源地址:无

Atacama是一个人工智能驱动的数据和元数据企业平台,具有数据质量、主数据管理和数据集成组件。该平台的UI很好,它使快速分析团队、高度监管的治理团队和技术数据团队能够轻松处理其数据资产。Atacama的一大优点是它的设计非常注重数据质量。这对于敏捷、数据驱动的组织至关重要。

相关介绍:https://www.ataccama.com/

选型建议:只能自研做参考学习的榜样,不能拿来主义。

Monte Carlo

在这里插入图片描述
开源地址:无

Atacama是一个数据平台,可帮助数据团队解决数据停机问题,使他们能够更有效地处理仪表盘,更快地训练更准确的ML模型,并推动分析操作。该平台广泛关注机器学习驱动的数据可观测性,这为数据团队提供了深入研究数据和大规模识别潜在问题的高级能力。这使得蒙特卡洛在数据可观测性方面比其竞争对手具有相当大的优势。
与许多其他专有数据目录解决方案一样,蒙特卡洛将用户锁定到自己的数据接收协议中。它还缺少某些ML实体,这可能会破坏当今许多组织的交易。

相关介绍:https://www.montecarlodata.com/

选型建议:只能自研做参考学习的榜样,不能拿来主义。

总结

随着智能硬件及物联网的快速发展,企业与政府数字化转型的深入、AI不断刷新人类的认知、数据资产成为第五要素,数据采集、数据存储、数据计算、数据治理等技术,必将迎来新的一轮发展与突破。如何管好、用好存量海量数据及源源不断产生的增量海量数据,数据治理的技术、组织面临着重大的挑战。
或许,这就是各大集团性企业、特别是国有企业,大量高薪招聘数据治理专员的原因吧。你准备好了么?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/339129.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

前后端学习

最近和锴哥想搞一下前后端接口的事儿,但是不会,所以打算再学学前后端的基础知识,之后好抄作业,做缝纫机;达哥觉得我浮躁,这次一定要支棱起来;这次开始,面向openai学习。 前后端学习1…

ChatGPT (可能)是怎么炼成的

学习自李宏毅老师的课https://www.youtube.com/watch?ve0aKI2GGZNg 1.学习文字接龙 学习方式 GPT只需要在网上阅读大量的句子,不需要人工标注即可学习到大量句子接龙的知识 然而实际上,“你好”后面可以接的字有很多。实际上,GPT学的就是…

3、Go基础数据类型

目录一、Go数据类型二、字符串三、强制类型转换一、Go数据类型 基础数据类型 类型长度(字节)默认值说明bool1falsebyte10uint8,取值范围[0,255]rune40Unicode Code Point, int32int, uint4或8032 或 64 位,取决于操作系统int8, uint810-128 ~ 127, 0 ~…

Freemarker介绍

2. Freemarker介绍 FreeMarker 是一个用 Java 语言编写的模板引擎,它基于模板来生成文本输出。FreeMarker与 Web 容器无关,即在 Web 运行时,它并不知道 Servlet 或 HTTP。它不仅可以用作表现层的实现技术,而且还可以用于生成 XML…

Python数据结构:概念、栈

1.概念 数据结构是指相互之间存在着一种或多种关系的数据元素的集合和该集合中数据元素之间的关系组成。简单来说,数据结构就是设计数据以何种方式组织并存储在计算机中。 比如:列表、集合与字典等都是一种数据结构。 N.Wirth:“程序数据结构算法’ 2.分类 数据结…

基于comsol软件弯曲单模光纤模拟仿真

在本节中,主要基于实验室实际光纤单模圆柱光纤进行模拟,与comsol案例库文件在分析过程和建模有些差异: 模拟主要通过以下三个步骤进行:模型的几何构建、物理场的添加研究、结构处理分析来进行。 下面是第一步骤:几何…

unity2022.1.8之后版本的新的输入行为控制对象变化

文章目录unity2022.1.8之后版本的新的输入行为控制对象变化怎么导入?如何使用?unity2022.1.8之后版本的新的输入行为控制对象变化 我们先了解大概的逻辑。我们要设置触发行为的方式并且让他和对象的行为绑定,再将行为和对象绑定,…

SpringBoot开发规范部分通用模板+idea配置【项目通用-1】

SpringBoot开发规范通用模板 1 分页插件使用 通过MybatisPlus配置分页插件拦截器 Configuration MapperScan("com.xuecheng.content.mapper") public class MybatisPlusConfig {//定义分页的拦截器Beanpublic MybatisPlusInterceptor getMybatisPlusInterceptor() {…

Pascal版本的 - freopen

参数 filename -- 这是包含要打开的文件的名称的字符串。 mode -- 这是包含文件访问模式的字符串。它包括 - 高级编号模式&说明1个 “r” 打开文件进行读取。该文件必须存在。 2个 “w” 创建一个用于写入的空文件。如果已存在同名文件,则删除其内容并将该文件…

【Java容器(jdk17)】ArrayList深入源码,就是这么简单

ArrayList深入源码一、ArrayList源码解析1. MIXIN 的混入2. 属性说明3. 构造方法4. 其他方法(核心)iterator 和 listIterator 方法add方法remove 方法sort方法其他二、ArrayList 为什么是线程不安全的?体现哪些方面呢?三、ArrayLi…

(day12) 自学Java——集合进阶(双列集合)

目录 1.双列集合特点 Map遍历三种方式 2.HashMap 3.LinkedHashMap 4.TreeMap 5.源码解析 6.可变参数(形参个数可变) 7.Collections 8.综合练习 1.双列集合特点 ①双列集合一次需要存一对数据,分别为键和值 ②键不能重复,值可以重复 ③键和值是一…

全志H616——用C语言的形式操作数据库

sqlite3_open(const char *filename, sqlite3 **ppDb)该例程打开一个指向 SQLite 数据库文件的连接,返回一个用于其他 SQLite 程序的数据库连接对象。sqlite3_close(sqlite3*)该例程关闭之前调用 sqlite3_open() 打开的数据库连接。所有与连接相关的语句都应在连接关…

【Linux】环境变量本地变量

文章目录环境变量基本概念常见环境变量和环境变量相关的命令为什么带./运行我们的可执行程序本地变量环境变量的组织方式环境变量具有全局属性环境变量 基本概念 环境变量(environment variables)一般是指在操作系统中用来指定操作系统运行环境的一些参数 如:我们…

gRPC的简单应用

gRPC的简单应用 gRPC是由开发的一个高性能、通用的开源RPC框架,主要面向移动应用开发且基于HTTP/2协议标准而设计,同时支持大多数流行的编程语言。 官网:https://grpc.io/ 安装protoc 工具 https://protobuf.dev/ 安装Go插件 旧版本直接…

学习HandlerThread

HandlerThread是一个扩展了Thread的类。也就意味着它和普通的Thread类的调用没有什么区别,仍然要调用start()。 如上图所示,扩展后的HandlerThread类有一个Looper和Handler。 关于这一块的知识可以参考一下《关于Handler我们应该知道的知识》 HandlerTh…

普冉PY32系列(五) 使用JLink RTT代替串口输出日志

目录 普冉PY32系列(一) PY32F0系列32位Cortex M0 MCU简介普冉PY32系列(二) Ubuntu GCC Toolchain和VSCode开发环境普冉PY32系列(三) PY32F002A资源实测 - 这个型号不简单普冉PY32系列(四) PY32F002A/003/030的时钟设置普冉PY32系列(五) 使用JLink RTT代替串口输出日志 JLink …

Python-第五天 Python函数

Python-第五天 Python函数一、函数介绍1. 什么事函数二、函数的定义1.函数的定义:2.案例三、函数的参数1.函数的传入参数2.案例升级四、函数的返回值1.什么是返回值2.返回值的语法3.None类型4.None类型的应用场景五、函数说明文档1.函数的说明文档2.在PyCharm中查看…

脑机接口协议V1.0

脑机接口,有时也称作“大脑端口”direct neural interface或者“脑机融合感知”brain-machine interface,它是在人或动物脑(或者脑细胞的培养物)与外部设备间建立的直接连接通路。在单向脑机接口的情况下,计算机或者接…

leaflet显示高程

很多地图软件都能随鼠标移动动态显示高程。这里介绍一种方法,我所得出的。1 下载高程数据一般有12.5m数据下载,可惜精度根本不够,比如mapbox的免费在线的,或者91卫图提供百度网盘打包下载的,没法用,差距太大…

记录robosense RS-LIDAR-16使用过程3

一、wireshark抓包保存pcap文件并解析ubuntu18安装wireshark,参考下面csdn教程,官网教程我看的一脸蒙(可能英语太差)https://blog.csdn.net/weixin_46048542/article/details/121730448?spm1001.2101.3001.6650.2&utm_medium…