Airbyte,数据集成的未来

news2024/9/28 21:22:38
Gartner 曾预计,到 2025 年,80% 寻求扩展数字业务的组织将失败。因为他们没有采用现代方法来进行数据和分析治理。

数据生态是基础架构生态的最重要一环,数据的处理分发与计算,从始至终贯穿了整个数据流通生态。自从数据集中在数据仓库和数据湖中,数据集成已经发生了翻天覆地的变化,我们现在通常称其为现代数据技术栈。但今天的现代,也可能成为明天的过时。

如今,数据治理愈发重要,我们常常发现 80% 的数据业务,其实是靠 20% 的数据在支撑;同样,80% 的数据质量问题,其实是由那 20% 的系统和人产生的。Gartner 曾预计,到 2025 年,80% 寻求扩展数字业务的组织将失败。因为他们没有采用现代方法来进行数据和分析治理。

这其中的数据集成问题引人关注,就不得不提到现代数据技术栈底部的 E (数据抽取 Extract) T (数据转换 Transform) L (数据加载 Load) 和反 ELT 问题。行业预计,未来企业仍会增加他们必须构建和维护的内部连接器数量。今天我们想介绍这样一家企业——Airbyte,一家专注于 ELT 管道的开源数据集成平台。

源起:YC 加速器

2020 年,LiverRamp 和 Michel Tricot (RideOS 前工程总监兼集成负责人),以及 John Lafleur (专注于开发工具和 B2B 服务的连续创业者) 共同创立了 Airbyte。

在早期,这个团队是想专注于营销公司的数据连接,并带着这个想法加入了 YC 加速器,但由于受到疫情等因素影响,他们没能成功。也就在此时,团队决定进行更深入的数据集成,也就是今天我们所见的 Airbyte——面向数据工程,没有局限于特定行业,但提供了用于构建连接器的图形 UI,以及供开发人员挂钩的 API。

团队认为,许多公司都是从构建自己的数据连接器开始,往往最初的效果还不错,但长期下来,他们逐渐会发现复杂性在于做维护,也就是数据整合的成本在维护的投入。即便对于专门构建这些连接器的公司来说,其复杂性也将让它们很难持续跟上连接器的发展,Airbyte 希望成为复制数据的标准。

此后,2020 年 7 月到 9 月,Airbyte 团队在 3 个月内与领先使用 ETL/ELT 工具的客户,进行了 45 次电话沟通,了解到客户即使为这些解决方案付费,也不得不在旁边构建和维护连接器,因为他们要么不受支持,要么支持但不以他们需要的方式。

除此之外,大多数 ETL/ELT 平台都是基于云的,需要将数据移出基础架构。这不仅增加了不必要的成本,还给越来越多公司带来数据隐私和数据安全风险。最后,工程师们还是要自己开发和维护这些连接。正是基于这些调研,使 Airbyte 团队更加相信自己所选的方向。

资本:快速给予支持

Airbyte 获得了越来越多的关注。根据 Airbyte 自己披露的信息,2020 年 11 月的使用量是 10 月的两倍。在 2021 年 2 月之前,Airbyte 实现了每月 100% 的增长,每个月都有 500 次部署。良好的数据也引来了 Accel 的 520 万美元种子轮投资。同年 5 月,仅仅 3 个月后,由 Benchmark 领投的 A 轮 2600 万美元融资完成。

到 2021 年 11 月时,Airbyte 的部署已经达 100k,连接器数量也迅猛增长。此时,Altimeter Capital 和Coatue Management 领投的 1.5 亿美元 B 轮融资完成,公司估值 15 亿美元。从 2020 年成立到 2021 年底,公司超越独角兽估值,仅用了不到两年时间。

来源:作者绘图

ELT:不只是变换顺序

要聊 ELT,我们还是需要先从传统的 ETL 讲起。从传统而言,当我们开始构建数据仓库时,都要先去了解业务流程,明晰业务是如何运转的,数据是如何留痕的。通过收集用户的相关需求,从而去规划设计报表。企业需要进行数仓分域、分层、逻辑建模等一系列操作,完成这些后才会去数据仓库中建表。

在这之后,企业就需要进行 ETL 操作了,由于多数数仓仅接受 SQL 的关系数据结构,因此,企业需要将不符合要求的数据转换为基于 SQL 的数据。这种方式在有限内存和处理能力的本地数据库中普遍存在。我们不难发现 ETL 的问题,主要是流程长和笨重。如果企业业务或者底层数据频繁变化,ETL 流程就要随之调整,这不仅浪费时间,而且也受制于吞吐量,成本极高。

因此,ELT 应运而生。工程师发现 ETL 复杂的地方主要是在 T 和 L 的强耦合,所以 ELT 的核心思想就是解耦。与 ETL 不同,ELT 不需要在加载过程之前进行数据转换。ELT 将原始数据直接加载到数仓中。使用 ELT 数据管道,数据清理、丰富和数据转换等过程都在数仓内完成。原始数据无限期地存储在数仓中,允许进行多次转换。

来源:作者绘图

使用 ELT 的优势是突破性能瓶颈、程序简化、组件替换、维护成本降低等。尤其是解耦后可以适应业务的敏捷变化,灵活性和效率均大幅提升。

产品:专注 & 拥抱开源生态

Airbyte 最主要的产品还是 Extract 数据抽取和 Load 数据加载产品。简单来说,就是利用连接器 (Connector) 连通多平台间的数据,其逻辑是平台连接的数据源越多,平台越稳定,而平台就会拥有壁垒。

来源:Airbyte 网站截图

其次,Airbyte 也提供 Transform (数据转换) 产品,实际上 Transform 数据转换产品 Airbyte 也是集成了 Dbt 这样一个开源工具 (Dbt Labs 也是估值 42 亿美金的独角兽),用户使用 SQL 语句就可以进行数据转换,在这里我们也不难发现美国 Infra 基础架构领域的良好生态,大家专注在自己的领域,通过生态互相集成,而不是做大而全的产品。

来源:Airbyte 网站截图

最后,是 Embed 报表插件类型的产品,主要解决 BI 工具和前端页面重复建设问题。公司将数据迁移到云上后,定制化报表需求会需要搭建数仓和 BI 工具。通过 Airbyte Embed 产品,其将此过程变简单化,数据上云数仓后,自动产生分析报告,节省了时间。

来源:Airbyte 网站截图

机遇:云数仓发展 & 数据量爆发

说了这么多 ETL 和 ELT,那么 Airbyte 这家专注于 ELT 赛道的新兴创业独角兽崛起的机遇是什么呢?我想一切还得从云开始聊。

随着云计算的兴起,数据仓库云化进程加速。它的按需取用、弹性扩容等特性也深深地影响了整个基础软件行业的变革。行业初期,很多所谓的“云数仓”只是将物理硬件环境直接打包上云,存算没有分离,弹性扩展也无法实现,这种 “上云”并没有进行针对云环境特点的优化。

行业的转变来自 2014 年,Snowflake 的云原生数仓横空出世,它通过多集群共享数据存储和计算分离架构开始深度融合云平台。传统企业基于本地部署的资源,计算、存储以及网络带宽等都相对昂贵且受限。所以将 T 环节放在 E 和 L 中间是可以理解的,毕竟我们需要平衡硬件成本和计算效率。

但 Snowflake 这种云原生数仓的出现,带来了企业计算和存储成本的持续下降,这意味着企业可以在数仓中直接存储未经转换的数据。事实上,也确实有越来越多的数据被存储在了云端,这为 ELT 的兴起提供了土壤。

来源:IDC 报告

另一方面,我们不得不谈及企业数据量的爆发。数据已经成为现代企业成功的必备要素。越来越多的企业需要数据的聚合,无论是结构化、非结构化抑或半结构化数据,他们都希望以统一的平台接口来收集和处理。也正是因为这些数据资源的增长,推动了企业的数字化进程,他们需要更灵活和敏捷的方式来处理数据,显然,传统的 ETL 并不能满足这些需求。

来源:IDC报告

开源:构建竞争壁垒

Airbyte 的商业模式是比较典型的开源商业模式,分为免费版、云版本和企业版。

开源版本可用作自助服务、免费解决方案。它可以访问无限连接器、复制、监控和通过社区为用户提供支持。云版本除了提供开源的所有功能之外,还提供其平台的云托管服务,并按积分收费。其信用消耗与基础设施计算时间相关。它带有云数据托管、数据管理、多个工作区等。

云版本提供 14 天的免费试用期,之后按每个积分 2.50 美元的价格按月收费。

企业版是针对处理大数据量需求的用户,依据客户用例收费。Airbyte 不对失败的客户用例收费。Airbyte 希望通过开源模式和付费贡献者计划,解决行业对长尾连接器的需求。从这方面来看,闭源产品大多是无法满足的。此外,他们还希望通过开源加快业界使用他们的连接器,从而提高产品可靠性。

事实上,开源完善了 Airbyte 的商业飞轮,加速了它的产品完善,提供了更好的竞争优势。它让活跃的贡献者社区参与发布他们自己的数据连接器以造福所有人,这是他们连接器快速增长的重要原因之一。

在产品层面,开源模式帮助了连接器保持高水平的可靠性。Airbyte 通过激励机制,鼓励开源贡献者维护他们贡献的连接器。个人和公司也可以像手机应用商店一样在其中发布他们的连接器。此外,开源工具负责以安全、快速和可靠的方式移动数据,维护者只需要简单配置数据连接器即可。

开源模式看起来也得到了资本的认可。Airbyte 在 2021 年 12 月的 B 轮融资时,ARR 收入不足 100 万美元,但得到了 15 亿美金的估值。目前,根据 Airbyte 自己官网的披露,其每月同步 600 TB+数据,已经有 25,000+ 公司使用了它们,并且拥有 10K+的社区成员。我们有理由持续关注和期待未来 Airbyte 公布的相关财务信息,以追踪其商业化进程。

来源:Airbyte 网站截图

未来:马太效应,赢者通吃

一个数据集成平台能更快地链接来自不同来源的数据,构建更多的连接器,其将获得行业壁垒,这个市场很可能会具有马太效应,赢者通吃的特点。与此同时,Airbyte 也并不寂寞,数据集成市场仍在有新老玩家涌入。

我们看到了老玩家,比如:成立于 2012 年的业界最早的 ETL 工具提供商 Fivetran (56 亿美金估值的独角兽企业,目前已转向 ELT 领域),也在致力于为广泛使用的平台和数据源构建连接器。其优势在于,它是最成熟的数据集成平台之一,受到世界上一些大公司的信任;而缺点在于定价较高,对长尾数据连接器的支持也有限,内部开发的可能性很小。当然,它是闭源模式。

我们也看到了新玩家,比如:2021 年从 GitLab 剥离出来的 Meltano,它也是以开源模式运作。但与Airbyte 不同,它集成了 Singer 协议,并且暂时没有提供无代码或低代码选项,更适合技术水平相对较高的数据工程团队。

无论如何,Airbyte 的故事与挑战仍会继续,我们持续关注。

作者简介

郑博,Aka Harbour 哈博。崔牛会非著名牛油,人到中年的 2B 基础架构创业老炮,CnosDB 云原生时序数据库开源社区发起人。

CnosDB简介

CnosDB是一款高性能、高易用性的开源分布式时序数据库,现已正式发布及全部开源。

欢迎关注我们的社区网站:https://www.cnosdb.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/371135.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

3. Unity之三维模型

1. 网格 Mesh 三维物体模型在unity中一般称为mesh,即网格数据,模型一般使用专用的建模软件设计,将mesh文件导入到unity中进行使用,一般mesh中保存的是三维模型的面和顶点数据。在unity中通过下图方法进行调整,其中&am…

MakeFile教程

前言 当我们需要编译一个比较大的项目时,编译命令会变得越来越复杂,需要编译的文件越来越多。其 次就是项目中并不是每一次编译都需要把所有文件都重新编译,比如没有被修改过的文件则不需要重 新编译。工程管理器就帮助我们来优化这两个问题…

Elasticsearch7.8.0版本进阶——IK中文分词器

目录一、ES 的默认分词器测试示例二、IK 中文分词器2.1、IK 中文分词器下载地址2.2、ES 引入IK 中文分词器2.3、IK 中文分词器测试示例三、ES 扩展词汇测试示例一、ES 的默认分词器测试示例 通过 Postman 发送 GET 请求查询分词效果,在消息体里,指定要分…

python社团 培训记录(自2023年2月24日始)

在单位开设了Python社团,在此记录上课的有关情况: 课程概述:本社团主要针对五、六年级,初始招生(上课前)28人(五、六年级各14人),后(上课时)人员…

一文让你彻底理解Linux内核调度器进程优先级

一、前言 本文主要描述的是进程优先级这个概念。从用户空间来看,进程优先级就是nice value和scheduling priority,对应到内核,有静态优先级、realtime优先级、归一化优先级和动态优先级等概念。我们希望能在第二章将这些相关的概念描述清楚。…

优秀的网络安全工程师应该有哪些能力?

网络安全工程师是一个各行各业都需要的职业,工作内容属性决定了它不会只在某一方面专精,需要掌握网络维护、设计、部署、运维、网络安全等技能。目前稍有经验的薪资在10K-30K之间,全国的网络安全工程师还处于一个供不应求的状态,因…

Linux | 项目自动化构建工具 - make/Makefile

make / Makefile一、前言二、make/Makefile背景介绍1、Makefile是干什么的?2、make又是什么?三、demo实现【见见猪跑🐖】三、依赖关系与依赖方法1、概念理清2、感性理解【父与子】3、深层理解【程序的翻译环境 栈的原理】四、多学一招&#…

网络编程(Java)

网络协议通信 IP和端口号 要想使计算机能够通信,必需为每台计算机指定一个标识号,通过这个标识号指定接受数据的计算机或者发送数据的计算机。一般的,IP地址就是一个计算机的标识号,它可以唯一标识一台计算机。 IP地址由两部分组…

AUTOSAR 自适应平台

总目录链接>> AutoSAR入门和实战系列总目录 文章目录AUTOSAR 自适应平台动机标准自适应平台基础基本功能通信安全保障自适应平台服务DemonstratorDemonstrator实现路线图本系列文章由两部分组成:第一部分讨论了AUTOSAR 经典平台,该平台旨在基于微…

Linux下的进程地址空间

Linux下的进程地址空间程序地址空间回顾从代码结果推结论引入进程地址空间页表为什么要有进程地址空间重新理解进程地址空间程序地址空间回顾 我们在初学C/C的时候,我们会经常看见老师们画这样的内存布局图: 可是这真的是内存吗? 如果不是它…

【设计模式】 模板方法模式介绍及C代码实现

【设计模式】 模板方法模式介绍及C代码实现 背景 在软件构建过程中,对于某一项任务,它常常有稳定的整体操作结构,但各个子步骤却有很多改变的需求,或者由于固有的原因(比如框架与应用之间的关系)而无法和任…

2023年1月综合预订类APP用户洞察——旅游市场复苏明显,三年需求春节集中释放

2023年1月,随着国家对新型冠状病毒感染实施“乙类乙管”,不再对入境人员和货物等采取检疫传染病管理措施,并且取消入境后全员核酸检测和集中隔离,横亘在旅游者与旅游目的地之间的隔阂从此彻底消失。2023年1月恰逢春节假期&#xf…

SQL零基础入门学习(十一)

SQL零基础入门学习(十) SQL NOT NULL 约束 NOT NULL 约束强制列不接受 NULL 值。 NOT NULL 约束强制字段始终包含值。这意味着,如果不向字段添加值,就无法插入新记录或者更新记录。 下面的 SQL 强制 “ID” 列、 “LastName” …

Mac OSX下使用VMware Fusion 配置静态IP 图文教程指南

目录一. 前言二. Mac OSX下使用VMware Fusion 配置静态IP2.1 了解静态IP如何划分基础知识2.2 Centos7 安装操作系统时图形界面配置静态IP2.3 Centos7安装操作系统后修改动态IP为静态IP三参考文献一. 前言 Mac OSX 下使用VMware Fusion 创建的虚拟机,默认是通过DHCP…

雷达实战之射频前端配置说明

在无线通信领域,射频系统主要分为射频前端,以及基带。从发射通路来看,基带完成语音等原始信息通过AD转化等手段转化成基带信号,然后经过调制生成包含跟多有效信息,且适合信道传输的信号,最后通过射频前端将信号发射出去…

msys2+minGW方案编译ffmpeg的最佳实践

一、Win10 64bit编译环境的建立1)从http://www.msys2.org/下载 msys2-x86_64-xxx.exe2) 安装msys2到默认路径 C:\msys64\3) 运行MSYS2 w644)执行 pacman -Syu 更新系统当出现提示时,选择y5) 当窗口关闭时,重…

九龙证券|美股创年内最大周跌幅!美联储官员密集发声!波音重挫近5%

当地时刻2月24日,美股三大指数收盘明显跌落。道指跌1.02%,标普500指数跌1.05%,纳指跌1.69%。 大型科技股普跌,微软、亚马逊跌超2%。波音大跌4.8%,居道指跌幅榜首位,公司因机身部件有问题再次暂停向用户交付…

zabbix4.0-动作-邮件告警

目录 1、创建动作Actions 动作触发流程 创建一个动作 2、配置 Media types 媒介类型,添加一个发件邮箱来发送告警邮件 3、配置 Users Media,添加一个收件邮箱来接收告警邮件 4、更改一个触发器表达式来触发动作Action,最终发送告警邮…

【数据库】MongoDB数据库详解

目录 一,数据库管理系统 1, 什么是数据库 2,什么是数据库管理系统 二, NoSQL 是什么 1,NoSQL 简介 2,NoSQL数据库 3,NoSQL 与 RDBMS 对比 三,MongoDB简介 1, MongoDB 是什…

Python入门教程(非常详细)从零基础入门到精通,看完这一篇就够了

前言 本文罗列了了python零基础入门到精通的详细教程,内容均以知识目录的形式展开。 第一章:python基础之markdown Typora软件下载Typora基本使用Typora补充说明编程与编程语言计算机的本质计算机五大组成部分计算机三大核心硬件操作系统 第二章&…