从ETL到ELT
就传统的 ETL而言,当我们开始构建数据仓库时,都要先去了解业务流程,明晰业务是如何运转的,数据是如何留痕的。通过收集用户的相关需求,从而去规划设计报表。企业需要进行数仓分域、分层、逻辑建模等一系列操作,完成这些后才会去数据仓库中建表。
在这之后,企业就需要进行 ETL 操作了,由于多数数仓仅接受 SQL 的关系数据结构,因此,企业需要将不符合要求的数据转换为基于 SQL 的数据。这种方式在有限内存和处理能力的本地数据库中普遍存在。我们不难发现 ETL 的问题,主要是流程长和笨重。如果企业业务或者底层数据频繁变化,ETL 流程就要随之调整,这不仅浪费时间,而且也受制于吞吐量,成本极高。
因此,ELT 应运而生。工程师发现 ETL 复杂的地方主要是在 T 和 L 的强耦合,所以 ELT 的核心思想就是解耦。与 ETL 不同,ELT 不需要在加载过程之前进行数据转换。ELT 将原始数据直接加载到数仓中。使用 ELT 数据管道,数据清理、丰富和数据转换等过程都在数仓内完成。原始数据无限期地存储在数仓中,允许进行多次转换。
企业数据量的爆发。数据已经成为现代企业成功的必备要素。越来越多的企业需要数据的聚合,无论是结构化、非结构化抑或半结构化数据,他们都希望以统一的平台接口来收集和处理。也正是因为这些数据资源的增长,推动了企业的数字化进程,他们需要更灵活和敏捷的方式来处理数据,显然,传统的 ETL 并不能满足这些需求。
Airbyte的简单流程
从Airbyte支持的“Sources”中选择想要连接的数据源,并配置相应信息
2. 从Airbyte支持的“Destinations”中选择数据写入的目标,并配置相应信息。
3. 有了数据源和目标的信息,我们就可以建立一条连接(connection),并设置一个同步周期来同步数据了
至此这个数据同步任务算是完成配置,可以按照周期定时跑起来了。
Airbyte看似功能单一,但正如很多流行的开源软件一样,Airbyte强大的地方是:它定义了一个被广泛接受的标准,并形成了一个庞大的“连接器”(Connectors)生态。
Airbyte 的商业模式
开源版本可用作自助服务、免费解决方案。它可以访问无限连接器、复制、监控和通过社区为用户提供支持。云版本除了提供开源的所有功能之外,还提供其平台的云托管服务,并按积分收费。其信用消耗与基础设施计算时间相关。它带有云数据托管、数据管理、多个工作区等。
云版本提供 14 天的免费试用期,之后按每个积分 2.50 美元的价格按月收费。
企业版是针对处理大数据量需求的用户,依据客户用例收费。Airbyte 不对失败的客户用例收费。Airbyte 希望通过开源模式和付费贡献者计划,解决行业对长尾连接器的需求。从这方面来看,闭源产品大多是无法满足的。此外,他们还希望通过开源加快业界使用他们的连接器,从而提高产品可靠性。