Learn how to build a cloud based data warehouse using Qlik Compose on Google Big Query
How to Build Data Integration Pipelines with Qlik and Databricks - YouTube
Google BigQuery是一个具有成本效益、高度可扩展的无服务器数据仓库,专为业务敏捷性而设计。该平台管理所有的资源,自动扩展并高度可用。因此,仓库管理员不必花时间做典型的实施决策,如CPU大小或最大存储分配。
Google BigQuery支持两种不同的SQL方言。
- 标准SQL:标准SQL符合SQL 2011标准,是查询数据的首选方言。
- 传统SQL:BigQuery的第一个版本就支持这种方言。
为什么用 Qlik 自动化 Google BigQuery?
- 改进初始数据加载
- 减少人工SQL编码仓库管理
- 自动更新数据仓库
- 减少为下游分析准备和提供数据所需的时间
事实上,我们可以通过Qlik Data Integration (QDI)平台实现这些领域和更多领域的自动化。最新发布的QDI解决方案针对Google BigQuery进行了优化,并将BigQuery操作的许多方面自动化。例如,可以使用Qlik Replicate进行近乎实时的变化数据捕获(CDC),使用Qlik Compose for Data Warehouses来构建内部数据仓库结构和提供数据集。
适用于 Google BigQuery 的 Qlik 数据集成
以下段落介绍了专门为数据仓库自动化而创建和优化的功能。这些特点如下:
- 数据仓库模型生成
- 自动生成映射
- 数据仓库ETL生成
- 数据市场ETL生成
- 工作流生成和协调
数据仓库模型的生成
Qlik Compose for Data Warehouses通过连接到源数据,并对元数据进行内省,以产生符合第三种正常形式(3NF)/Data Vault方法论的模型,使得从源数据生成逻辑模型变得非常容易。Qlik还提供了在逻辑模型中分配Type1/Type2历史属性的支持,改善了BigQuery数据集表的数据加载过程。
自动生成映射
Qlik Compose for Data Warehouses将创建BigQuery数据集表,并为完整和CDC ETL集生成映射。在ETL集中,Compose将自动生成BigQuery数据仓库数据集表的登陆区域列和暂存列之间的表映射。最终,这减少了开发生命周期的时间。
数据仓库ETL生成
Qlik会自动生成和协调在BigQuery中执行ETL过程所需的SQL语法,以完成数据仓库中表的全部加载。Qlik还能自动生成和协调将CDC数据加载到BigQuery数据集中所需的SQL语法。
数据市场ETL生成
Qlik提供了一个数据向导,它可以利用BigQuery数据仓库数据集自动创建一个事务性数据集。Qlik的自动化功能可以刷新BigQuery数据集市中的数据,而无需复杂的手动转换或脚本。
工作流生成和协调
你也可以使用Qlik生成一个完整的和CDC工作流,任务是加载BigQuery数据仓库和数据集市表。加载CDC数据的工作流可以通过Qlik或从第三方调度工具进行调度。
Google BigQuery 自动化的六个步骤
只需要六个步骤,就可以用Qlik自动完成Google Big Query,具体步骤如下:
- 步骤1:自动化数据摄取和更新
配置Qlik Replicate任务,使用Google BigQuery作为端点。Qlik Replicate将在BigQuery中创建来自几乎任何数据源的数据集,无论是在内部还是在云端。一旦Qlik Replicate完成全部数据加载,任务就会过渡到CDC模式,以近乎实时的方式复制源数据变化。
- 步骤2:Qlik Compose Source和数据仓库配置
配置一个Qlik Compose for Data Warehouses项目登陆和数据仓库连接。数据仓库连接将提供目标数据仓库和数据集的详细信息。登陆连接指定了BigQuery数据集,该数据集将用于数据模型内的集成。
- 步骤3:自动生成仓库数据模型
模型面板用于智能发现逻辑和物理数据仓库模型的表元数据。管理模型控制哪些属性变化和历史类型可以应用到数据仓库模型。
- 步骤4:生成数据仓库自动化指令
数据仓库面板选择将在数据仓库数据集中创建为Google BigQuery表的表。将创建表映射,以管理BigQuery表中的登陆列和暂存列之间的关系。一旦完成,ETL过程代码就会生成并准备在BigQuery上执行。
- 步骤5:创建交易数据集市
数据集市面板提供了一个 "新星型模式 "向导来创建事务星型模式。该向导首先要求你从数据仓库数据集中选择一个事实表。然后选择所选事实表的父维表。您还选择一个属性作为模式的事务日期。一旦模式向导完成,就会生成并执行BigQuery语法来加载创建和加载数据仓库表。
- 步骤6:编排仓库工作流程
当设置了数据仓库CDC ETL后,在Qlik Compose监控界面中,一个任务被创建并添加到默认的CDC工作流中。一个数据集市任务也被添加到默认的CDC工作流中。
结论
Google BigQuery是市场上领先的云数据仓库,在操作大型数据集进行分析工作负载时,可以提供卓越的性能。虽然BigQuery提供了几乎不需要动手的管理,但当与Google平台一起使用时,Qlik的数据仓库自动化解决方案将为您节省大量的开发时间。