Building a Cloud Based Data Warehouse on Google Big Query Using Qlik Compose

news2024/11/24 11:37:38

Learn how to build a cloud based data warehouse using Qlik Compose on Google Big Query

How to Build Data Integration Pipelines with Qlik and Databricks - YouTube

Google BigQuery是一个具有成本效益、高度可扩展的无服务器数据仓库,专为业务敏捷性而设计。该平台管理所有的资源,自动扩展并高度可用。因此,仓库管理员不必花时间做典型的实施决策,如CPU大小或最大存储分配。

Google BigQuery支持两种不同的SQL方言。

  • 标准SQL:标准SQL符合SQL 2011标准,是查询数据的首选方言。
  • 传统SQL:BigQuery的第一个版本就支持这种方言。

为什么用 Qlik 自动化 Google BigQuery?

  • 改进初始数据加载
  • 减少人工SQL编码仓库管理
  • 自动更新数据仓库
  • 减少为下游分析准备和提供数据所需的时间

事实上,我们可以通过Qlik Data Integration (QDI)平台实现这些领域和更多领域的自动化。最新发布的QDI解决方案针对Google BigQuery进行了优化,并将BigQuery操作的许多方面自动化。例如,可以使用Qlik Replicate进行近乎实时的变化数据捕获(CDC),使用Qlik Compose for Data Warehouses来构建内部数据仓库结构和提供数据集。

适用于 Google BigQuery 的 Qlik 数据集成

以下段落介绍了专门为数据仓库自动化而创建和优化的功能。这些特点如下:

  • 数据仓库模型生成
  • 自动生成映射
  • 数据仓库ETL生成
  • 数据市场ETL生成
  • 工作流生成和协调

数据仓库模型的生成

Qlik Compose for Data Warehouses通过连接到源数据,并对元数据进行内省,以产生符合第三种正常形式(3NF)/Data Vault方法论的模型,使得从源数据生成逻辑模型变得非常容易。Qlik还提供了在逻辑模型中分配Type1/Type2历史属性的支持,改善了BigQuery数据集表的数据加载过程。

自动生成映射
Qlik Compose for Data Warehouses将创建BigQuery数据集表,并为完整和CDC ETL集生成映射。在ETL集中,Compose将自动生成BigQuery数据仓库数据集表的登陆区域列和暂存列之间的表映射。最终,这减少了开发生命周期的时间。

数据仓库ETL生成

Qlik会自动生成和协调在BigQuery中执行ETL过程所需的SQL语法,以完成数据仓库中表的全部加载。Qlik还能自动生成和协调将CDC数据加载到BigQuery数据集中所需的SQL语法。

数据市场ETL生成

Qlik提供了一个数据向导,它可以利用BigQuery数据仓库数据集自动创建一个事务性数据集。Qlik的自动化功能可以刷新BigQuery数据集市中的数据,而无需复杂的手动转换或脚本。

工作流生成和协调

你也可以使用Qlik生成一个完整的和CDC工作流,任务是加载BigQuery数据仓库和数据集市表。加载CDC数据的工作流可以通过Qlik或从第三方调度工具进行调度。

Google BigQuery 自动化的六个步骤

只需要六个步骤,就可以用Qlik自动完成Google Big Query,具体步骤如下:

  • 步骤1:自动化数据摄取和更新

配置Qlik Replicate任务,使用Google BigQuery作为端点。Qlik Replicate将在BigQuery中创建来自几乎任何数据源的数据集,无论是在内部还是在云端。一旦Qlik Replicate完成全部数据加载,任务就会过渡到CDC模式,以近乎实时的方式复制源数据变化。

  • 步骤2:Qlik Compose Source和数据仓库配置

配置一个Qlik Compose for Data Warehouses项目登陆和数据仓库连接。数据仓库连接将提供目标数据仓库和数据集的详细信息。登陆连接指定了BigQuery数据集,该数据集将用于数据模型内的集成。

  • 步骤3:自动生成仓库数据模型

模型面板用于智能发现逻辑和物理数据仓库模型的表元数据。管理模型控制哪些属性变化和历史类型可以应用到数据仓库模型。

  • 步骤4:生成数据仓库自动化指令

数据仓库面板选择将在数据仓库数据集中创建为Google BigQuery表的表。将创建表映射,以管理BigQuery表中的登陆列和暂存列之间的关系。一旦完成,ETL过程代码就会生成并准备在BigQuery上执行。

  • 步骤5:创建交易数据集市

数据集市面板提供了一个 "新星型模式 "向导来创建事务星型模式。该向导首先要求你从数据仓库数据集中选择一个事实表。然后选择所选事实表的父维表。您还选择一个属性作为模式的事务日期。一旦模式向导完成,就会生成并执行BigQuery语法来加载创建和加载数据仓库表。

  • 步骤6:编排仓库工作流程

当设置了数据仓库CDC ETL后,在Qlik Compose监控界面中,一个任务被创建并添加到默认的CDC工作流中。一个数据集市任务也被添加到默认的CDC工作流中。

结论

Google BigQuery是市场上领先的云数据仓库,在操作大型数据集进行分析工作负载时,可以提供卓越的性能。虽然BigQuery提供了几乎不需要动手的管理,但当与Google平台一起使用时,Qlik的数据仓库自动化解决方案将为您节省大量的开发时间。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/635786.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

概率图简介

引言 本文介绍概率图模型的部分基础知识,希望学习完本文之后能更好地理解HMM和CRF模型。 概率论基础 本节简单回顾一下相关的概率论知识,概率论有两条重要的基本规则。 分别为乘法规则(product rule)和加和规则(sum rule),假设有两个随机…

chatgpt赋能python:Python3.9.7安装指南

Python 3.9.7安装指南 Python是一种高级编程语言,得到了越来越多的使用,并且在机器学习、数据科学和网络开发中变得越来越重要。本篇文章将向大家介绍如何安装Python 3.9.7版本。 下载Python 3.9.7 首先,我们需要下载Python 3.9.7。你可以…

chatgpt赋能python:Python怎么安装Flask

Python怎么安装Flask Python是一种高级编程语言,常用于 Web 开发、人工智能、机器学习等领域。同时,Flask也是一个十分著名的Python Web框架,具有灵活、轻量级、易于扩展等特点。那么,如何在Python环境中安装Flask呢?…

chatgpt赋能python:Python安装PySpark:从入门到精通

Python安装PySpark:从入门到精通 PySpark是使用Python编写的Apache Spark API。它提供了一个Python接口来与Spark的分布式计算引擎进行交互。本文将介绍如何在Python中安装PySpark。 环境准备 在安装PySpark之前,您需要先安装以下依赖项: …

chatgpt赋能python:如何安装Python3.4

如何安装Python 3.4 简介 Python是一种流行的编程语言。它易于学习,具有可读性,且适用于多种用例。Python的版本非常多,但是Python 3.4是最新的稳定版本之一。 在本文中,我们将介绍如何更轻松地安装Python 3.4。 步骤 安装Py…

NLP学习笔记七-多层RNN和双向RNN

NLP学习笔记七-多层RNN和双向RNN 接着之前写的博客内容,多层RNN,其实就是在,simple RNN的基础上,再套一层或多层RNN单元。 看如下网络结构图: 上图中A就是表示一个RNN网络,这里,其实有一个疑…

chatgpt赋能python:Python与前端连接:使用Python的Web框架构建后端API

Python与前端连接:使用Python的Web框架构建后端API Python是一种强大的编程语言,越来越受到开发者的欢迎。但是,对于Web开发,Python并不是一种前端语言。那么,如何将Python的后端与前端连接起来?本文将介绍…

Java ~ Reference ~ Cleaner【总结】

前言 文章 相关系列:《Java ~ Reference【目录】》(持续更新)相关系列:《Java ~ Reference ~ Cleaner【源码】》(学习过程/多有漏误/仅作参考/不再更新)相关系列:《Java ~ Reference ~ Cleaner…

[java]关于Session关于Token关于JWT

目录 关于Session 关于Token 关于JWT 关于Session HTTP协议是一种无状态协议,即:当某个客户端向服务器发起请求,服务器端进行处理,后续,此客户端再次发起请求,服务器端并不能直接知道它就是此前来访过的…

chatgpt赋能python:Python怎么多行输入?教你高效开发!

Python怎么多行输入?教你高效开发! 1. 介绍 Python是一种可读性高、可编程性强、拥有丰富的第三方模块和库的高级编程语言。作为典型的解释型语言,它可在多个平台上进行开发和运行,凭借其优雅、简洁、高效的语法风格和强大的功能…

Linux下C/C++ 多线程SSH扫描与暴力攻击

Secure Shell(安全外壳协议,简称SSH)是一种加密的网络传输协议,可在不安全的网络中为网络服务提供安全的传输环境。SSH通过在网络中建立安全隧道来实现SSH客户端与服务器之间的连接。 为什么需要SSH 如果没有SSH,绝大…

chatgpt赋能python:Python怎么安装skimage?

Python怎么安装skimage? 如果你之前使用Python编程,你可能会遇到需要安装第三方库的情况。对于图像处理任务,你可能需要用到scikit-image(也称为skimage)这个库。本文将提供一个详细的指南来安装skimage。 1. 确保你…

【JVM篇】类加载过程详解

目录 1、类加载过程概述 2、加载 3、连接 3.1 验证 3.1.1 文件格式验证 3.1.2 元数据验证 3.1.3 字节码验证 3.1.4 符号引用验证 3.2 准备 3.3 解析 4、初始化 1、类加载过程概述 想必大家一般在网上看类加载过程的资料时,通常资料只会将类加载过程概括…

OMG--DDS(Data Distribution Service)

OMG--DDS(Data Distribution Service) 1 介绍1.1 概述1.2 OMG 涉及的规范 2 内容概述介绍目标 Data-Centric Publish-Subscribe (DCPS) 以数据为中心的发布-订阅概要Platform Independent Model (PIM) 平台独立模型格式和约定概念图总体概念模型PIM 描述…

ChatGPT工作提效之数据可视化大屏组件Echarts的实战方案(大数据量加载、伪3D饼图、地图各省cp中心坐标属性、map3D材质)

ChatGPT工作提效系列文章目录 ChatGPT工作提效之初探路径独孤九剑遇强则强ChatGPT工作提效之在程序开发中的巧劲和指令(创建MySQL语句、PHP语句、Javascript用法、python的交互)ChatGPT工作提效之生成开发需求和报价单并转为Excel格式ChatGPT工作提效之小鹅通二次开发批量API对…

【电路】电路与电子技术基础 课堂笔记 第7章 晶体管放大电路

7.1 放大的概念 7.1.1 放大电路基础 放大电路可以将电信号不失真地进行放大,而且是幅度放大; 本质上,放大是对能量进行控制和转换, 由一个能量较小的输入信号控制直流电源, 将直流电源的能量转换成与输入信号频率…

yolov8量化部署(基于openvino和tensorrt)

yolov8 openvino量化部署 环境配置: pip install ultralytics && pip install openvino-dev将pytorch模型转为openvino模型: from ultralytics import YOLO# Load a model model YOLO("./yolov8n.pt") # load an official model# Export the…

S7-200 PLC编程软件介绍

更多关于西门子S7-200PLC内容请查看:西门子200系列PLC学习课程大纲(课程筹备中) 西门子200PLC编程软件采用的是STEP 7-Micro/WIN 软件。它可以进行编写程序,PLC程序下载与上传,编程向导,程序编译,PLC程序监控等等功能…

软件工程开发文档写作教程(12)—概要设计书的编制目标

本文原创作者:谷哥的小弟作者博客地址:http://blog.csdn.net/lfdfhl本文参考资料:电子工业出版社《软件文档写作教程》 马平,黄冬梅编著 概要设计书概述 《概要设计说明书》又称为《系统设计说明书》,编制的目的是说明…

Cracking C++(10): 基本的输入输出流

文章目录 1. 目的2. I/O Streams 输入/输出流3. Stream Operators 流操作符4. 禁止使用 std::endl5. 缓冲区:直观理解6. References 1. 目的 查看 hackingcpp 上的 Input & Output (Basics) 教程后的笔记和拓展内容。 2. I/O Streams 输入/输出流 使用 C 的标…