大数据-159 Apache Kylin 构建Cube 准备和测试数据

news2025/1/12 23:13:23

点一下关注吧!!!非常感谢!!持续更新!!!

目前已经更新到了:

  • Hadoop(已更完)
  • HDFS(已更完)
  • MapReduce(已更完)
  • Hive(已更完)
  • Flume(已更完)
  • Sqoop(已更完)
  • Zookeeper(已更完)
  • HBase(已更完)
  • Redis (已更完)
  • Kafka(已更完)
  • Spark(已更完)
  • Flink(已更完)
  • ClickHouse(已更完)
  • Kudu(已更完)
  • Druid(已更完)
  • Kylin(正在更新…)

章节内容

上节我们完成了如下的内容:

  • Apache Kylin 安装
  • Apache Kylin 部署
  • Apache Kylin 集群模式

在这里插入图片描述

Cube 介绍

Apache Kylin 是一个开源的分布式分析引擎,专注于提供大数据的实时OLAP(在线分析处理)能力。Cube(立方体)是 Apache Kylin 的核心概念之一,通过预计算大规模数据的多维数据集合,加速复杂的 SQL 查询。下面详细介绍 Cube 的关键点:

Cube 的基本概念

Kylin 中的 Cube 是通过对一组事实表(通常是业务数据表)进行多维建模后,生成的预计算数据结构。Cube 涉及对多维数据的度量和维度的组合,从而可以在查询时通过检索预先计算的结果来显著减少计算开销。

  • 维度(Dimension):数据中用于分组、筛选和切片的数据字段,例如时间、地区、产品等。
  • 度量(Measure):通常是需要进行聚合计算的数据字段,例如销售额、订单数等。
  • Cuboid:每个 Cube 由多个 Cuboid 构成,Cuboid 是一个特定维度组合的子集。Cube 中每种维度组合都会生成一个 Cuboid,每个 Cuboid 存储了该组合下的预聚合结果。

Cube 的创建过程

  • 数据建模:首先在 Kylin 中创建一个数据模型(Data Model),这个模型定义了事实表和维度表之间的关系,类似于星型或雪花型模式。模型中也定义了需要聚合的度量字段。
  • Cube 设计:基于数据模型设计 Cube,指定 Cube 的维度和度量。Kylin 会根据定义自动计算所有可能的维度组合(Cuboid)。
  • 构建 Cube:构建过程会读取底层数据源(如 Hive、HBase、Kafka),然后根据指定的维度和度量生成每个 Cuboid 的预计算数据。这些预计算结果存储在 HBase 或其他存储引擎中。

Cube 的查询与优化

  • 查询加速:当有 SQL 查询请求到达时,Kylin 会根据查询所涉及的维度组合,选择合适的 Cuboid 返回结果,避免了实时计算,极大地提高了查询性能。
  • Cube 优化:为了控制 Cube 大小和加速构建,Kylin 支持裁剪 Cube,通过配置仅生成部分 Cuboid,这称为“Aggregation Group”,可以减少冗余计算。

实时 OLAP

Kylin 4.0 引入了对实时 OLAP 的支持,使用 Kafka 作为实时数据流输入,构建实时 Cube。通过使用 Lambda 架构,Kylin 可以支持实时和批处理数据的整合分析。

Cube 的典型应用场景

  • 大规模数据分析:Cube 适用于分析超大规模的数据集,通过预计算方式加速查询。
  • 实时分析:实时 Cube 允许用户在近乎实时的基础上分析流数据。
  • 商业智能(BI)工具的集成:Kylin 提供与 Tableau、Power BI 等常见 BI 工具的集成,用户可以使用熟悉的 SQL 查询语言进行复杂的多维分析。

前置要求

需要你配置并且启动好了 Kylin!
由于我是在 h122.wzk.icu 节点上启动的,所以下面的操作都在 h122 节点上,后续没有详细说明就是在该机器上了。

准备数据

在这里插入图片描述

准备数据

将4个数据文件:

  • dw_sales_data.txt
  • dim_channel_data.txt
  • dim_product_data.txt
  • dim_region_data.txt

我写了几个脚本来辅助生成数据
在这里插入图片描述

dw_sales_data

import random
import datetime

# 设置参数
num_records = 1000
output_file = 'dw_sales_data.txt'

# 定义可能的值
channel_ids = ['C001', 'C002', 'C003', 'C004']
product_ids = ['P001', 'P002', 'P003', 'P004']
region_ids = ['R001', 'R002', 'R003', 'R004']
base_date = datetime.date(2024, 1, 1)

# 生成数据
with open(output_file, 'w') as f:
    for i in range(num_records):
        record_id = f"{i+1:04d}"
        date1 = (base_date + datetime.timedelta(days=random.randint(0, 365))).strftime('%Y-%m-%d')
        channel_id = random.choice(channel_ids)
        product_id = random.choice(product_ids)
        region_id = random.choice(region_ids)
        amount = random.randint(1, 100)
        price = round(random.uniform(10.0, 500.0), 2)
        
        line = f"{record_id},{date1},{channel_id},{product_id},{region_id},{amount},{price}\n"
        f.write(line)

print(f"{num_records} records have been written to {output_file}")

生成数据如下图所示:
在这里插入图片描述

dim_channel_data

# 设置参数
output_file = 'dim_channel_data.txt'

# 定义渠道ID和渠道名称
channels = [
    ('C001', 'Online Sales'),
    ('C002', 'Retail Store'),
    ('C003', 'Wholesale'),
    ('C004', 'Direct Sales')
]

# 生成数据
with open(output_file, 'w') as f:
    for channel_id, channel_name in channels:
        line = f"{channel_id},{channel_name}\n"
        f.write(line)

print(f"Channel data has been written to {output_file}")

生成数据如下图所示:
在这里插入图片描述

dim_product_data

# 设置参数
output_file = 'dim_product_data.txt'

# 定义产品ID和产品名称
products = [
    ('P001', 'Smartphone'),
    ('P002', 'Laptop'),
    ('P003', 'Tablet'),
    ('P004', 'Smartwatch'),
    ('P005', 'Camera'),
    ('P006', 'Headphones'),
    ('P007', 'Monitor'),
    ('P008', 'Keyboard'),
    ('P009', 'Mouse'),
    ('P010', 'Printer')
]

# 生成数据
with open(output_file, 'w') as f:
    for product_id, product_name in products:
        line = f"{product_id},{product_name}\n"
        f.write(line)

print(f"Product data has been written to {output_file}")

生成数据如下图所示:
在这里插入图片描述

dim_region_data

# 设置参数
output_file = 'dim_region_data.txt'

# 定义区域ID和区域名称
regions = [
    ('R001', 'North America'),
    ('R002', 'Europe'),
    ('R003', 'Asia'),
    ('R004', 'South America'),
    ('R005', 'Africa'),
    ('R006', 'Australia'),
    ('R007', 'Antarctica')
]

# 生成数据
with open(output_file, 'w') as f:
    for region_id, region_name in regions:
        line = f"{region_id},{region_name}\n"
        f.write(line)

print(f"Region data has been written to {output_file}")

生成的数据如下图所示:
在这里插入图片描述

kylin_examples.sql

-- 创建订单数据库、表结构
create database if not exists `wzk_kylin`;
-- 1、销售表:dw_sales
-- id 唯一标识
-- date1 日期
-- channelId 渠道ID
-- productId 产品ID
-- regionId 区域ID
-- amount 数量
-- price 金额
create table wzk_kylin.dw_sales(
  id string,
  date1 string,
  channelId string,
  productId string,
  regionId string,
  amount int,
  price double
)ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
-- 2、渠道表:dim_channel
-- channelId 渠道ID
-- channelName 渠道名称
create table wzk_kylin.dim_channel(
  channelId string,
  channelName string
)ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
-- 3、产品表:dim_product
create table wzk_kylin.dim_product(
  productId string,
  productName string
)ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
--4、区域表:dim_region
create table wzk_kylin.dim_region(
  regionId string,
  regionName string
)ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

-- 导入数据
LOAD DATA LOCAL INPATH '/opt/wzk/kylin_test/dw_sales_data.txt'
OVERWRITE INTO TABLE wzk_kylin.dw_sales;
LOAD DATA LOCAL INPATH '/opt/wzk/kylin_test/dim_channel_data.txt'
OVERWRITE INTO TABLE wzk_kylin.dim_channel;
LOAD DATA LOCAL INPATH '/opt/wzk/kylin_test/dim_product_data.txt'
OVERWRITE INTO TABLE wzk_kylin.dim_product;
LOAD DATA LOCAL INPATH '/opt/wzk/kylin_test/dim_region_data.txt'
OVERWRITE INTO TABLE wzk_kylin.dim_region;

运行数据

我们需要把刚才的数据上传到指定目录上,/opt/wzk/目录下。

cd /opt/wzk/kylin_test

我已经上传到服务器上了:
在这里插入图片描述

SQL文件也记得上传上去
在这里插入图片描述
执行Hive:

hive -f kylin_examples.sql

执行结果如下图所示:
在这里插入图片描述

测试数据

我们需要启动Hive

hive

执行结果如下图所示:
在这里插入图片描述
执行如下的指令:

use wzk_kylin;
select date1, sum(price) as total_money, sum(amount) as
total_amount
from dw_sales
group by date1;

执行结果如下图所示:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2201682.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AI会计师——让AI+成就价值财务

摘要:用友携手CCTV-10联合策划《AI会计师》专题节目 目录 Part1 数智化凭证采集 Part2 智能月结 Part3 税务风险管控 Part1 数智化凭证采集 AI会计师,源自对大数据、人工智能、云计算等前沿技术的深度融合。它不仅仅是一款软件,更是企业智能…

Java 17 数组最全解读篇(3w字图文并茂)

小熊学Java:https://www.javaxiaobear.cn,包含了海量的面试题和Java学习资料,是一个全能学习的站点,强烈推荐!!! 1. 数组的概述 1.1 为什么需要数组 需求分析1: 需要统计某公司50…

探索远程控制下载工具的奇妙世界

远程控制技术为我们的生活和工作带来了极大的便利。比如协助他人解决电脑问题、远程办公等等。今天我们一同来探讨向日葵远程控制下载软件和其他远程控制软件的奇妙世界。 1.向日葵远程控制 链接直通车:https://down.oray.com 想必很多人都听说过这款软件的卓越声…

如何用AI两小时上线自己的小程序

ChatGPT这个轰动全球的产品自问世以来,已经过了将近2年的时间,各行各业的精英们如火如荼的将AI能力应用到自己生产的产品中来。 为分担人类的部分工作,AI还具有非常大的想象空间,例如对于一个程序员来说,使用AI生成快…

2024 全新视角:MBTI 报告 API 接口登场

MBTI(Myers-Briggs Type Indicator)是一种常用的心理学测量工具,通过分析个体在四个维度上的偏好,将人们分为16种不同的人格类型。随着人工智能和数据科学的快速发展,现在我们有了全新的方式来获取和分析MBTI报告&…

[考研数学]多元函数,向量函数,向量场辨析

参考视频:【【高等数学】多元函数,向量函数,向量场这些概念你能分得清吗?】 首先这几个都是映射 我们求的梯度就是多元函数里面的概念。 我们求的散度和旋度是向量场里面的概念。 多元函数多维到一维的意思是比如说输入一个点&am…

ChatGPT可以分析股票吗?

结合国庆前大A股市的小波牛市以及今天的股市表现,我从多个角度为你提供一些分析和建议: 一、国庆前的小波牛市分析 国庆前,大A股市出现了一波小幅上涨,市场呈现出一些积极的信号: 政策面利好:政府出台了…

A股知识答题pk小程序怎么做?

A股知识答题pk小程序怎么做?以下是制作A股知识答题PK小程序的一般步骤: 一、 需求分析与规划: 明确目标:确定小程序的主要目标,比如是为了帮助用户学习A股知识、进行趣味竞赛,还是作为金融教育工具等。 …

Python 如何使用 SQLAlchemy 进行复杂查询

Python 如何使用 SQLAlchemy 进行复杂查询 一、引言 SQLAlchemy 是 Python 生态系统中非常流行的数据库处理库,它提供了一种高效、简洁的方式与数据库进行交互。SQLAlchemy 是一个功能强大的数据库工具,支持结构化查询语言(SQL)…

Otter Wiki:用 Python 和 Markdown 搭建你的小型知识库,三步搞定!

你有没有想过,有没有一种工具可以轻松管理你的个人知识库,还不用费力学习复杂的操作系统?今天,我们来聊聊 Otter Wiki,一个由 Python、Markdown 和 Git 支撑的小型 Wiki 系统,让你能快速构建属于自己的知识管理工具,完全不需要依赖庞大的平台。 为什么选择 Otter Wi…

《向量数据库指南》深度解读:CLIP模型架构与Mlivus Cloud的向量数据库应用实践

在当今这个数据驱动的时代,向量数据库以其高效、灵活的特性,在AI应用、大数据处理等领域发挥着越来越重要的作用。作为大禹智库的向量数据库高级研究员,同时也是《向量数据库指南》的作者,我深知向量数据库技术的核心价值和未来发展潜力。今天,我们将一起深入探讨CLIP模型…

鸟哥的linux私房菜-基础篇-第四版

第六章 文件与目录 6.1 目录与路径 6.1.2 目录的相关操作 cd:变换目录pwd:显示当前目录mkdir:建立一个新的目录rmdir:删除一个空的目录 cd dmtsai 这个用户的家目录是/home/dmtsai/,而 root 家目录则是/root/&…

LEAP模型的低碳路径建模与温室气体核算方法!详细

LEAP 模型(Long-range Energy Alternatives Planning System),即低排放分析系统,是一个基于情景分析的自底向上的能源—环境核算工具,由斯德哥尔摩环境研究所与美国波士顿大学共同开发。LEAP拥有灵活的结构&#xff0c…

算法笔记(十五)——BFS 解决拓扑排序

文章目录 拓扑排序课程表课程表 II火星词典 拓扑排序 有向无环图(DAG图) 有向无环图指的是一个无回路的有向图 AOV网:顶点活动图 在有向无环图中,用顶点表示一个活动,用边来表示活动的先后顺序的图结构 拓扑排序 找到一…

鸿蒙HarmonyOS中Image图片组件以及HarmonyOs图标库完全解析

Image 图片组件,支持本地图片和网络图片的渲染展示。 一 、加载网络图片 1 、需要在 src/main/module.json5 中申请网络权限 "requestPermissions": [ { "name": "ohos.permission.INTERNET" } ] 详情参考: https://d…

展览会:企业宣传和推广的重要平台之一

在当今这个信息爆炸、市场竞争日益激烈的时代,展会作为企业与市场直接对话的重要桥梁,其推广的重要性愈发凸显。展会不仅是产品展示、技术交流的平台,更是品牌塑造、市场拓展的关键一环。 一、提升品牌知名度与形象 展会是企业向外界展示自…

新一届诺贝尔奖揭晓,能否为医学AI领域带来一些启发?|个人观点·24-10-09

小罗碎碎念 还未从microRNA的知识海洋中抽身出来,又要面对受限玻尔兹曼机带来的冲击。 这两天随着诺贝尔奖的公布,学术界可谓是热闹非凡,我也正好趁着这个机会,拾起停更半个月的公众号。 作为医学人工智能研究大军中的一员&#…

各省财政涉农支出统计(2001-2022年)

财政涉农支出是指政府预算中用于支持农业、农村和农民发展的财政支出,旨在促进农村经济的发展,提高农民收入,改善农村生产生活条件,推进农业现代化。 2001年-2022年各省财政涉农支出统计(数据整理).zip资源…

Linux平台Kafka高可用集群部署全攻略

🐇明明跟你说过:个人主页 🏅个人专栏:《大数据前沿:技术与应用并进》🏅 🔖行路有良友,便是天堂🔖 目录 一、引言 1、Kafka简介 2、Kafka核心优势 二、环境准备 1…

Android SELinux——安全策略(三)

SELinux 通过严格的访问控制机制增强了 Linux 系统的安全性。它通过标签和安全策略来控制进程和文件的访问权限,从而保护系统免受未经授权的访问和攻击。 一、策略介绍 1、主要组件 安全标签(Security Labels):每个文件、目录、…