大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 聚合组 RowKeys

news2025/1/7 18:28:18

点一下关注吧!!!非常感谢!!持续更新!!!

目前已经更新到了:

  • Hadoop(已更完)
  • HDFS(已更完)
  • MapReduce(已更完)
  • Hive(已更完)
  • Flume(已更完)
  • Sqoop(已更完)
  • Zookeeper(已更完)
  • HBase(已更完)
  • Redis (已更完)
  • Kafka(已更完)
  • Spark(已更完)
  • Flink(已更完)
  • ClickHouse(已更完)
  • Kudu(已更完)
  • Druid(已更完)
  • Kylin(正在更新…)

章节内容

上节我们完成了如下的内容:

  • Cube 剪枝优化
  • 检查 Cube 数量、大小
  • 案例 1:定义衍生维度及对比(整体详细流程)

在这里插入图片描述

定义Cube7

省略Model等操作。
构建前面Cube4类似的Cube7,仅在维度定义有区别。(我这里是Clone Cube4,然后修改的)
wzk_test_kylin_cube_7的字段中,都是Normal:
在这里插入图片描述
生成的如下图:
在这里插入图片描述

构建Cube7

在这里插入图片描述

大小对比

查看Size的对比:
由于之前数据太多跑的太慢,我的 cube-4 是125条数据占用22KB,我的cube-7是15条占用9KB。
在这里插入图片描述
粗略可以估计出来,cube-7的大小要比cube-4的大小大很多(如果同数据量的话)

精度对比

wzk_kylin_test_cube_4

kylin.sh org.apache.kylin.engine.mr.common.CubeStatsReader wzk_kylin_test_cube_4

对应的信息如下:
在这里插入图片描述

wzk_kylin_test_cube_7

kylin.sh org.apache.kylin.engine.mr.common.CubeStatsReader wzk_kylin_test_cube_7

对应的信息如下:
在这里插入图片描述

聚合组

随着维度数目的增加,Cuboid的数量会爆炸式的增长,为了缓解Cube的构建压力,Apache Kylin 引入了一系列高级的设置,帮助用户筛选出真正需要的Cuboid(本质是要减少Cube构建过程中的预计算),这些高级设置包括:

  • 聚合组(Aggregation Group)
  • 强制维度(Mandatory Dimension)
  • 层级维度(Hierachy Dimension)
  • 联合维度(Joint Dimension)

在这里插入图片描述
默认Kylin会把所有维度放在同一个聚合组中
如果维度数较多(如维度数>15),建议用户根据查询的习惯和模式,将维度分布到多个聚合组中。通过使用多个聚合组,可以大大降低Cube中的Cuboid数量。
如一个Cube有(M+N)个维度:

  • 这些维度放在一个聚合组中,默认有2^(M+N)个Cuboid
  • 将这些维度分为两个不相交的聚合组,第一个组有M个维度,第二个组有N个维度。那么Cuboid的总数为(2^M + 2^N)个维度
  • 一个维度可以出现在多个聚合组中

在单个组合组中,可以对维度设置一些高级属性,包括强制思维、层级维度、联合维度。一个维度只能出现在一个属性组中。
构建N个维度的Cube会生成的2^N个Cuboid,如下图所示,构建一个4个维度(A、B、C、D)的Cube,需要生成16个Cuboid。
在这里插入图片描述
根据用户关注的维度组合,可以维度划分不同的组合类,这些组合类在Kylin中被称为聚合组,如用户仅仅关注维度AB组合和维度CD组合,那么该Cube则可以被分化成两个聚合组,分别是聚合组AB和聚合组CD。生成的Cuboid数目从16个缩减为8个。
在这里插入图片描述
用户关心的聚合组之间可能包含相同的维度,如聚合组ABC和聚合组BCD都包含维度B和维度C,这些聚合组之间会衍生相同的Cuboid。聚合组ABC会产生Cuboid BC,聚合组BCD也会产生Cuboid BC。
这些Cuboid不会重复生成,一份Cuboid为这些聚合组所共有。
在这里插入图片描述
有了聚合组就可以粗粒度的对Cuboid进行筛选,获取自己想要的维度组合。Kylin的建模需要业务专家参数。

强制维度(Mandatory Dimension)

强制/必要 维度:指的是那些总会出现在Where条件或Group By语句中的维度。
通过指定某些维度为强制维度,Kylin不预计算那些不包含此维度的Cuboid,从而减少计算量。
维度A是强制维度,那么生成的Cube如下图所示,维度数从16变成9。
在这里插入图片描述

层级维度(Hierachy Dimension)

层级维度:是指一组有层级关系的维度
维度中常常会出现具有层级关系的维度,例如:国家、省份、城市这三个维度,从上而下来说:国家/省份/城市之间分别是一对多的关系。假设维度A代表国家,维度B代表省份,维度C代表城市,ABC三个维度可以被设置为层级维度,生成的Cube如下图所示:
在这里插入图片描述
Cuboid[A,C,D] = Cuboid[A,B,C,D], Cuboid[B,D] = Cuboid[A,B,D],因而Cuboid[A,C,D] 和 Cuboid[B,D] 就不必重复存储。

联合维度(Joint Dimension)

联合维度:是将多个维度视作一个维度,在进行组合计算的时候,它们要么一起出现,要么均不出现。
通常适用于以下几种情形:

  • 总是在一起查询的维度
  • 彼此之间有一定映射关系,如USER_ID和EMAIL
  • 基数很低的维度,如性别、布尔类型的属性

维度的基数:维度有多少个不同的值。
联合维度并不关心维度之间各种细节的组合方式,如用户查询语句中仅仅会出现GROUP BY A,B,C,而不会出现GROUP BY A、B或者GROUP BY C等等这细化的维度组合。这一类问题就是联合维度所解决的问题。

例如将A、B、C定义为联合维度,Apache Kylin就仅仅构建Cuboid ABC,而Cuboid AB、BC、A等等Cuboid都不会被生成,最终Cube结果如下图所示的,Cuboid数目从16减少到4:

在这里插入图片描述

总结内容

  • 在单个聚合组中,可以对维度进行设置,包括强制维度、层级维度、联合维度。
  • 强制维度:指的是那些总会出现在Where条件或者GROUP BY子句中的维度
  • 层级维度:一组具有层级关系的维度(如:国家、省、市)
  • 联合维度:将多个维度看成一个角度,要么一起出现,要么都不出现

RowKeys

简单的说Cuboid的维度会映射为HBase的Rowkey,Cuboid的指标会映射为HBase的Value。
在这里插入图片描述

  • 如上图原始表所示:Hive表有两个维度列year、city,有一个指标列 price。
  • 如上图预聚合表所示:我们具体要计算的是year和city这两个维度所有维度组合(即4个cuboid)下的sum(prices)指标,这个指标的具体计算过程就由MapReduce完成的。
  • 如上图的字典编码所示:为了节省存储资源,Kylin对维度值进行了字典编码,图中将beijing和shanghai依次编码0和1。
  • 如上图HBase KV存储所示:在计算Cuboid过程中,会将Hive表的数据转换为HBase的KV形式。Rowkey的具体格式是 Cuboid id + 具体的维度值(最新的Rowkey中为了并发查询还加入了Shard Key),以预聚合表内容的第2行为列,其维度组合是(year,city),所以Cuboid id就是00000011,Cuboid是8位,具体维度值是1994和shanghai,所以编码后的维度值对应上图的字典编码也是11,所以HBase的Rowkey就是00000011,对应HBase Value就是sum(price)的具体值。
  • 所有的Cuboid计算完成后,会将Cuboid转换为HBase的KeyValue格式生成HBase的HFile,最后将HFile Load进Cube对应的HBase表中。

在这里插入图片描述

编码

Kyelin以Key-Value的方式将Cube存储到HBase中,HBase的Key就是Rowkey,是由各维度的值拼接而成的,为了更高效的的存储这些值,Kylin会对它们进行编码和压缩,每个维度均可以选择合适的编码方式,为了更搞笑存储这些值,Kylin会对它们进行编码和压缩,每个维度均可以选择合适的编码方式,默认采用的是字典(Dictionary)编码技术。字段支持的基本编码类型如下:

  • Dictionary 字典编码将所有此维度下的值构成一张映射表,从而大大节约存储空间,适用于大部分字段,默认推荐使用。Dictionary产生的编码非常紧凑,尤其在维度的值基数小且长度大的情况下,但在超高基情况下,可能引起内存不足的问题,在Kylin中字典编码允许的基数上限默认是500万(由参数kylin.dictionay.max.cardinality配置)
  • boolean:适用于字段为:ture、false、TURE、FALSE、t、f、T、F、yes、no、YES、NO、y、n、Y、N、1、0
  • date:适用于字段为日期字符,支持的格式包括yyyyMMdd、yyyy-MM-dd、yyyy-MM-dd HH:mm:ss.SSS
  • time:适用于字段为时间戳字符,支持范围为[1970-01-01 00:00:00],[2038-01-09 03:14:07],毫秒部分会被忽略,time编码适用于time、datetime、timestamp等类型
  • fix_length:使用超高基环境,将选取字段的前N个字节为编码值,当N小于字段长度,会造成字段阶段,当N较大时,造成RowKey过长,查询性能下降,只适用于varchar、nvarchar类型
  • fixed_length_hex:适用于字段为十六进制字符,比如1A2BFF或者FF00FF,每两个字符需要一个字节,只适用于varchar或nvarchar类型

顺序

各维度在RowKeys中的顺序,对于查询的性能会产生较明显的影响,在这里用户可以根据查询的模式和习惯,通过拖拽的方式调整各个维度在RowKeys上的顺序,推荐的顺序为:

  • Mandatory 维度
  • where 过滤条件中出现频率较多的维度
  • 高基数维度
  • 低基数维度放后面
  • 不常用的维度放在后面
    这样做的好处是,充分利用过滤条件来缩小在HBase中扫描的范围,从而提高查询的效率。

分片

指定ShardBy的列,明细数据将按照该列的值分片,没有指定的ShardBy的列,则默认根据所有列中的数据进行分片,选择适当的ShardBy列,可以使明细数据较为均匀的分散在多个数据片上,提高并行性,进而获得更理想的查询。
建议选择基数较大的列作为ShardBy列,以避免数据分散不均匀。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2209758.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

物联网如何推动工业数字化转型?

全球步入数字经济时代,制造业的数字化转型已成为驱动经济发展的核心引擎。物联网作为工业数字化转型的强力推手,其深度融入不仅促进了生产流程的智能化与自动化,还实现了数据的实时分析与精准决策,为制造业企业带来了前所未有的创…

根据Vue对比来深入学习React 上 函数组件 jsx 事件绑定 响应式数据 条件绑定 列表渲染 表单绑定

文章目录 React项目创建React核心库介绍React组件jsx编写jsx代码的本质jsx里面渲染不同内容 事件绑定事件绑定其他操作特别注意 响应式数据setState 的特性 条件渲染列表循环表单绑定总结 React项目创建 react官网提供了很多生产级的React框架 比如next.js,不过你还…

python+selenium工具UI自动化全功能介绍(包括工具本身及配合RobotFramework框架和pytest框架应用)

文章较长,各位志同道合的朋友们,感谢关注收藏。 书山有路勤为径,学海无涯苦作舟。 ——韩愈,以山川学海比喻学习的艰辛与努力的方向。 明天的我们,必将会感谢昨日的自己。 1 UI自动化测试 UI自动化测试&#xff08…

ACwing题目分享 756

这个题看起来比较简单,但实际上有些思维难度,现在想到的是模拟法,我们可以设好边界,然后从左上角开始遍历,沿着题目要求的顺序,沿着top left right bottom这四个边依次来做。 模拟过程有很多坑&#xff0c…

基于Python Django的在线考试管理系统

🍊作者:计算机毕设匠心工作室 🍊简介:毕业后就一直专业从事计算机软件程序开发,至今也有8年工作经验。擅长Java、Python、微信小程序、安卓、大数据、PHP、.NET|C#、Golang等。 擅长:按照需求定制化开发项目…

【花卉识别系统】Python+卷积神经网络算法+人工智能+深度学习+图像识别+算法模型

一、介绍 花朵识别系统。本系统采用Python作为主要编程语言,基于TensorFlow搭建ResNet50卷积神经网络算法模型,并基于前期收集到的5种常见的花朵数据集(向日葵、玫瑰、蒲公英、郁金香、菊花)进行处理后进行模型训练,最…

(31)非零均值信号的时域分析:均值、方差、与功率

文章目录 前言一、使用MATLAB生成余弦波并画图二、计算信号的均值、方差、与功率三、结果分析 前言 本文对叠加了直流分量的一段整周期余弦信号进行时域分析,使用MATLAB进行信号生成,并计算其均值、方差、与功率。最后给出对计算结果的分析,…

Docker 教程二 (架构)

Docker 架构 Docker 包括三个基本概念: 镜像(Image):Docker 镜像(Image),就相当于是一个 root 文件系统。比如官方镜像 ubuntu:16.04 就包含了完整的一套 Ubuntu16.04 最小系统的 root 文件系统。容器&am…

【HKIE】2011 The HKIE Structural Examination

文章目录 2011 The HKIE Structural ExaminationQuestion 1 商业大厦 | Commercial Tower客户要求 | Clients Requirements荷载要求 | Imposed Loading场地条件 | Site Conditions不考虑的内容 | Omit from ConsiderationSection ASection B Question 2 办公大楼 | Office Buil…

管家婆-本地化-无法打开处理,链接失败

一、首先检测sql是否正常 二、检测管家婆svr是否正常 三、检测管家婆服务正常 阿雪技术观 拥抱开源与共享,见证科技进步奇迹,畅享人类幸福时光! 让我们积极投身于技术共享的浪潮中,不仅仅是作为受益者,更要成为贡献…

前端开发攻略---使用css实现滚动吸附效果

实现代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta name"viewport" content"widthdevice-width, initial-scale1.0" /><title>Document</title><style>…

【工具】音视频翻译工具基于Whisper+ChatGPT

OpenAI推出的开源语音识别工具Whisper&#xff0c;以其卓越的语音识别能力&#xff0c;在音频和视频文件处理领域大放异彩。与此同时&#xff0c;ChatGPT也在翻译领域崭露头角&#xff0c;其强大的翻译能力备受赞誉。因此&#xff0c;一些字幕制作团队敏锐地捕捉到了这两者的结…

Ubuntu卸载Mysql【ubuntu 24.04/mysql 8.0.39】

一、准备工作 查看ubuntu版本号 查看mysql版本号(如果没有安装mysql,这一步省略) 二、Ubuntu上卸载mysql(如果没有安装mysql这一步省略) 在Ubuntu上卸载MySQL可以通过以下步骤进行&#xff0c;确保完全移除MySQL相关的包和数据&#xff1a; 1. 停止MySQL服务 在卸载之前…

MySQL(B站CodeWithMosh)——2024.10.12(15)

ZZZZZZ目的ZZZZZZ代码ZZZZZZ重点ZZZZZZ操作&#xff08;非代码&#xff0c;需要自己手动&#xff09; 4- WITH OPTION CHECK子句 | THE WITH OPTION CHECK Clause_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1UE41147KC?p66&vd_sourceeaeec77dfceb13d96cce76cc2…

RabbitMQ 入门(三)SpringAMQP

一、Spring AMQP 简介 SpringAMQP是基于RabbitMQ封装的一套模板&#xff0c;并且还利用SpringBoot对其实现了自动装配&#xff0c;使用起来非常方便。 SpringAmqp的官方地址&#xff1a;https://spring.io/projects/spring-amqp SpringAMQP提供了三个功能&#xff1a; - 自动…

搭建`mongodb`副本集-开启权限认证 mongo:7.0.5

搭建mongodb副本集-开启权限认证 mongo:7.0.5 1.5.1、创建文件 创建配置文件保存目录和数据保存目录 mkdir -p /data/mongodb/{/conf,/data,/logs}生成和设置权限 这个文件一定要在一个服务里面生成然后复制到其它服务器&#xff0c;所有服务器的这个key一定是相同的。 op…

移动技术开发:保存密码和自动登录

1 实验名称 保存密码和自动登录 2 实验目的 掌握利用SharedPreference实现记住密码和自动登录功能。 3 实验源代码 布局文件代码&#xff1a; &#xff08;1&#xff09;activity_main.xml <?xml version"1.0" encoding"utf-8"?> <TableLa…

【深度学习】经典的深度学习模型-02 ImageNet夺冠之作: 神经网络AlexNet

【深度学习】经典的深度学习模型-02 ImageNet夺冠之作: 神经网络AlexNet Note: 草稿状态&#xff0c;持续更新中&#xff0c;如果有感兴趣&#xff0c;欢迎关注。。。 0. 论文信息 article{krizhevsky2012imagenet, title{Imagenet classification with deep convolutional n…

智能巡检机器人与智慧运维系统的结合应用

一、传统配电运维的困境 传统配电运维面临诸多难题。首先&#xff0c;劳动强度大&#xff0c;运维人员需要手持终端设备对配电站室内环境、电气设备上的各个仪器仪表参量等进行定时巡视&#xff0c;工作繁琐且易疲劳。其次&#xff0c;效率低下&#xff0c;巡查间隔时间较长&a…

构建高效购物推荐系统:SpringBoot实战

1系统概述 1.1 研究背景 如今互联网高速发展&#xff0c;网络遍布全球&#xff0c;通过互联网发布的消息能快而方便的传播到世界每个角落&#xff0c;并且互联网上能传播的信息也很广&#xff0c;比如文字、图片、声音、视频等。从而&#xff0c;这种种好处使得互联网成了信息传…