clickhouse-题库

news2024/12/26 1:51:05

1、clickhouse介绍以及架构

clickhouse一个分布式列式存储数据库,主要用于在线分析查询

2、列式存储和行式存储有什么区别?

行式存储:
1)、数据是按行存储的
2)、没有建立索引的查询消耗很大的IO
3)、建立索引和视图花费一定的物理空间和时间资源
4)、面对大量的查询,复杂的复杂的数据库必须使用大量性能才能满足

列式存储:
1)、数据按列存储,每一列单独存放
2)、只访问查询设计的列,大量降低系统的IO
3)、数据类型一致,数据特征相似就可以高效的压缩

优势:

分析场景中往往需要读大量行但是少数几个列。在行式存模式下,数据按行连续存储,所有列的数据都存储在一个block中,不参与计算的列在IO时也要全部读出,读取操作被严重放大。而列存模式下,只需要读取参与计算的列即可,极大的减低了IO
cost,加速了查询。
同一列中的数据属于同一类型,压缩效果显著。列存往往有着高达十倍甚至更高的压缩比,节省了大量的存储空间,降低了存储成本。
更高的压缩比意味着更小的 data size,从磁盘中读取相应数据耗时更短。
自由的压缩算法选择。不同列的数据具有不同的数据类型,适用的压缩算法也就不尽相同。可以针对不同列类型,选择最合适的压缩算法。
高压缩比,意味着同等大小的内存能够存放更多数据,系统cache效果更好。

3、高吞吐写入

CK采用LSM Tree结构,数据写入后定期在后台compaction,因为是LSM Tree,ck在数导入的时候全部都是顺序append;数据会在后台一定时候compaction,但是只要是查询时候,会自动的compaction

4、ck中的数据类型

整型(包括有符号和无符号):int8、int16、int32、int64
浮点型:float32、float64
Decimal:
布尔型:
字符串:string、fixedstring(fixedstring使用null字节填充末尾字符)
枚举类型:
时间类型:datetime精确到秒、datetime64精确到亚秒、date只精确到天
数组类型:

5、表引擎

表引擎是ck的特色,决定了如何存储表
日志系列引擎

1)、tinylog 以列文件的形式保存在磁盘上,不支持索引,没有并发控制,一般保存少量数据的小表
2)、log和StripeLog

memory

内存引擎,数据以未压缩的原始形式直接保存在内存当中,服务器重启数据就会消失,读写操作不会相互阻塞,不支持索引

合并树家族引擎

mergeTree 是ck中最强大的表引擎,支持数据分区、主键索引、数据副本、数据采样等特性,相当于mysql中的innodb
分区目录:是以列文件+索引文件+表定义文件组成的
数据写入与分区合并:任何一个批次的数据写入都会产生一个临时分区,不会纳入任何一个已有的分区,一段时间过后,ck会自动执行合并操作,把临时分区的数据合并到已有的分区中(也可以手动使用optimize执行)

Primary key:主键并不用于去重,而是用于索引,加快查询速度,默认的索引粒度为8192行,为数据生成以及索引并保存到primary.idx文件内,索引数据按照primary
key排序;稀疏索引只需要少量的索引标记就能够记录大量的数据区间位置信息。数据量越大越明显
跳数索引/二级索引:在一级索引的基础之上再加一层索引,它们使ClickHouse能够跳过保证没有匹配值的数据块。——INDEX a
total_amount TYPE minmax GRANULARITY 5
(如果是把一级索引分成几块,那么二级索引的粒度就是每次可以跳几块)GRANULARITY。每个索引块由颗粒(granule)组成。例如,如果主表索引粒度为8192行,GRANULARITY为4,则每个索引“块”将为32768行。

repacingMergeTree 存储特征完全继承MergeTree,会删除排序键值相同的重复项。
ReplacingMergeTree和MergeTree的不同之处在于它会删除排序键值相同的重复项。
数据的去重只能在compaction中出现,合并会在未知的时间在后台进行或者使用optiumize进行(大会引发对数据的大量读写)

使用ORBER BY排序键作为判断重复数据的唯一键。
只有在合并分区的时候才会触发删除重复数据的逻辑。
以数据分区为单位删除重复数据。当分区合并时,同一分区内的重复数据会被删除;不同分区之间的重复数据不会被删除。
在进行数据去重时,因为分区内的数据已经基于ORBER BY进行了排序,所以能够找到那些相邻的重复数据。
在数据合并的时候,ReplacingMergeTree 从所有具有相同排序键的行中选择一行留下:如果ver列未指定,保留最后一条。如果ver列已指定,保留ver值最大的版本。

SummingMergeTree

不查询明细。只关心进行汇总聚合结果的场景,提供一种预聚合的功能 以order
by的列合并为准,作为维度列、不在一个分区内的数据不会被聚合,只有在用一批次插入的数据才会进行聚合
-ClickHouse会把所有具有相同主键的行合并为一行,该行包含了被合并的行中具有数值数据类型的列的汇总值。

AggregatingMergeTree

可以理解为SummingMergeTree的升级版,能够在合并分区时候,按照预先定义的条件聚合数据,同时根据预先定义的聚合函数计算数据并得到二进制的格式存入表内
AggregateFunction类型字段使用二进制存储,在写入数据时,需要调用state函数;在读数据时,需要调用merge函数,*表示定义时使用的聚合函数
AggregateMergeTree通常作为物化视图的引擎,与普通的MergeTree搭配使用 CollapsingMergeTree
以增代删的思路,支持行级数据修改和删除的表引擎,通过一个sign标记位字段,记录数据行的状态,如果sign标记为1,表示这是一行有效的数据,如果sign为-1,表示改行数据需要被删除,当进行分区合并时候,同一数据分区内,sign为1和-1的一组数据会被抵消

VersionedCollapsingMergeTree

VersionedCollapsingMergeTree数据折叠也是发生在分区合并时,只会对同分区的数据进折叠

6、Update和delete

ck提供了delete和update能力,被称为mutation,但是一种很重的操作,不支持事务,原因是每次修改或者和删除都会放弃目标数据的原有分区,重建新的分区,所以尽量做批量的变更,不进行小数据的操作
原理:分两步执行,同步执行的部分其实只是进行新增数据新增分区和并把旧分区打上逻辑上失效的标记,直到触发分区合并的时候,才会删除数据释放磁盘空间

7、分片集群

副本可以提高数据的可用性,但每台服务器实际上必须是安全量数据,对数据的横向扩容没有解决
分片是把一份完整的数据进行切分,不同的分片分布到不同的节点上,在通过distributed表引擎把数据拼接起来,该引擎本身不存数据

8、建表优化

为什么ck中能用数值或者日期时间类型就不用字符串:
ck底层将datetime存储为时间戳long类型。但不建议存储long类型,datetime不需要经过含函数转换处理,执行效率高、可读性好
空值存储
nullable类型会拖慢性能,因为存储nullable时候需要创建一额外的文件来存储null的标记,nullable列无法被索引,一般在业务中采用一个没有实际意义的值代替(-1,0,1)
表参数
如果表中不是必须要保留的全量数据,一般指定TTL,避免手动删除过期数据的麻烦
写入和删除优化
不要执行单条或者小批量的插入删除操作,会产生小分区文件(因为每一次插入都会重新分区),给merge任务带来巨大压力,不要一次写入过多分区,或者数据写入太快——会导致merge速度跟不上而报错
谓词下推
所谓的谓词,就是对数据的筛选行为,下推是尽可能将这些筛选条件优先执行(查询的最低端)
聚合计算外推
聚合函数内的计算会外推
聚合函数消除

9、分片集群

副本可以提高数据的可用性,但每台服务器实际上必须是安全量数据,对数据的横向扩容没有解决
分片是把一份完整的数据进行切分,不同的分片分布到不同的节点上,在通过distributed表引擎把数据拼接起来,该引擎本身不存数据

10、建表优化

为什么ck中能用数值或者日期时间类型就不用字符串:
ck底层将datetime存储为时间戳long类型。但不建议存储long类型,datetime不需要经过含函数转换处理,执行效率高、可读性好
空值存储
nullable类型会拖慢性能,因为存储nullable时候需要创建一额外的文件来存储null的标记,nullable列无法被索引,一般在业务中采用一个没有实际意义的值代替(-1,0,1)
表参数
如果表中不是必须要保留的全量数据,一般指定TTL,避免手动删除过期数据的麻烦
写入和删除优化
不要执行单条或者小批量的插入删除操作,会产生小分区文件(因为每一次插入都会重新分区),给merge任务带来巨大压力,不要一次写入过多分区,或者数据写入太快——会导致merge速度跟不上而报错
谓词下推
所谓的谓词,就是对数据的筛选行为,下推是尽可能将这些筛选条件优先执行(查询的最低端)
聚合计算外推
聚合函数内的计算会外推
聚合函数消除

11、查询优化

1)、prewhere代替where
两者的作用相同,不同之处在于perwhere只支持MergeTree系列引擎的表,会先判断数据过滤,等待数据过滤之后再读取select系列字段补全,prewhere最多可提高十倍性能,也会自动优化

2)、数据采样
采样修饰符只有在 MergeTree engine 表中才有效,且在创建表时需要指定采样策略。

3)、列裁剪与分区裁剪
数据量太大时应避免使用 select * 操作,查询的性能会与查询的字段大小和数量成线性 表换,字段越少,消耗的 io 资源越少,性能就会越高。

4)、orderby 结合 where、limit

5)、uniqCombined 替代 distinct
性能可提升 10 倍以上,uniqCombined 底层采用类似 HyperLogLog 算法实现,能接收 2% 左右的数据误差,可直接使用这种去重方式提升查询性能。Count(distinct )会使用 uniqExact精确去重。

12、物化视图

视图只是保存了计算逻辑,不保存数据
视图和物化视图的区别:ck的物化视图是一种查询结果的持久化,用户查起来和普通的表没区别,也像是一张时时刻刻计算的表,
缺点:本质是一个流式数据的使用场景,如果一张表加了很多的物化视图,在写入的时候,就会消耗很多资源
物化视图中的数据是在创建物化视图之后,在往对应表中插入数据时候,对应数据才会写入到物化视图中;
物化视图的名字不能和表明重复

13、ck和mysql主从同步

1)、确保mysql和开启binlog和GTID模式(binglog:记录所有对数据库执行更改的sql语句,不包括查,二进制文件是mysql数据复制恢复;GTID是一种复制方式,通过gtid保证了每个在主库上提交的事务在集群中有一个唯一的id,GTID (Global Transaction ID)是全局事务ID,由主库上生成的与事务绑定的唯一标识,这个标识不仅在主库上是唯一的,在MySQL集群内也是唯一的。

2)、确保ck物化引擎打开

14、ck的数据分布式存储机制如何设计的

1)、分片和复制:ck通过分片将数据水平划分为多个部分,每个部分存储在不同的节点上,每个分片可以有一个或者多个副本,副本之间自动同步数据
2)、分布式表引擎:ck使用分布式表引擎跨节点数据查询和写入
3)、数据分区:每个分片内,数据可以进一步根据分区键被划分为多个分区
4)、负载均衡:在执行查询时候,ck能够自动在所有可用的副本之间进行负载均衡
5)、一致性容错

15、补充:CK为什么快

1)存储引擎视角

ck利用存储引擎的特殊涉及充分减少磁盘IO对查询速度的影响,用户提交的一条SQL,大部分时间消耗在磁盘的IO上

ck对写入数据进行预排序

ck写入数据文件的数据是有序的,将数据在写入磁盘前进行排序,以保证数据在磁盘上有序,预排序在实现范围查找时候,可以将大量的随机读转换为顺序读,提高IO效率;在查找时,预排序能做到和未排序的数据相同的性能

列式存储 在列式数据库中,同一列的所有数据都在同一个文件中,因此在硬盘上是连续的,适合

OLAP 压缩

ck另一个降低IO的手段是压缩,可以减少读取和写入的数据量,减少IO时间;事务数据库大部分情况下是针对行的操作,如果对每一行都进行压缩和解压缩,带来的时间消耗是远大于磁盘IO时间,这也是为什么所有的事务数据库都不使用压缩技术的原因;ck的最小处理单元是块,块一般由8192行数据组成,一次压缩针对8192行数据,降低cpu的压缩和解压缩时间,并且列式数据有更好的压缩比

向量化引擎
ck采用了向量化执行引擎,能够将多个操作合并成单个向量操作,减少了函数调用和内存分配的次数,从而提高了执行效率。此外向量化执行还使得数据在内存中的布局更加紧凑
多线程与分布式处理 实现了多线程处理,提高整体的处理速度

2)计算引擎视角

ck计算快是来自内部向量化引擎的加持,ck计算慢是因为缺乏代价优化器 大量使用向量化运算

为了实现向量化执行,需要利用CPU的SIMD指令(single instruction Multiple data,单条指令操作多条数据),它是通过数据i你高兴以提高性能的一种实现方式,它的原理是在CPU寄存器方面实现数据的并行计算,计算机存储层次如下所示:
其中,从左往右距离CPU越近,访问速度就越快,显然能够容纳的数据大小也就越小,CPU寄存器也是可以存储数据的,CPU从寄存器中获取数据的速度是最快的,是内存的300倍,是磁盘的3000万倍

ck中的很多内置函数。使用时候ck会自动进行向量化优化, 查询中不使用join,或尽可能减少join操作
ck中没有代价优化器,说明在进行join的时候会出现内存不足的情况,使用ck时候,应当避免join操作,但join操作在ODS建模时候大量存在,数据量大的时候,建模工作应当下推到spark中进行
ck快的本质 ck快的本质是利用了cpu进行加速

总结:CK快的原因

ck是列式存储、索引机制、数据压缩、ck使用了向量化引擎(寄存器)、ck使用cpu加速、ck会在内存中进行group by,并使用hash
table装载数据

补充:ck的几点不足
1、不支持事务,不能把它用于OLTP事务操作的场景
2、不擅长根据主键按行粒度进行查询,所以不应该把ck当作键值对数据库使用
3、不擅长删除和修改数据

补充:ck相关补充
1、CK提供了标准的SQL查询接口,CK大小是大小写敏感的,关键字非大小敏感
2、ck中向量化是通过数据级别的并行方式提升了性能,那么多线程处理就是通过线程级并行的方式实现了性能提升
3、在分布式领域,移动计算优于移动数据,在服务器之间网络传输的成本是很高的,相比移动数据,更好的是预先将数据分布到各台服务器,将数据的计算查询直接下推到数据所在的服务器;
4、多主架构,在传统的hdfs、spark中,都采用了主从架构,一个leader节点统筹全局;ck采用多主架构,集群中的每个节点角色对等,客户端访问任意一个节点都能得到相同的效果,集群中所有节点功能相同,避免单点故障
5、数据分片,分区时表的分区,根据关键字将最终结果写入不同的文件中;而分复用了数据库的分区,相当于在原有的分区下,作为第二层分区,是在不同节点上的体现
6、ClickHouse 最终选择了这些算法:对于常量,使用 Volnitsky 算法;对于非常量,使用 CPU 的向量化执行 SIMD,暴力优化;正则匹配使用 re2 和 hyperscan 算法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2265564.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

近实时”(NRT)搜索、倒排索引

近实时(Near Real-Time, NRT)搜索 近实时(NRT)搜索是 Elasticsearch 的核心特性之一,指的是数据在被写入到系统后,可以几乎立即被搜索和查询到。虽然它不像传统数据库那样完全实时,但它的延迟通…

springboot477基于vue技术的农业设备租赁系统(论文+源码)_kaic

摘 要 使用旧方法对农业设备租赁系统的信息进行系统化管理已经不再让人们信赖了,把现在的网络信息技术运用在农业设备租赁系统的管理上面可以解决许多信息管理上面的难题,比如处理数据时间很长,数据存在错误不能及时纠正等问题。这次开发的农…

vue2 升级为 vite 打包

VUE2 中使用 Webpack 打包、开发,每次打包时间太久,尤其是在开发的过程中,本文记录一下 VUE2 升级Vite 步骤。 安装 Vue2 Vite 依赖 dev 依赖 vitejs/plugin-vue2": "^2.3.3 vitejs/plugin-vue2-jsx": "^1.1.1 vite&…

【HarmonyOS 5.0】第十二篇-ArkUI公共属性(一)

一、公共样式类属性 ArkUI框架提供的基础组件直接或者间接的继承自 CommonMethod , CommonMethod 中定义的属性样式属于公共样式。下面就来学习这些样式 1.1.尺寸设置 宽高设置 设置组件的宽高,缺省时使用组件自身内容的宽高,比如充满父布…

数据库系统原理:数据库安全性与权限控制

2.1vue技术 Vue (读音 /vjuː/,类似于 view) 是一套用于构建用户界面的渐进式JavaScript框架。 [5] 与其它大型框架不同的是,Vue 被设计为可以自底向上逐层应用。Vue 的核心库只关注视图层,不仅易于上手,还便于与第三方库或既有项…

SQL语句整理五-StarRocks

文章目录 查看版本号:SPLIT:insert 和 update 结合 select:报错:1064 - StarRocks planner use long time 3000 ms in memo phase:字段增删改: 查看版本号: select current_version(); current…

Uniapp 手机基座调试App 打包成Apk文件,并上传到应用商店

1.Uniapp手机基座调试App。 1.1 以下是我另一篇文章 讲解 uniapp连接手机基座调试App、 Hbuildx使用SUB运行到手机基座测试_hbuilder基座-CSDN博客 2.打包本地的uniapp项目为apk文件。 打包的方式有很多种,我们可以选择本地打包和远程云端打包两种方式。 我们在打包…

UEFI 多任务

一般而言,UEFI 的主要作用是检测和初始化设备,加载操作系统的引导程序,然后将控制权交给操作系统,整个过程不需要大量的运算,在单个 CPU 核上运行单线程程序已经可以满足需求,因此,EDK2 没有提供…

人工智能与物联网:从智慧家居到智能城市的未来蓝图

引言:未来已来,智能化的世界 想象一下,一个早晨,智能闹钟根据你的睡眠状态自动调整叫醒时间,咖啡机早已备好热腾腾的咖啡,窗帘缓缓拉开,迎接清晨的阳光。这不是科幻小说中的场景,而是…

【从零开始入门unity游戏开发之——unity篇01】unity6基础入门开篇——游戏引擎是什么、主流的游戏引擎、为什么选择Unity

文章目录 前言**游戏引擎是什么?****游戏引擎对于我们的意义**1、**降低游戏开发的门槛**2、**提升游戏开发效率** **以前做游戏****现在做游戏****主流的游戏引擎有哪些?**Unity 相比其他游戏引擎的优势?**为什么选择Unity?**Uni…

Xcode 16 编译弹窗问题、编译通过无法,编译通过打包等问题汇总

问题1:打包的过程中不断提示 :codesign 想要访问你的钥匙串中的密钥“develop 或者distribution 证书” 解决:打开钥匙串,点击证书---显示简介---信任----改为始终信任 (记住 :不能只修改钥匙的显示简介的…

RabbitMQ中的Topic模式

在现代分布式系统中,消息队列(Message Queue)是实现异步通信、解耦系统组件的重要工具。RabbitMQ 是一个广泛使用的开源消息代理,支持多种消息传递模式,其中 Topic 模式 是一种灵活且强大的模式,允许生产者…

OpenEuler 22.03 安装 flink-1.17.2 集群

零:规划 本次计划安装三台OpenEuler 22.03 版本操作系统的服务器,用于搭建 flink 集群。这里使用flink1.17.2 的原因,是便于后续与springboot的整合 服务器名IP地址作用其他应用flink01192.168.159.133主jdk11、flink-1.17.2flink02192.168.…

国标GB28181公网直播EasyGBS与国标GB28181协议融合,助力应急救援指挥无线视频监控系统建设

随着信息技术的飞速发展,视频监控领域正经历从传统安防向智能化、网络化安防的深刻转变。在这一转变过程中,国标GB28181协议以其强大的功能和广泛的应用场景,成为了公共安全视频监控联网系统的核心标准。 应急救援指挥系统要求能够迅速响应各…

VisionPro开发使用交互反馈系统(Affordance System)

XR Interaction Toolkit 提供了一个affordance system 可供性系统,使用户能够创建对交互状态的视觉和听觉反馈。一般的信息流从向Affordance State Provider场景中添加一个(通常是可交互的)并将其指向我们要监视其交互状态的可交互对象开始。…

SpringCloud 入门(4)—— 网关

上一篇:SpringCloud 入门(3)—— Nacos配置中心-CSDN博客 Spring Cloud Gateway 作为 Spring Cloud 生态系统的一部分,主要在微服务架构中充当 API 网关的角色。它提供了统一的入口点来处理所有的 HTTP 请求,并将这些请…

在linux系统的docker中安装GitLab

一、安装GitLab: 在安装了docker之后就是下载安装GitLab了,在linux系统中输入命令:docker search gitlab就可以看到很多项目,一般安装第一个,它是英文版的,如果英文不好可以安装twang2218/gitlab-ce-zh。 …

vscode打开下一个文件的时候上一个文件会关闭

解决方法: 你可以通过设置 workbench.editor.enablePreview 来控制在 VS Code 中打开文件时是否会关闭上一个文件。将其设置为 false 可以防止这种行为。 {"workbench.editor.enablePreview": false } 在设置编辑器中显示 "workbench.editor.enab…

PostgreSQL编译安装教程

下载安装 1.在家目录创建一个文件夹放下载安装包 mkdir softwarecd software 2.下载文件压缩包 wget https://ftp.postgresql.org/pub/source/v16.0/postgresql-16.0.tar.gz 3.解压 tar -xzvf postgresql-16.0.tar.gz 4.编译 在software/postgresql-16.0下 cd software…

访谈积鼎科技总经理:国产CFD软件发展与未来趋势展望

傅彦国,上海积鼎信息科技有限公司创始人 记者:请傅总介绍下我国流体仿真行业的发展现状是怎样的? 傅彦国:自2018年政府加大了对核心技术自主研发的支持力度,国产CFD软件逐渐步入发展正轨。 首先,从市场规…