ClickHouse进阶(五):副本与分片-1-

news2024/10/6 20:41:02

进入正文前,感谢宝子们订阅专题、点赞、评论、收藏!关注IT贫道,获取高质量博客内容!

🏡个人主页:含各种IT体系技术,IT贫道_Apache Doris,大数据OLAP体系技术栈,Kerberos安全认证-CSDN博客

📌订阅:拥抱独家专题,你的订阅将点燃我的创作热情!

👍点赞:赞同优秀创作,你的点赞是对我创作最大的认可!

⭐️ 收藏:收藏原创博文,让我们一起打造IT界的荣耀与辉煌!

✏️评论:留下心声墨迹,你的评论将是我努力改进的方向!


目录

1. 数据副本

​​​​​​​2. 数据分片


clickhouse数据存储时支持副本和分片,副本指的就是一份数据可以在不同的节点上存储,这些节点上存储的每份数据相同,数据副本是增加数据存储冗余来防止数据丢失。分片指的是clickhouse一张表的数据可以横向切分为多份,每份中的数据不相同且存储在不同的节点上,分片的目的主要是实现数据的水平切分,方便多线程和分布式查询数据。

这里以由3台clickhouse节点组成的clickhouse集群对应的几张图来描述clickhouse中的副本与分片,方便大家理解:

  • 表temp只有一个分片,1个副本(数据本身可看成1个副本)

  • 表temp只有一个分片,每个分片有1个副本

  • 表temp有2个分片,每个分片有1个副本

​​​​​​​1. 数据副本

存储在clickhouse中的数据想要有副本,创建表时需要在对应的表引擎前面加上“Replicated”前缀组成一种新的变种引擎,并且目前只有MergeTree系列表引擎才支持副本,如下图所示:

下面我们以ReplicatedMergeTree引擎来举例讲解clickhouse中的数据副本。

创建副本表语法:

Engine = ReplicatedMergeTree('zk_path','replica_name')

在上述创建语法中,有zk_path和replica_name两项配置,代表意思如下:

  • zk_path:

在zookeeper中创建的数据表的路径,路径名称可以自定义,用户可以自己定义成希望的任何路径。clickhouse提供了一些约定俗成的配置模板:/clickhouse/tables/{shard}/table_name ,其中“/clickhouse/tables”是约定俗成的路径固定前缀,表示存放数据表的根路径;“{shard}”表示分片编号,通常使用数值代替,例如:01,02,03,一张数据表可以有多个分片,而每个分片都拥有自己的副本;“table_name”表示数据表的名称,通常与物理表的名字相同。

  • replica_name:

定义在zookeeper中创建的副本名称,该名称是区分不同副本实例的唯一标识,一种约定俗成的命名方式是使用所在服务器的域名称。

创建副本表举例,我们在node1节点进入clickhouse,执行如下建表语句:

Create table person_info(

id UInt32,

name String,

age UInt32,

gender String,

loc String

) engine = ReplicatedMergeTree('/clickhouse/tables/01/person_info','node1')

partition by loc

order by id;

在node2节点进入clickhouse,执行如下建表语句:

Create table person_info(

id UInt32,

name String,

age UInt32,

gender String,

loc String

) engine = ReplicatedMergeTree('/clickhouse/tables/01/person_info','node2')

partition by loc

order by id;

以上两张表创建完成之后,在zookeeper中会看到创建“/clickhouse/tables/01/person_info”路径,对此路径下的部分重要目录解释如下:

  • /metadata:

保存元数据信息,包括主键、分区键、采样表达式。

  • /columns:

保存列字段信息,包括列名称和数据类型。

  • /replicas:

保存副本名称,对应设置参数中的replica_name。

  • /leader_election:

用于主副本的选举工作,主副本主要负责merge、Alter delte 、alter update操作。

在node1向表“person_info”中插入以下数据:

insert into person_info values (1,'zs',18,'m','beijing'),(2,'ls',19,'f','shanghai'),(3,'ww',20,'m','beijing'),(4,'ml',21,'m','shanghai')

插入数据之后,我们在node1上进行查询:

select * from person_info;

由于有副本作用,在node2节点上我们同样也可以查询到表person_info中的数据:

select * from person_info;

以上在node1节点或者node2节点上表“person_info”中插入数据时,都会通过zookeeper的监听,立即同步到另外节点,可以在node1,node2节点“/var/lib/clickhouse/data/default/person_info”路径下发现相同的一份数据。

​​​​​​​2. 数据分片

通过数据副本我们可以降低数据丢失的风险,到现在为止每个副本上都有表全量数据,当业务量十分庞大的场景下,依靠副本并不能解决单表的新能瓶颈,我们可以对一张表水平分为多个分片,这些分片分别存储在不同的clickhouse集群节点中。例如一个clickhouse集群有3台节点,我们在创建表temp时可以分成3个分片,这3个分片内的数据不相同,分别存储在不同的clickhouse节点上,当然为了保证数据的高可用也可以给每个分片设置副本。

特别注意:在clickhouse中,每个节点只能配置在一个<shard>标签下的<replica>中,不能与其他的<shard>标签下的<replica>节点名称相同。例如:配置一个clickhouse集群拥有3个分片,且每个分片有2个副本,那么metrika.xml配置文件配置如下:

<remote_servers>
        <clickhouse_cluster_3shards_2replicas>
            <shard>
                <internal_replication>true</internal_replication>
                <replica>
                    <host>node1</host>
                    <port>9000</port>
                </replica>
                <replica>
                    <host>node2</host>
                    <port>9000</port>
                </replica>
            </shard>
            <shard>
                <internal_replication>true</internal_replication>
                <replica>
                    <host>node3</host>
                    <port>9000</port>
                </replica>
                <replica>
                    <host>node4</host>
                    <port>9000</port>
                </replica>
            </shard>
            <shard>
                <internal_replication>true</internal_replication>
                <replica>
                    <host>node5</host>
                    <port>9000</port>
                </replica>
                <replica>
                    <host>node6</host>
                    <port>9000</port>
                </replica>
            </shard>
        </clickhouse_cluster_3shards_1replicas>
    </remote_servers>

以上完成配置拥有3个分片,2个副本的clickhouse集群需要6台节点。

在介绍副本时,为了创建多张表我们需要分别登录到不同的clickhouse节点,在各自的clickhouse节点上执行create建表命令,创建的表名称都是一样的,这是因为Create、Drop、Rename、Alter等DDL语句并不支持分布式执行,而在分布式的clickhouse集群中我们可以使用新的语法实现分布式DDL,其语法格式为:

CREATE/DROP/RENAME/ALTER TABLE xxx ON CLUSTER cluste_name

其中以上“xxx”代表创建的表名称,“cluster_name”对应前面集群配置文件metrika.xml中的集群名称,根据配置文件,clickhouse会根据集群的配置信息,找到每个节点执行DDL语句,“xxx”表也会在各个节点上被创建。

创建具有3分片和1副本的表“person_score”,建表语句如下:

Create table person_score on cluster clickhouse_cluster_3shards_1replicas (

id UInt32,

name String,

age UInt32,

gender String,

score Decimal(9,2)

)engine = ReplicatedMergeTree('/clickhouse/tables/{shard}/person_score','{replica}')

order by id;

注意:

  1. 以上“clickhouse_cluster_3shards_1replicas”是在“/etc/clickhouse-server/config.d/metrika.xml”配置文件中配置的clickhouse集群的名称
  2. {shard}与{replica}两个变量是在metrika.xml中<macros>宏变量标签中配置的对应值,这样当在clickhouse集群中的某台节点执行以上建表语句时,clickhouse会自动在各个节点创建此表,这里每台clickhouse节点上的表person_socre是本地表。

可以在zookeeper中找到查看对应的分片信息:

向表person_score中插入数据,在哪台clickhouse节点向本地表person_score中插入数据,那么数据就存入当前本地表对应的分片中。

#在node1向node1本地表person_score中插入以下数据:
insert into person_score values (1,'zs',18,'m',100),(2,'ls',19,'f',200);

#在node1上查询本地表 person_score数据:
node1 :) select * from person_score;

#在node2向node2本地表person_score中插入以下数据:
insert into person_score values (3,'ww',20,'m',300),(4,'ml',21,'m',400);

#在node2上查询本地表 person_score数据:
node2 :) select * from person_score;

#在node3向node3本地表person_score中插入以下数据:
insert into person_score values (5,'ml',22,'f',500),(6,'tq',23,'f',600);

#在node3上查询本地表 person_score数据:
node3 :) select * from person_score;

以上我们创建的person_score表在clickhouse集群节点node1、node2、node3上都是本地表,插入数据时插入到了对应节点的分片上,查询时也只能查询对应节点上的分片数据,如果我们想要通过一张表将各个clickhouse节点上的person_score表进行查询,这时就需要使用Distribute表引擎,所以在实际工作中clickhouse的数据分片需要结合Distriubute表引擎一同使用。


👨‍💻如需博文中的资料请私信博主。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/947409.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

电脑上的视频如何导入苹果手机?

AirDroid支持Windows、macOS、android、iOS相互传输文件、视频、图片等。 想要从电脑传输文件到iPhone也很简单&#xff0c;在电脑和iPhone都安装AirDroid&#xff0c;连接同一网络&#xff0c;然后登录同一个帐号就可以了。可绑定的iPhone数量不限&#xff0c;只要都登录同一…

《向量数据库指南》——向量数据库Milvus Cloud的成本和收益

谈及成本问题&#xff0c;我认为向量数据库的成本主要包括两个方面。首先&#xff0c;是将数据进行向量化所需的成本&#xff0c;涉及神经网络模型的训练和向量化等方面。其次&#xff0c;是向量数据库本身的成本。 今年向量数据库和 AIGC 之所以能够如此受欢迎&#xff0c;主要…

redis 应用 4: HyperLogLog

我们先思考一个常见的业务问题&#xff1a;如果你负责开发维护一个大型的网站&#xff0c;有一天老板找产品经理要网站每个网页每天的 UV 数据&#xff0c;然后让你来开发这个统计模块&#xff0c;你会如何实现&#xff1f; img 如果统计 PV 那非常好办&#xff0c;给每个网页一…

2023年天府杯——C 题:码头停靠问题代码分析

问题 1&#xff1a;如何确定每个码头的使用顺序和时间分配&#xff0c;以最小化船 只的等待和延迟时间&#xff1f; 这段代码是用来生成船只到达时间表&#xff0c;并且根据船只类型和码头类型进行分配和时间分配&#xff0c;最后将结果保存为Excel表格。 具体分块分析如下&am…

自动化测试(四):pytest结合allure生成测试报告

Allure 报告框架的名称 allure&#xff1a; noun [ U ] 诱惑;魅力;吸引力 文章目录 1. allure下载2. pytest框架使用allure3. 生成allure报告 1. allure下载 下载前需要先安装JDK&#xff0c;这里可以参考自动化测试(二)。 Allure下载路径&#xff1a;https://github.com/allu…

删除您和Bard的对话记录

如果您想删除您和Bard的对话记录&#xff0c;可以通过以下步骤操作&#xff1a; 前往Bard网站或应用程序。https://myactivity.google.com/product/bard?otzr1点击左下角的“删除”下拉框。 您可以选择删除所有对话记录、过去一小时或过去一天的对话记录、特定时间段的对话记…

yolov5和yolov7部署的研究

1.结论 onnx推理比torch快3倍, openvino比onnx快一丢丢。 | yolov7.pt 转 onnx python export.py --weights best_31.pt --grid --end2end --simplify --topk-all 10 --iou-thres 0.65 --conf-thres 0.65 --img-size 320 320 --max-wh 200可以看到yolov7的 onnx是包括nms…

Mybatis参数(parameterType)

在此之前&#xff0c;我们已经介绍了Mybatis的一些基本用法&#xff0c;包括了Mybatis查询数据、结果映射&#xff08;resultMap&#xff09;等。本篇我们主要介绍Mybatis在查询数据时如何传递参数。 一、准备工作 这里我们直接使用脚本初始化数据库中的数据 -- 如果数据库不…

Spring boot使用Kafka Java反序列化漏洞 CVE-2023-34040

文章目录 0.前言漏洞spring-kafka 介绍 1.参考文档2.基础介绍3.解决方案3.1. 升级版本3.2. 替代方案 4.Spring kafka 使用教程代码示例 0.前言 背景&#xff1a;公司项目扫描到 Spring-Kafka上使用通配符模式匹配进行的安全绕过漏洞 CVE-2023-20873 漏洞 中等风险 | 2023年8月…

android 输入法demo

背景&#xff1a; 一个简单的android输入法demo&#xff0c;支持输入png、gif&#xff0c;jpeg、webp等格式。 此示例演示如何编写一个应用程序&#xff0c;该应用程序接受使用 Commit Content API 从键盘发送的丰富内容&#xff08;例如图像&#xff09;。 用户通常希望通过表…

thingsboard 双向rpc,tb服务端下发指令,设备端接收指令并回复指令

背景 最近有朋友问,在使用thingsboard的rpc组件时,第一次进来总是报错,如下图,request timeout 这是因为当你打开这个页面时,该组件会发送一个getvalue的rpc来获取设备的当前数值,如果设备端没有收到,或者没有回应就会报这个错误。 所以为了有来有回,就必须实现设备端…

机器人制作开源方案 | 桌面级机械臂--运动控制

1. 调整总线舵机的模式 实现思路&#xff1a; 机械臂包括转台、大臂、小臂三部分&#xff0c;先设置好总线舵机每个ID的工作模式。下图是计划给舵机的各部分设置的ID号&#xff1a; 接下来为各部分设置相应的舵机模式&#xff08;见下表&#xff09;&#xff0c;并在程序里进行…

动态规划-路径问题

不同路径&#xff08;medium&#xff09; 题目链接: 62. 不同路径 题目描述: 一个机器人位于一个 m x n 网格的左上角 &#xff08;起始点在下图中标记为 “Start” &#xff09;。机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角&#xff08;在下图中标记为…

博流RISC-V芯片Eclipse环境搭建

文章目录 1、下载 Eclipse2、导入 bouffalo_sdk3、编译4、烧录5、使用ninja编译 之前编译是通过 VSCode 编译&#xff0c;通过手工输入 make 命令编译&#xff0c;我们也可以通过 Eclipse 可视化 IDE 来编译、烧录。 1、下载 Eclipse 至 Eclipse 官网 https://www.eclipse.org…

【JavaSE专栏91】Java如何主动发起Http、Https请求?

作者主页&#xff1a;Designer 小郑 作者简介&#xff1a;3年JAVA全栈开发经验&#xff0c;专注JAVA技术、系统定制、远程指导&#xff0c;致力于企业数字化转型&#xff0c;CSDN学院、蓝桥云课认证讲师。 主打方向&#xff1a;Vue、SpringBoot、微信小程序 本文讲解了如何使用…

VMware标准虚拟交换机和分布式交换机

一、虚拟交换机 初期的网络虚拟化&#xff0c;是非常狭义的概念&#xff0c;主要指的是因为计算资源虚拟化&#xff0c;每台物理宿主机上安装了虚拟化软件&#xff0c;同时会部署了虚拟交换机&#xff0c;负责物理机上面承载的VM&#xff08;虚拟机&#xff09;之间与对外的通…

【Rust日报】2023-08-28 WASM 微运行时与 Rust

WASM 微运行时与 Rust 传统上&#xff0c;微控制器只能运行 C 代码。固件开发人员通常会使用 Eclipse 基于 IDE 以及定制的编译器工具链来编译代码。但是&#xff0c;MicroPython 最近变得流行起来。RaspberryPi Pico、ExpressIf 的 ESP32 是一些对 MicroPython 支持相当不错的…

直流电源开关TMI6240I/6250I——解决分立MOS开关易失效,安全更可靠

互联网时代带动了电子产品行业的发展&#xff0c;人们对电子产品的需求越来越高&#xff0c;TV、显示器、笔记本、智能家居、平板等产品只增不减&#xff0c;为生活提供了极大的便利。与此同时&#xff0c;随着拥有的电子产品增多也带来了不少”烦恼“——产品越多&#xff0c;…

标杆项目,获奖!

近日&#xff0c;第二届“光华杯”千兆光网应用创新大赛东部大区赛决赛在上海举行。天翼物联、南京港华燃气联合申报的“千兆光网融物赋智&#xff0c;赋能大型城市燃气安全及智慧运营”项目荣获三等奖并晋级全国总决赛。 今年以来&#xff0c;中国信息通信研究院联合中国通信标…

基于RabbitMQ的模拟消息队列之二---创建项目及核心类

一、创建项目 创建一个SpringBoot项目&#xff0c;环境&#xff1a;JDK8&#xff0c;添加依赖&#xff1a;Spring Web、MyBatis FrameWork(最主要&#xff09; 二、创建核心类 1.项目分层 2.核心类 在mqserver包中添加一个包&#xff0c;名字为core&#xff0c;表示核心类…