CENTO OS上的网络安全工具(十九)ClickHouse集群部署

news2024/9/24 5:26:44

        一、VMware上集群部署ClickHouse

        (一)网络设置

        1. 通过修改文件设置网络参数

        (1)CentOS

        在CENTOS上的网络安全工具(十六)容器特色的Linux操作_lhyzws的博客-CSDN博客中我们提到过可以使用更改配置文件的方式来设置网络。在CentOS上,该配置文件位于/etc/sysconfig/network-scripts下,一般来说,一个“连接”就会有一个。比如,如果设备ens160有2个连接,则该目录下会有ifcfg-ens160和ifcfg-ens160-1两个文件。

        一般来说,需要改动这个地方一般都是为了在集群部署时设置静态IP地址,下面专门对比了手工配置IP和自动配置IP情况下的不同配置。注意BOOTPROTO,如果不用dhcp的话,取值为none,不是no,也不是static。否则系统只有在重启的时候认识,其它(见下文)时候不认识,我在这里坑好久。

手工配置的情况

自动配置的情况

[root@pig network-scripts]# cat ifcfg-ens160

TYPE=Ethernet

PROXY_METHOD=none

BROWSER_ONLY=no

BOOTPROTO=none

DEFROUTE=yes

IPV4_FAILURE_FATAL=no

IPV6INIT=yes

IPV6_AUTOCONF=yes

IPV6_DEFROUTE=yes

IPV6_FAILURE_FATAL=no

NAME=ens160

UUID=……

DEVICE=ens160

ONBOOT=yes

IPADDR=192.168.21.11

PREFIX=24

GATEWAY=192.168.21.2

DNS1=192.168.21.2

[root@pig network-scripts]# cat ifcfg-ens160

TYPE=Ethernet

PROXY_METHOD=none

BROWSER_ONLY=no

BOOTPROTO=dhcp

DEFROUTE=yes

IPV4_FAILURE_FATAL=no

IPV6INIT=yes

IPV6_AUTOCONF=yes

IPV6_DEFROUTE=yes

IPV6_FAILURE_FATAL=no

NAME=ens160

UUID=……

DEVICE=ens160

ONBOOT=yes

DNS1=192.168.21.2

        配置好后,重启系统,网络设置就应该更改过来了。

        (2)Ubuntu

        Ubuntu类的系统中,这个配置文件一般在/etc/network/interfaces中,一样也是改了重启。据说在Ubuntu 18.04版本以后,改用了netplan工具进行网络配置,所以可能找不到/etc/network/interfaces。那么,在/etc/netplan下的yml文件就是要更改的对象。更改完成后,执行netplan apply即可。我没装,所以没试。

        (3)重启服务使修改生效

        修改/etc/sysconfig/network-scripts下的配置文件后,直接重启服务而不是重启系统。在非图形窗口的Centos系统中,这种方法应该是比较正规的一种。在Centos8之前,应该使用systemctl restart network.service,或者是service network restart;但是在centos8以后,这个服务被NetworkManager替代,注意大小写,所以在我试验的centos-stream-8中是这样的:

[root@pig network-scripts]# systemctl restart NetworkManager.service 
[root@pig network-scripts]# systemctl status NetworkManager.service 
● NetworkManager.service - Network Manager
   Loaded: loaded (/usr/lib/systemd/system/NetworkManager.service; enabled; vendor preset: enabled)
   Active: active (running) since Thu 2022-12-22 09:39:15 EST; 9s ago
     Docs: man:NetworkManager(8)
 Main PID: 6365 (NetworkManager)
    Tasks: 4 (limit: 49135)
   Memory: 5.6M
   CGroup: /system.slice/NetworkManager.service
           └─6365 /usr/sbin/NetworkManager --no-daemon
12月 22 09:39:15 pig NetworkManager[6365]: <info>  [1671719955.9362] device (ens160): state change: ip-config -> ip-check (reason 'none',>
12月 22 09:39:15 pig NetworkManager[6365]: <info>  [1671719955.9365] policy: set 'ens160' (ens160) as default for IPv4 routing and DNS
12月 22 09:39:15 pig NetworkManager[6365]: <info>  [1671719955.9525] modem-manager: ModemManager available

        (4)使用网络管理工具重启服务

        在centos8以后,配合NetworkManager服务,系统提供了nmcli(network manager client)工具帮助用户进行网络管理。centos7之前虽然没有,但是可以通过yum安装:

[root@pig network-scripts]# yum install /usr/bin/nmcli -y
上次元数据过期检查:2:45:11 前,执行于 2022年12月22日 星期四 06时58分29秒。
软件包 NetworkManager-1:1.39.0-1.el8.x86_64 已安装。
依赖关系解决。
==========================================================================================================================================
 软件包                                      架构                      版本                               仓库                       大小
==========================================================================================================================================
升级:
 NetworkManager                              x86_64                    1:1.40.4-1.el8                     baseos                    2.3 M
 NetworkManager-adsl                         x86_64                    1:1.40.4-1.el8                     baseos                    153 k
 NetworkManager-bluetooth                    x86_64                    1:1.40.4-1.el8                     baseos                    179 k
 NetworkManager-libnm                        x86_64                    1:1.40.4-1.el8                     baseos                    1.9 M
 NetworkManager-team                         x86_64                    1:1.40.4-1.el8                     baseos                    158 k
 NetworkManager-tui                          x86_64                    1:1.40.4-1.el8                     baseos                    353 k
 NetworkManager-wifi                         x86_64                    1:1.40.4-1.el8                     baseos                    199 k
 NetworkManager-wwan                         x86_64                    1:1.40.4-1.el8                     baseos                    185 k
事务概要
==========================================================================================================================================
升级  8 软件包
…………………………

        

        nmcli工具挺有意思,不仅可以用来查看IP地址等配置,还可以关闭/重启有线/无线网络,禁用、启用指定设备,对指定设备禁用、启用、增加网络连接。如果熟练掌握相关命令,用起来简直和windows网络适配器配置的图形交互一样方便。

        所以修改配置文件后,重置一下网络连接即可(前提是配置文件要写对,否则nmcli启动连接失败会直接把连接干掉,在连接名字都没有了的情况下,是无法up连接的。那么你只能被迫使用nmcli d connect重新连接设备,结果是新增了一个连接,/etc/sysconfig/network-scripts下会多出一个配置文件。并且,即使是删了新的配置文件,无论如何up,那个错的文件都会被系统忽略。系统会直接使用hdcp分配IP地址——我掉的就是这个坑)

[root@pig network-scripts]# nmcli c reload
[root@pig network-scripts]# nmcli c
NAME    UUID                                  TYPE      DEVICE 
ens160  d24eda1a-cd43-4de7-ba21-1641abd3d540  ethernet  ens160 
[root@pig network-scripts]# nmcli c up ens160
连接已成功激活(D-Bus 活动路径:/org/freedesktop/NetworkManager/ActiveConnection/14)

        当然,也可以不改配置文件,直接使用nmcli add一个新的连接并进行配置。但是我查看了一下帮助就放弃了——字段实在是太多了:

root@pig network-scripts]# nmcli c add --help
Usage: nmcli connection add { ARGUMENTS | help }
ARGUMENTS := COMMON_OPTIONS TYPE_SPECIFIC_OPTIONS SLAVE_OPTIONS IP_OPTIONS [-- ([+|-]<setting>.<property> <value>)+]
  COMMON_OPTIONS:
                  type <type>
                  ifname <interface name> | "*"
                  [con-name <connection name>]
                  [autoconnect yes|no]
                  [save yes|no]
                  [master <master (ifname, or connection UUID or name)>]
                  [slave-type <master connection type>]
  TYPE_SPECIFIC_OPTIONS:
    ethernet:     [mac <MAC address>]
                  [cloned-mac <cloned MAC address>]
                  [mtu <MTU>]
    wifi:         ssid <SSID>
                  [mac <MAC address>]
                  [cloned-mac <cloned MAC address>]
                  [mtu <MTU>]
                  [mode infrastructure|ap|adhoc]

        2. 通过命令设置网络参数

        (1)ifconfig

        ifconfig可能是最常用的网络配置命令了,只不过现在被ip命令替代,一些系统可能默认不提供ifconfig工具,需要手动从net-tools工具包安装。

        使用ifconfig查看所有网络接口名称

[root@pig1 ~]# ifconfig
lo: flags=73<UP,LOOPBACK,RUNNING>  mtu 65536
……
virbr0: flags=4099<UP,BROADCAST,MULTICAST>  mtu 1500
……
[root@pig1 ~]# ifconfig -a
ens160: flags=4098<BROADCAST,MULTICAST>  mtu 1500
……
lo: flags=73<UP,LOOPBACK,RUNNING>  mtu 65536
……
virbr0: flags=4099<UP,BROADCAST,MULTICAST>  mtu 1500
……

        可以看到,使用-a参数才能看到所有接口(包括被关闭的),如果有关闭的接口,可以使用ifconfig 接口名 up命令启动

[root@pig1 ~]# ifconfig ens160 up

        使用ifconfig命令更改网络配置:

[root@pig1 ~]# ifconfig ens160 192.168.21.121 netmask 255.255.255.0 broadcast 192.168.21.255
[root@pig1 ~]# ifconfig
ens160: flags=4163<UP,BROADCAST,RUNNING,MULTICAST>  mtu 1500
        inet 192.168.21.121  netmask 255.255.255.0  broadcast 192.168.121.255
       ……    ……
        RX packets 21  bytes 1886 (1.8 KiB)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 38  bytes 5147 (5.0 KiB)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0

        需要注意的一点就是,使用ifconfig更改的网络参数,并没有即刻影响ifcfg-ens160文件。如果改完后运行ifconfig ens160 down && ifconfig ens160 up,会发现网络配置又回到了文件中给出的状态。

        (2)ip

[root@pig1 ~]# ip addr change 192.168.21.121/24 dev ens160
[root@pig1 ~]# ip addr show
…… ……
2: ens160: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc mq state UP group default qlen 1000
    ……
    inet 192.168.21.21/24 brd 192.168.21.255 scope global noprefixroute ens160
       valid_lft forever preferred_lft forever
    inet 192.168.21.121/24 scope global secondary ens160
       valid_lft forever preferred_lft forever
    inet6 fe80::20c:29ff:fea3:fab7/64 scope link noprefixroute 
       valid_lft forever preferred_lft forever
[root@pig1 ~]# ip addr del 192.168.21.121/24 dev ens160
[root@pig1 ~]# ip addr show
…… ……
2: ens160: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc mq state UP group default qlen 1000
   ……
    inet 192.168.21.21/24 brd 192.168.21.255 scope global noprefixroute ens160
       valid_lft forever preferred_lft forever
    inet6 fe80::20c:29ff:fea3:fab7/64 scope link noprefixroute 
       valid_lft forever preferred_lft forever

        使用ip更改IP地址有点麻烦,不论是用add还是用change命令,原来的地址都会留下,还需要使用del删除一下。

        不过使用ip命令的一个好处是可以查看默认网关:

[root@pig1 ~]# ip route show
default via 192.168.21.2 dev ens160 proto static metric 100 
192.168.21.0/24 dev ens160 proto kernel scope link src 192.168.21.21 metric 100 
192.168.122.0/24 dev virbr0 proto kernel scope link src 192.168.122.1 linkdown

        最后多说一句,使用命令更改并不如直接修改配置文件来得稳妥。比如会出现网段、广播地址和掩码不匹配,网段和网关不匹配,网段和默认DNS不匹配等等情况。这些命令本身并不会帮助我们检查。所以使用命令也需要把网络相关参数依次配一遍,并不比直接更改配置文件后重启来得简单。

        如果是容器,那么最好是使用docker的run参数,在启动时就把一切都设置好。

        3. 更改hostname

        更改hostname,可以使用hostnamectl命令,也可使用nmcli命令。或者更直接点,使用hostname命令:

        如:

[root@pig ~]# hostnamectl --static  set-hostname pig1
[root@pig ~]# hostnamectl
   Static hostname: pig1
         Icon name: computer-vm
           Chassis: vm
        Machine ID: ……
           Boot ID: ……
    Virtualization: vmware
  Operating System: CentOS Stream 8
       CPE OS Name: cpe:/o:centos:centos:8
            Kernel: Linux 4.18.0-373.el8.x86_64
      Architecture: x86-64

        又如:

[root@pig ~]# nmcli g hostname
pig
[root@pig ~]# nmcli g hostname pig1
[root@pig ~]# nmcli g hostname
pig1

        直接使用hostname命令也可以查看主机名称

[root@pig ~]# hostname
pig1
[root@pig ~]# hostname pig
[root@pig ~]# hostname
pig

        然而,实际上,hostname就存储在/etc/hostname文件中,不论在哪种操作系统,都可以通过更改该文件的内容来更改主机名,然后重启系统即可。

[root@thebigpig ~]# sed -i '1c pig1' /etc/hostname
[root@thebigpig ~]# cat /etc/hostname
pig1

        但是直接更改文件内容的办法在容器中会失效,会出现诸如“sed: cannot rename ……: Device or resource busy”的错误。据说是因为使用sed会造成文件inode发生变化(因为sed实际使用一个新的文件替换了源文件)。解决办法是使用vi/vim。

        但是,即使是更改了文件,包括使用hostname命令更改,一旦容器重新start,容器名称又会被改回去——因为容器就不是这么玩的——应该在run的时候就是用—hostnane选项指定好:

C:\Users\lhyzw>docker run -it --hostname pig --name pigu ubuntu:latest bash
root@pig:/# cat /etc/hostname
pig

        4. 更改主机名与IP映射关系

        构建集群还需要在每个节点上记录主机名与IP的映射关系,这个不论在哪个系统中,都在/etc/hosts文件中:

root@pig:/# cat /etc/hosts

127.0.0.1       localhost

::1     localhost ip6-localhost ip6-loopback

fe00::0 ip6-localnet

ff00::0 ip6-mcastprefix

ff02::1 ip6-allnodes

ff02::2 ip6-allrouters

172.17.0.2      pig

root@pig:/#

        将其它节点的IP地址和主机名添加到hosts文件中即可。

        (二)安装ZooKeeper

        ClickHouse依托zeekeeper进行集群节点间的并发操作协同管理。如果配置文件中没有指定zookeeper,clickhouse将无法使用复制表这一有力工具。由于zeekeeper对延迟非常敏感,所以clickhouse官方不建议将zookeeper与clickhouse在同一节点上叠加安装。当然,作为实验,我们不打算在有限的主机内开5个以上的虚拟机——所以粗放地将它们安装在了一起——请不要盲从。

        1. 安装JDK

        ZooKeeper是基于Java开发的,所以其运行需要JVM环境。

        OpenJDK我们选择11版本,安装过程不赘述:

[root@pig01 share]# yum install java-11-openjdk* -y

        2. 下载ZooKeeper

        ZooKeeper的安装需要从官方网站​  Apache ZooKeeper​下载压缩包。在网站上找到最新版本(ClickHouse要求版本不低于3.4.0)的下载链接:

         需要点进去才是真正的安装链接:

         也就是在官方推荐的http站点上,右键选择复制链接,然后在linux中wget即可:​

[root@pig01 share]# wget https://dlcdn.apache.org/zookeeper/zookeeper-3.8.0/apache-zookeeper-3.8.0-bin.tar.gz

        3.解压与配置

        下载完成后,可将ZooKeeper解压到指定的文件夹(一般多解压到了/usr/local/zookeeper下);根据可使用的节点,对配置文件进行对应更改/usr/local/zeekeeper/conf/zoo.cfg;最后是构建data目录和log目录,并在data目录下设置myid。

        (1) 解压到指定文件夹

[root@pig01 local]# tar zxvf ~/share/apache-zookeeper-3.8.0-bin.tar.gz -C /usr/local/
apache-zookeeper-3.8.0-bin/docs/
apache-zookeeper-3.8.0-bin/docs/images/
apache-zookeeper-3.8.0-bin/docs/skin/
apache-zookeeper-3.8.0-bin/docs/images/2pc.jpg
apache-zookeeper-3.8.0-bin/docs/images/bk-overview.jpg
apache-zookeeper-3.8.0-bin/docs/images/favicon.ico
apache-zookeeper-3.8.0-bin/docs/images/state_dia.dia
apache-zookeeper-3.8.0-bin/docs/images/state_dia.jpg
apache-zookeeper-3.8.0-bin/docs/images/zkAuditLogs.jpg
apache-zookeeper-3.8.0-bin/docs/images/zkarch.jpg
apache-zookeeper-3.8.0-bin/docs/images/zkcomponents.jpg
apache-zookeeper-3.8.0-bin/docs/images/zknamespace.jpg
……

        默认解压出来的目录会携带版本信息,为方便使用,将其名称改简单些:

[root@pig01 local]# pwd
/usr/local
[root@pig01 local]# ls
apache-zookeeper-3.8.0-bin  bin  etc  games  include  lib  lib64  libexec  sbin  share  src
[root@pig01 local]# mv apache-zookeeper-3.8.0-bin zookeeper
[root@pig01 local]# ls
bin  etc  games  include  lib  lib64  libexec  sbin  share  src  zookeeper
[root@pig01 local]#

        (2)建立配置文件

        在zookeeper目录下得conf子目录中,有名为zoo_example.cfg的配置文件示例,将其拷贝在相同目录下,命名为zoo.cfg:

[root@pig01 conf]# cp zoo_sample.cfg zoo.cfg

        配置文件中,需要定制的内容主要为2个部分:①数据目录②节点群配置

        zoo.cfg文件内容如下,更改部分加粗显示:

# The number of milliseconds of each tick
tickTime=2000
# The number of ticks that the initial 
# synchronization phase can take
initLimit=10
# The number of ticks that can pass between 
# sending a request and getting an acknowledgement
syncLimit=5
# the directory where the snapshot is stored.
# do not use /tmp for storage, /tmp here is just 
# example sakes.
# 数据目录
dataDir=/usr/local/zookeeper/data
# the port at which the clients will connect
clientPort=2181
# the maximum number of client connections.
# increase this if you need to handle more clients
#maxClientCnxns=60
#
# Be sure to read the maintenance section of the 
# administrator guide before turning on autopurge.
#
# https://zookeeper.apache.org/doc/current/zookeeperAdmin.html#sc_maintenance
#
# The number of snapshots to retain in dataDir
#autopurge.snapRetainCount=3
# Purge task interval in hours
# Set to "0" to disable auto purge feature
#autopurge.purgeInterval=1

## Metrics Providers
#
# https://prometheus.io Metrics Exporter
#metricsProvider.className=org.apache.zookeeper.metrics.prometheus.PrometheusMetricsProvider
#metricsProvider.httpHost=0.0.0.0
#metricsProvider.httpPort=7000
#metricsProvider.exportJvmInfo=true

# 节点群
server.0=192.168.119.10:2888:3888
server.1=192.168.119.11:2888:3888
server.2=192.168.119.12:2888:3888
server.3=192.168.119.13:2888:3888

        节点群格式如上,使用server.N表示第几个节点,N取值0至255;IP地址为节点IP。后面两个冒号所跟的端口,分别为zookeeper信息交换端口和选举端口,选择默认的2888和3888即可。

        (3)设置节点标识

        设置的最后,是为配置文件中指定的数据目录生成对应的目录,并在目录文件下建立一个名为myid的文件,该文件的内容比较简单,即为配置文件节点群中server.N的N,对应其所在节点的IP地址填写即可(比如192.168.119.10节点,对应填写0):

[root@pig00 zookeeper]# mkdir data
[root@pig00 zookeeper]# cd data
[root@pig00 data]# echo '0'>myid
[root@pig00 data]# cat myid
0

        4.启动服务

        网上一些配置指南还会进一步添加zookeeper的环境变量,在~/bashrc文件中添加一下变量然后source一下,主要是为了设置zookeeper的默认执行路径。这一步其实可选,如果不介意启动服务的时候多敲几次键盘的话:)

   # ZooKeeper Env
   export ZOOKEEPER_HOME=/usr/local/zookeeper
   export PATH=$PATH:$ZOOKEEPER_HOME/bin

        使用zookeeper安装目录下bin子目录中的zkServer.sh脚本,以start为参数即可启动zookeeper。每个节点上均需启动:

[root@pig00 bin]# pwd
/usr/local/zookeeper/bin
[root@pig00 bin]# ./zkServer.sh start
/usr/bin/java
ZooKeeper JMX enabled by default
Using config: /usr/local/zookeeper/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED

        以status为参数,可以查看各个节点的服务状态,以及各节点在zookeeper“选举团”中的身份:

[root@pig00 bin]# ./zkServer.sh status
/usr/bin/java
ZooKeeper JMX enabled by default
Using config: /usr/local/zookeeper/bin/../conf/zoo.cfg
Client port found: 2181. Client address: localhost. Client SSL: false.
Mode: follower

[root@pig01 bin]# ./zkServer.sh status
/usr/bin/java
ZooKeeper JMX enabled by default
Using config: /usr/local/zookeeper/bin/../conf/zoo.cfg
Client port found: 2181. Client address: localhost. Client SSL: false.
Mode: follower

[root@pig02 bin]# ./zkServer.sh status
/usr/bin/java
ZooKeeper JMX enabled by default
Using config: /usr/local/zookeeper/bin/../conf/zoo.cfg
Client port found: 2181. Client address: localhost. Client SSL: false.
Mode: leader

[root@pig03 bin]# ./zkServer.sh status
/usr/bin/java
ZooKeeper JMX enabled by default
Using config: /usr/local/zookeeper/bin/../conf/zoo.cfg
Client port found: 2181. Client address: localhost. Client SSL: false.
Mode: follower

        可以看到,哪个节点为Leader与启动顺序关系不大,是zookeeper根据算法确定的。其中,Leader用来负责客户端的Write类型请求;Follower用来负责客户端的Read类型请求;这里还有一种没有出现:Observer是一种特殊的Follower,也负责客户端的Read类型请求,但不参与选举。

        5. 测试

        使用与服务程序同目录下的客户端程序zkCli.sh,可以访问zookeeper服务:

[root@pig00 bin]# ./zkCli.sh
/usr/bin/java
Connecting to localhost:2181
……………………
WATCHER::
WatchedEvent state:SyncConnected type:None path:null
[zk: localhost:2181(CONNECTED) 0] ls /
[zookeeper]
[zk: localhost:2181(CONNECTED) 1] ls /zookeeper 
[config, quota]
[zk: localhost:2181(CONNECTED) 2]

        6. 生产环境配置

        另外,根据clickhouse官方的配置建议,在生产环境下,需要打开zookeeper的log文件自动清除开关,以避免大量日志超出存储容量造成系统崩溃:

autopurge.snapRetainCount=3
autopurge.purgeInterval=1

        (三)部署ClickHouse集群

        部署ClickHouse集群前,最好是先理解ClickHouse的分片、副本和复制表这几个核心概念,因为配置文件中最为主要的几个参数都与之相关。

        1. 理解分片、副本和复制表

        关于分片和副本,ClickHouse实战 四、集群的副本与分片 - 知乎 (zhihu.com)这篇文章讲得还是比较透彻的,这里仅结合我们所构建的环境对应理解。

        (1)分片(Shard)

        分片是对表结构的水平分割。想象数据库中的一张大表,其记录达到上亿行。那么为了检索更快,一个直观的方式就是将表按照某一可排序键分成上下2部分,每部分用一台机器来负责。那么以后检索该表的时候,根据该键的值就可以很快确定应该哪台机器干活;又或者说如果检索与该键无关,那也可以2台机器并行开始干活,每台机器只需要检索半张表就够了。

        在我们的测试环境中,用了4个节点(pig00-pig03),我们使用pig00,pig01为一组,pig02和pig03为一组,2组来负责将整个表分为2个分片。所以pig00和pig01为shard 1,pig02和pig03为shard 2。

        (2)副本(Replica)

        ClickHouse的数据副本机制不是全局的,是以表为对象的。也就是说,不是向RAID那样,所有存储都会被强制的存储几份,而是只有使用ReplicaMergeTree的表引擎才会按照配置文件的要求制作副本,其它类型的表引擎则不使用副本。

        在我们的测试环境中,pig01为pig00的副本,pig03为pig02的副本。

        (3)复制表

        复制表是clickhouse中可以支持副本的。在clickhouse的所有表引擎中,只有合并树表引擎(MergeTree)可以支持副本。①由于clickhouse的副本是表级别的,所有服务器中可以同时存在复制表和非复制表。②副本并不依赖于分片,所以每个分片可以有它自己的独立副本。

        之所以加粗上面2句话,是因为它反应了clickhouse集群和数据组织的核心思想。

        创建复制表的典型语句如下:

CREATE TABLE table_name
(
    EventDate DateTime,
    CounterID UInt32,
    UserID UInt32
) ENGINE = ReplicatedMergeTree('/clickhouse/tables/{layer}-{shard}/table_name', '{replica}')
PARTITION BY toYYYYMM(EventDate)
ORDER BY (CounterID, EventDate, intHash32(UserID))
SAMPLE BY intHash32(UserID)

        其中,{layer}{shard}和{replica}由配置文件中的<macros>标识进行定义,指定复制表及其副本的存储路径和名称等信息。所以,一方面,它是可以由我们自行指定的;另一方面,我们指定它必须遵守约定,即不同的分片,不同的副本,不能取一样的名称。

        一个典型的宏定义如下所示:

<macros>
    <layer>05</layer>
    <shard>02</shard>
    <replica>example05-02-1</replica>
</macros>

        关于layer和shard,都是分片标识符,由于clickhouse采用了两级分片机制,所以需要两个标识。但多数情况下,我们仅指定shard就可以。

        从集群部署的角度看宏定义,我们完全可以将其理解为节点的配置标识:比如该节点赔给第几分区,作为第几副本,则可以对应设置shardreplica的名称。

        关于分片、副本和复制表的概念,官方指南中有更为详细的描述,可见:数据副本 | ClickHouse Docs

        2. ClickHouse的配置文件

        如我们在基于容器的单节点clickhouse部署中看到的,ClickHouse支持多配置文件管理。主配置文件是/etc/clickhouse-server/config.xml。clickhouse会在解析完主配置文件后,递归解析目录/etc/clickouse-server/config.d下的xml格式配置文件。所有的配置文件都要求有相同的根元素,通常是<clickhouse>。

        主配置文件中的一些配置可以通过replace或remove属性被子目录下的配置文件覆盖,如果两者都未指定,则按照递归关系使用后解析的配置覆盖前面的。这也是我们在基于容器的单节点中看到的做法。

        从这个角度说,配置clickhouse,最好不要直接修改主文件。更友好的方式,是在config.d目录下建立专属的配置文件。

        按照前面的描述,除了允许远程访问相关的网络配置外,clickhouse集群最需要配置的参数主要包括:①zookeeper集群;②clickhouse集群节点的分片及副本配置;③宏定义配置。

        pig00节点的配置文件如下:

<clickhouse>
        <!--允许从主机网络或其他容器进行远程连接-->
        <listen_host>::</listen_host>
        <listen_host>0.0.0.0</listen_host>
        <listen_try>1</listen_try>

        <!--记录日志-->
        <logger>
                <console>1</console>
        </logger>

        <!--ZooKeeper集群配置-->
        <zookeeper>
                <node>
                        <host>192.168.119.10</host>
                        <port>2181</port>
                </node>
                <node>
                        <host>192.168.119.11</host>
                        <port>2181</port>
                </node>
                <node>
                        <host>192.168.119.12</host>
                        <port>2181</port>
                </node>
                <node>
                        <host>192.168.119.13</host>
                        <port>2181</port>
                </node>
        </zookeeper>

        <!--clickhouse集群设置-->
        <remote_servers>
                <!--集群名称,创建分布式表时需要使用-->
                <pig_cluster>
                        <!--分片1-->
                        <shard>
                                <replica>
                                        <host>192.168.119.10</host>
                                        <port>9000</port>
                                </replica>
                        <!--分片1的副本1-->
                               <replica>
                                        <host>192.168.119.11</host>
                                        <port>9000</port>
                                </replica>
                        </shard>
                        <!--分片2-->
                        <shard>
                                <replica>
                                        <host>192.168.119.12</host>
                                        <port>9000</port>
                                </replica>
                                <!--分片2的副本1-->
                                <replica>
                                        <host>192.168.119.13</host>
                                        <port>9000</port>
                                </replica>
                        </shard>
                </pig_cluster>
        </remote_servers>

        <!--分片与副本标识宏定义,创建复制表时需要使用-->
        <!--192.168.119.10:第1分片的第0副本,即原数据-->
        <macros>
                <shard>01</shard>
                <replica>pig_cluster-01-0</replica>
        </macros>
</clickhouse>

        配置完成后,将其scp到其它节点的对应config.d目录下。并对应更改宏定义中的对应分片标识和副本编号即可。

        PS:配置文件中IP也可以用主机名(比如pig00)替代。

        3. 集群启动与测试

        配置完成后,直接systemctl restart clickhouse-server.service即可。

        所有节点启动完成后,可使用客户端clickhouse-client,执行select * from system.clusters查看集群状态:

         可见我们的4个节点都按照配置文件的设置,构建了2分片1副本的集群pig_cluster。

        至于其它的集群,则是主配置文件中那些示范的配置没有被我们注释掉的结果。强迫症患者可以考虑将示例注释掉,眼不见心不烦。

        六、Docker上部署ClickHouse

        待续……

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/392225.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

推荐 7 个 Vue.js 插件,也许你的项目用的上(五)

当我们可以通过使用库轻松实现相同的结果时&#xff0c;为什么还要编写自定义功能&#xff1f;开发人员最好的朋友和救星就是这些第三方库。我相信一个好的项目会利用一些可用的最佳库。Vue.js 是创建用户界面的最佳 JavaScript 框架之一。这篇文章是关于 Vue.js 的优秀库系列的…

剑指 Offer 68 - I. 二叉搜索树的最近公共祖先

剑指 Offer 68 - I. 二叉搜索树的最近公共祖先 难度&#xff1a;easy\color{Green}{easy}easy 题目描述 给定一个二叉搜索树, 找到该树中两个指定节点的最近公共祖先。 百度百科中最近公共祖先的定义为&#xff1a;“对于有根树 T 的两个结点 p、q&#xff0c;最近公共祖先表…

4-3 Linux启动流程

文章目录前言经典启动流程1 按下电源2 开机自检(BIOS)3 MBR引导4 GRUB菜单5 加载内核6 运行init进程7 读取/etc/inittab8 读取/etc/rc.sysinit初始化系统9 运行/etc/rc.d/rcN.d/脚本10 /etc/rc.local11 登录页面logincentos7与centos6前言 Linux系统的启动过程并不是大家想象中…

防静电监控仪可以检测现场设备是否和实际大地接触

随着电子产品集成化度越来越高&#xff0c;对于电子产品装配来说&#xff0c;静电的危害严重影响到产品的质量、成品率和可靠性, 必须对用于电子产品装配的净化间进行系统防静电措施&#xff0c;将生产过程中的静电危害程度降至最低。近年来电子企业对ESD的危害的深入认识&…

代码随想录刷题-数组-二分查找

文章目录写在前面原理习题题目1思路和代码题目-2写在前面 这个专栏是记录我刷代码随想录过程中的随想和总结。每一小节都是根据自己的理解撰写的&#xff0c;文章比较短&#xff0c;主要是为了记录和督促自己。刷完一章后&#xff0c;我会再单独整理一篇文章来总结和分享。 本…

【JVM 由浅入深】JVM入门

JVM入门1. 概述 今天我们对JVM 进行入门讲解&#xff0c;让我们了解下什么是JVM&#xff0c;是专门为Java服务的一款产品吗&#xff1f;&#xff1f;&#xff1f; 好了废话不多说了&#xff0c;让我们开始吧 2. 详解 2.1 Java 是跨平台的 为什么是Java是跨平台的呢&#xff0c…

LeetCode 路径总和

给你二叉树的根节点 root 和一个表示目标和的整数 targetSum 。判断该树中是否存在 根节点到叶子节点 的路径&#xff0c;这条路径上所有节点值相加等于目标和 targetSum 。如果存在&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。 叶子节点 是指没有子节点…

oneblog_justauth_三方登录配置【Github】

文章目录oneblog添加第三方平台github中创建三方应用完善信息登录oneblog添加第三方平台 1.oneblog管理端&#xff0c;点击左侧菜单 网站管理——>社会化登录配置管理 ,添加一个社会化登录 2.编辑信息如下&#xff0c;选择github平台后复制redirectUri,然后去github获取cl…

Arduino添加ESP32开发板

【2023年3月4日】 最近要在新电脑上安装Arduino&#xff0c;需要进行一些配置&#xff0c;正好记录一下&#xff01; Arduino2.0.1 下的开发板添加操作。 ESP32开发板GitHub链接&#xff1a; GitHub - espressif/arduino-esp32: Arduino core for the ESP32Arduino core for…

ICASSP2023|达摩院语音实验室入选论文全况速览

近日&#xff0c;语音技术领域国际会议ICASSP公布了本届论文审稿结果&#xff0c;阿里巴巴达摩院语音实验室有14篇论文被大会收录。本次被接收的论文研究方向涵盖语音识别、语音唤醒、语音增强、说话人日志、语义理解、多模态预训练等。 01 TOLD: A Novel Two-Stage Overlap-…

实验楼项目

创建虚拟环境命令&#xff1a;python -m venv venv 项目整体分为六个个模块&#xff1a;用户信息相关模块、机构相关模块、课程相关模块、用户操作相关模块&#xff0c;评论区模块 搜索模块。 # 项目功能概括&#xff1a; 1、首先具有完整的用户登录&#xff0c;邮箱注册以及…

JDBC的实现(IDEA版)

前期准备 开发环境&#xff1a; IDEA 2021.1.3 JAVA 1.8 MYSQL 8.0.32 msql用户名:root 密码&#xff1a;123 下载MySQL JDBC 驱动 前往MySQL官网下载对应版本的MySQL Connector/J驱动 &#xff08;下载地址&#xff1a;https://dev.mysql.com/downloads/connector/j/&#xff…

基于rootfs构建Docker镜像

1. 背景 在实际工作中&#xff0c;由于系统本身版本过低&#xff0c;在接受新项目时出现系统版本过低而无法开始工作的问题。 为了解决该问题&#xff0c;使用Docker构建基于ubuntu-18.04的Docker镜像&#xff0c;以解决版本兼容问题。 2. 构建rootfs 2.1. 下载ubuntu-18.0…

HCIA复习1

HCIA复习 抽象语言---->编码 编码---->二进制 二进制--->电信号 处理电信号 OSI参考模型----OSI/RM 应用层 表示层 会话层 传输层 端口号&#xff1a;0-65535&#xff1b;1-1023是注明端口 网络层 IP地址 数据链路层 物理层 ARP协议 正向ARP---通过IP地址获取目的MAC地…

云服务器Ubuntu(无桌面)安装远程桌面

如果主机上安装的ubuntu是桌面版&#xff0c;打开桌面共享即可使用Windows的远程桌面进行链接。详细参考ubuntu20.10中设置桌面共享的三种方式(任选其一) 的第一部分。 本文主要说明如何在Ubuntu云服务器上安装远程桌面。 一、安装桌面环境 在 Ubuntu 源仓库有很多桌面环境供…

路由协议(OSPF、ISIS、BGP)实验配置

目录 OSPF基础实验 建立OSPF邻居 配置虚连接 配置接口的网络类型 配置特殊区域 配置路由选路 配置路由过滤 ISIS基础实验配置 配置ISIS邻居建立 配置认证 配置路由扩散 配置路由过滤 配置定时器 BGP基础实验配置 建立BGP对等体 建立IBGP对等体 建立EBGP对等体…

自动驾驶规划控制软硬一体化控制器解决方案(一)

随着社会的进步&#xff0c;汽车工业和电子科技发展迅速&#xff0c;车载电子器件的数量越来越多&#xff0c;汽车 电子的平台集成度越来越高&#xff0c;两者的融合正在革新着人们的驾乘体验。本文基于 x86 SoC 进 行系统设计&#xff0c;实现高效的汽车智能驾驶舱技术和高级驾…

ASGARD:单细胞导向的药物发现

异质性&#xff0c;或更具体地说&#xff0c;病变组织中的不同的细胞群&#xff0c;是许多复杂疾病治疗失败的主要原因&#xff08;如癌症、阿尔茨海默症、中风和COVID-19等&#xff09;&#xff0c;也是精准医疗成功的主要障碍。近年来&#xff0c;单细胞技术&#xff0c;特别…

【项目精选】基于Java的模拟写字板的设计与实现(视频+论文+源码)

点击下载源码 此系统是使用Java语言实现简易写字板程序&#xff0c;能够进行输入文字操作&#xff0c;并具有新建文件&#xff0c;打开文件&#xff0c;保存文件&#xff0c;退出&#xff0c;复制&#xff0c;粘贴&#xff0c;剪切&#xff0c;全选&#xff0c;撤销等多种基本…

电子技术——晶体管尺寸

电子技术——晶体管尺寸 在本节我们介绍关于IC设计的一个重要的参数晶体管尺寸&#xff08;例如长度和长宽比&#xff09;。我们首先考虑MOS反相器。 反相器尺寸 为了说明 (W/L)(W/L)(W/L) 的尺寸大小以及 (W/L)p(W/L)_p(W/L)p​ 和 (W/L)n(W/L)_n(W/L)n​ 的比例问题对于MO…