clickhouse单节点以及集群的安装

news2025/1/21 4:51:32

安装

因为clickHouse很消耗cpu资源,所以需要修改:用户可打开的文件数量和最大进程数:

 vim /etc/security/limits.conf 

* soft nofile  65536
* hard nofile  65536
* soft nproc  131072
* hard nproc  131072

//第一列代表用户用户组,*代表所有,正常应该是“用户名@用户组”
//第二列soft代表软限制(正常生效状态),hard代表硬限制(最大)
//第三列 nofile代表文件数量,nproc代表进程数

另外还需要在limits.d/20-nproc.conf 中修改配置,防止覆盖上述的配置

vim /etc/security/limits.d/20-nproc.conf 

* soft nofile  65536
* hard nofile  65536
* soft nproc  131072
* hard nproc  131072

使用ulimit -a,可以查看配置是否生效

安装相应的依赖

yum install -y libtool

yum install -y *unixODBC*

Centos取消SELINUX(linux的一种安全机制,非常强大,但是也非常麻烦),是内核级别的东西,必须重启,也可以设置为临时生效,等下次服务器维护重启,配置自然也生效了

vim /etc/selinux/config 

SELINUX=disabled

准备好安装包,官网:https://clickhouse.com/docs/en/install
21.7.3.14 链接:https://pan.baidu.com/s/1pCU41L4K2rUbQIZe6V8TjQ?pwd=qycr
提取码:qycr

全部安装
rpm -ivh *.rpm

默认用户是:default

密码:123456

确认是否都安装成功
rpm -qa |grep clickhouse

rpm安装文件的位置

配置文件默认位置
cd /etc/clickhouse-server/

默认lib文件
cd /var/lib/clickhouse/

默认bin文件
cd /usr/bin

默认log文件:
cd /var/log/clickhouse-server

数据文件:
cd /var/lib/clickhouse/

clickHouse默认只有本机可以访问,把下图第一行注释去掉,就代表不做限制
在这里插入图片描述
启动:下面两种启动方式都可以

 systemctl status clickhouse-server.service 
 
 clickhouse  status
 
 重启
 clickhouse restart


clickhouse-client --password

clickhouse默认就是开机自启的

单机版可以不用启动zk,但是集群是需要zk来调度的

副本

​ 为了保证高可用,就需要做集群

​ 在clickhouse集群中,没有主从一说,所有的节点都是主,相互之间互为副本,某一个节点的数据发生变化,就会提交写日志给zookeeper,其他节点就会从zookeeper监听到数据发生了变化,然后从数据发生变化的节点同步数据

接入zookeeper

可以在/etc/clickhouse-server/config.xml 中直接修改配置
在这里插入图片描述
根据自己的zookeeper更改为:

vim /etc/clickhouse-server/config.xml

    <zookeeper>
        <node>
            <host>192.168.158.158</host>
            <port>2181</port>
        </node>
        <node>
            <host>192.168.158.159</host>
            <port>2181</port>
        </node>
        <node>
            <host>192.168.158.160</host>
            <port>2181</port>
        </node>
    </zookeeper>


给不同的clickhouse节点分别配置本机ip

vim /etc/clickhouse-server/config.xml

<interserver_http_host>192.168.158.155</interserver_http_host>
<interserver_http_host>192.168.158.156</interserver_http_host>
<interserver_http_host>192.168.158.157</interserver_http_host>

副本间的同步默认是9009端口,需要开放端口

<interserver_http_port>9009</interserver_http_port>
 
 firewall-cmd --zone=public --add-port=9009/tcp --permanent
 
 firewall-cmd --reload

副本只针对合并树家族

CREATE TABLE test (
	name String,
	age UInt8 TTL ctime+interval 10 SECOND,
	ctime Date
) ENGINE = ReplicatedMergeTree('/clickhouse/table/01/test','test-01')
ORDER BY (name,ctime);


CREATE TABLE test (
	name String,
	age UInt8 TTL ctime+interval 10 SECOND,
	ctime Date
) ENGINE = ReplicatedMergeTree('/clickhouse/table/01/test','test-02')
ORDER BY (name,ctime);

-- 两张表路径需要一样,名字必须不一样
-- ReplicatedMergeTree(路径,名称)

建表成功,给其中一张表插入数据,另一张会自动同步

分片集群

副本可以提高数据的可用性,降低了数据丢失的风险,但是服务器需要容纳全量的数据,如果数据量很大或者想要横向扩展,就需要分片了

Distributed分布式表,表引擎本身不存储数据,类似于中间件,通过分布式逻辑来写入、分发和路由来操作多台节点不同分片的分布式数据,是表级别的

内部同步

internal_replication(内部同步)

  • 如果内部同步为true,客户端发出命令,向分布式表写入,分布式表通知分片写入,然后由分片自己向自己的副本同步
  • 如果内部同步为false,客户端发出命令,向分布式表写入,分布式表通知分片和副本写入,这种情况有可能出现副本间的数据一致性的问题

客户端发出读请求,优先选择errors_count(错误数)小的副本,如果错误数相同,还有:随机、顺序或者host名称近似等方式

分片,下面是资源不够用的情况,只有3个节点,没有副本

vim /etc/clickhouse-server/config.xml

	<colony_test> <!-- 集群名称--> 
		<!--第一个分片-->
       <shard>
          <!--# 内部同步--> 
           <internal_replication>true</internal_replication>
           <!--一个副本-->
           <replica>
               
           </replica>
           <!--一个副本-->
           <replica> 
               
           </replica>
       </shard>
       <!--第二个分片-->
       <shard>
       </shard>
        
	</colony_test>

在 <remote_servers>中编辑

#默认的通信端口

<tcp_port>9000</tcp_port>
<colony_test> <!-- 集群名称-->
        <!--一个分片-->
       <shard>
          <!--# 内部同步-->
           <internal_replication>true</internal_replication>
           <!--一个副本-->
           <replica>
               <host>192.168.158.155</host>
               <port>9000</port>
               <user>default</user>
               <password>123456</password>
           </replica>
       </shard>
       
     <shard>
          <!--# 内部同步-->
           <internal_replication>true</internal_replication>
           <!--一个副本-->
           <replica>
               <host>192.168.158.156</host>
               <port>9000</port>
               <user>default</user>
               <password>123456</password>
           </replica>
       </shard>

     <shard>
          <!--# 内部同步-->
           <internal_replication>true</internal_replication>
           <!--一个副本-->
           <replica>
               <host>192.168.158.157</host>
               <port>9000</port>
               <user>default</user>
               <password>123456</password>
           </replica>
       </shard>

</colony_test>


	<!--宏定义,各节点自定义的配置 -->
    
    <macros>
        <shard>01</shard>
        <replica>clickhouse-1-3</replica>
    </macros>
  

	<macros>
        <shard>02</shard>
        <replica>clickhouse-2-3</replica>
    </macros>
    
   <macros>
        <shard>03</shard>
        <replica>clickhouse-3-1</replica>
    </macros>
firewall-cmd --zone=public --add-port=9000/tcp --permanent
 
firewall-cmd --reload

建表语句

create table 表名 on cluster 集群名 (
 id UInt32,
 sku_id String,
 total_amount Decimal(16,2),
 create_time Datetime
) engine 
-- 这里的两个变量对应配置文件中的变量
=ReplicatedMergeTree('/clickhouse/tables/{shard}/st_order_mt','{replica}')
 partition by toYYYYMMDD(create_time)
 primary key (id)
 order by (id,sku_id);
 
 -- on cluster 会在指定的集群建立本地表
 
 
 create table st_order_mt on cluster colony_test (
 id UInt32,
 sku_id String,
 total_amount Decimal(16,2),
 create_time Datetime
) engine 
=ReplicatedMergeTree('/clickhouse/tables/{shard}/st_order_mt','{replica}')
 partition by toYYYYMMDD(create_time)
 primary key (id)
 order by (id,sku_id);

先有本地表,再建立分布式表

create table st_order_mt_all2 on cluster colony_test
(
 id UInt32,
 sku_id String,
 total_amount Decimal(16,2),
 create_time Datetime
)engine = Distributed(colony_test,default, st_order_mt,hiveHash(sku_id));

-- 参数含义:
-- Distributed(集群名称,库名,本地表名,分片键)
-- 分片键必须是整型数字,所以用 hiveHash(取hash值) 函数转换,也可以 rand()

然后向分布式表插入数据

insert into st_order_mt_all2 values
(201,'sku_001',1000.00,'2020-06-01 12:00:00') ,
(202,'sku_002',2000.00,'2020-06-01 12:00:00'), 
(203,'sku_004',2500.00,'2020-06-01 12:00:00'),
(204,'sku_002',2000.00,'2020-06-01 12:00:00'),
(205,'sku_003',600.00,'2020-06-02 12:00:00');

可以看到数据会根据分片的键,插入到了不同的本地表中

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/40797.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[LeetCode周赛复盘] 第 92 场双周赛20221015

[LeetCode周赛复盘] 第 92 场双周赛20221015 一、本周周赛总结二、 [Easy] 6249. 分割圆的最少切割次数1. 题目描述2. 思路分析3. 代码实现三、[Medium] 6277. 行和列中一和零的差值1. 题目描述2. 思路分析3. 代码实现四、[Medium] 6250. 商店的最少代价1. 题目描述2. 思路分析…

org.springframework.test.util.ReflectionTestUtils.invokeMethod方法的使用

序言 为什么要用spring框架的ReflectionTestUtils工具类的invokeMethod方法&#xff1f; 当我们想要调用一个实例对象的私有方法时&#xff0c;我们可以利用反射机制去调用该私有方法。 Demo 含有私有方法的类&#xff0c; public final class DemoClass {private static …

Spring - BeanFactoryPostProcessor 扩展接口

文章目录Preorg.springframework.beans.factory.config.BeanFactoryPostProcessor源码探究1 是否实现BeanDefinitionRegistryPostProcessor 接口&#xff0c;分别写入集合2 处理实现了的PriorityOrdered和 BeanDefinitionRegistryPostProcessors 的 bean3. 处理实现了的Ordered…

Linux基础

一、Linux发展历程 1.1、Linux前身-Unix 1968年Multics 项目 MIT|、Bell 实验室、美国通用电气有限公司走到了一起&#xff0c;致力于开发Multics项目。到后期由于开发进度不是很好&#xff0c;MIT 和Bell实验室相继离开这个项目的开发&#xff0c;最终导致项目搁浅。 1970年 …

接口测试用例设计方法方式和流程一文到底

目录 1、通用信息校验 1、URL校验 2、请求方法校验 3、请求头 4、接口鉴权 2、接口参数校验 1、参数的必填项校验 2、参数的选填项校验 3、参数长度校验 4、参数数据类型校验 5、参数的有效性校验 6、参数的唯一性校验 7、参数关联项校验 3、其他补充项 1、幂等…

Kafka必问面试题

一、说说你对kafka的理解 kafka本身是一个流式处理平台&#xff0c;同时也具有消息系统得能力&#xff0c;在我们得系统中更多得是把kafka作为一个消息队列系统来使用 而如果来介绍kafka&#xff0c;大致可以分为这几块&#xff1a; kafka集群元数据得管理&#xff0c;集群得…

【云原生 | Kubernetes 实战】04、k8s 名称空间和资源配额

目录 一、什么是命名空间&#xff1f; 二、namespace 应用场景 三、namespacs 使用案例 四、namespace 资源限额 一、什么是命名空间&#xff1f; Kubernetes 支持多个虚拟集群&#xff0c;它们底层依赖于同一个物理集群。 这些虚拟集群被称为命名空间。 命名空间namespace…

《基础IO》

【一】C文件接口 我们使用C语言向文件写入东西的时候&#xff0c;基本上的套路都是先打开文件&#xff0c;然后调用C的文件接口&#xff0c;向文件中输入相应的数据&#xff0c;然后关闭文件。 a.size_t fwrite( const void *buffer, size_t size, size_t count, FILE *stream …

AlibabaP9整理出微服务笔记:Spring微服务不止架构和设计

微服务是一种架构风格&#xff0c;也是一种针对现代业务需求的软件开发方法。微服务并非发明出来的&#xff0c;确切地说是从之前的架构风格演进而来的。 但是深入介绍Spring Boot、Spring Cloud、Docker、 Mesos和Marathon掌握响应式微服务设计原则&#xff0c;轻松构建大规模…

每天五分钟机器学习:常用的聚类算法——k均值的运行原理和实现

本文重点 K-均值是聚类算法之一,该算法接受一个没有标签的数据集,然后将数据聚类成不同的簇。 k-均值运行原理 K-均值是一个迭代算法,假设我们想要将数据聚类成k个组,其方法为: 1.首先选择 k 个随机的点(样本点),称为聚类中心。 2.遍历数据集中的每一个数据,计算距离…

single sign on 与 cas

single sign on 与 cas cookie与session与token、普通登录、单点登录、三种常见实现方式、cas-server、cas-client 注&#xff1a;oauth2 是保护服务端资源&#xff0c;即受 oauth2 保护的资源能不能被客户端访问&#xff1b;cas 是保护用户信息&#xff0c;即该用户有没有权…

第五届传智杯【初赛】- F-二人的大富翁游戏

F-二人的大富翁游戏 题目预览 题目背景(推荐阅读 题目预览) 如果遇到提交失败&#xff0c;请多次刷新&#xff0c;多次提交&#xff0c;会有成功几率 作为大学生&#xff0c;莲子和梅莉有着比高中时更为闲暇的课余时光。在没有课的时候&#xff0c;她们喜欢玩大富翁这一游戏…

08.OpenWrt-连接wifi网络

08.OpenWrt-连接wifi网络 8.1 连接其他wifi热点上网 rootOpenWrt:/# cat /etc/config/wireless config wifi-device ‘radio0’ option type ‘mac80211’ option path ‘platform/10300000.wmac’ option channel ‘1’ option band ‘2g’ option htmode ‘HT20’ option …

NFIQ怎么使用?NFIQ2.0软件怎么操作来进行图片质量得分计算?NFIQ2.0支持什么图片格式

一、背景 前段时间准备写个指纹图像生成论文&#xff0c;结果需要用NFQI进行分析,参考的论文中都是结果&#xff0c;还是折线图&#xff0c;看着好厉害&#xff0c;但论文中没有说明具体咋出来的值。网上找了半天相关的&#xff0c;一个有用的信息都没有&#xff0c;好不容易找…

一文带你学透Java Servlet(建议收藏)

✅作者简介&#xff1a;热爱国学的Java后端开发者&#xff0c;修心和技术同步精进。 &#x1f34e;个人主页&#xff1a;Java Fans的博客 &#x1f34a;个人信条&#xff1a;不迁怒&#xff0c;不贰过。小知识&#xff0c;大智慧。 &#x1f49e;当前专栏&#xff1a;前端开发者…

【滤波跟踪】扩展卡尔曼滤波的无人机路径跟踪【含Matlab源码 2236期】

⛄一、EKF算法简介 扩展卡尔曼滤波是利用泰勒级数展开方法将非线性滤波问题转化成近似的线性滤波问题,利用线性滤波的理论求解非线性滤波问题的次优滤波算法。其系统的状态方程和量测方程分别如式(1)、式(2)所示: 式中,X(k)为n维的随机状态向量序列,Z(k)为n维的随机量测向量序…

【图像处理】基于图像聚类的无监督图像排序问题(Matlab代码实现)

&#x1f468;‍&#x1f393;个人主页&#xff1a;研学社的博客 &#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜…

推荐算法高级案例-通过WideDeep算法进行特征组合的商品推荐详细教程 代码+数据

案例知识点 推荐系统任务描述:通过用户的历史行为(比如浏览记录、购买记录等等)准确的预测出用户未来的行为;好的推荐系统不仅如此,而且能够拓展用户的视野,帮助他们发现可能感兴趣的却不容易发现的item;同时将埋没在长尾中的好商品推荐给可能感兴趣的用户。 方法概述:…

R语言与RStudio的下载与安装方法

本文介绍R语言及其集成开发环境RStudio的下载、安装方法。 R语言是一个属于GNU操作系统的开源软件&#xff0c;在数据统计与分析、可视化等方面具有优秀的表现&#xff1b;而RStudio则是R语言的集成开发环境&#xff08;IDE&#xff09;&#xff0c;可以帮助我们更好地编辑、调…

《PyTorch深度学习实战》学习小结

前言 PyTorch是Facebook发布的一款非常具有个性的深度学习框架&#xff0c;它和Tensorflow&#xff0c;Keras&#xff0c;Theano等其他深度学习框架都不同&#xff0c;它是动态计算图模式&#xff0c;其应用模型支持在运行过程中根据运行参数动态改变&#xff0c;而其他几种框架…