python Clickhouse 分布式表介绍和创建、插入和查询数据,以及解决遇到的问题

news2024/12/24 22:09:43

目录

一、分布式表和本地表

原理解析:

二、Clickhouse创建分布式表结构

三、python代码实现(亲测有效)

四、解决遇到的问题

解决 DB::Exception: Missing columns: 'wefgrgrfew' while processing query: 'wefgrgrfew', required columns: 'wefgrgrfew' 'wefgrgrfew': While executing ValuesBlockInputFormat. Stack trace:


一、分布式表和本地表

clickhouse中的表可以分为分布式表和本地表。

分布表包括逻辑表和物理表,,逻辑表就是表机构用于查询,物理表是实际存储数据的。

(1)分布式表:逻辑存在的表,自身不存储数据,可以理解为数据库中的视图, 一般建议使用分布式表做查询操作,分布式表引擎会将我们的查询请求路由本地表进行查询, 然后进行汇总最终返回给用户。

(2)本地表:真正存储数据的表。

原理解析:

分布式(Distributed)表引擎是分布式表的代名词,它⾃身不存储任何数据,⽽是作为数据分⽚的透明代理,能够⾃动的路由数据⾄集群中的各个节点,即分布式表需要和其他数据表⼀起协同⼯作。分布式表会将接收到的读写任务,分发到各个本地表,而实际上数据的存储也是保存在各个节点的本地表中。原理如下图:

二、Clickhouse创建分布式表结构

分布式表创建规则:

    使用on cluster语句在集群的某台机器上执行以下代码,即可在每台机器上创建本地表和分布式表,其中⼀张本地表对应着⼀个数据分⽚,分布式表通常以本地表加“_all”命名。它与本地表形成⼀对多的映射关系,之后可以通过分布式表代理操作多张本地表。
    这里有个要注意的点,就是分布式表的表结构尽量和本地表的结构一致。如果不一致,在建表时不会报错,但在查询或者插入时可能会抛出异常。
    在集群中使用,我们要加上on cluster <cluster_name>的ddl,这样我们的建表语句在某一台clickhouse实例上执行一次即可分发到集群中所有实例上执行。

(1)先在每一个分片上创建本地表:

-- auto-generated definition 物理表
CREATE TABLE IF NOT EXISTS test.test_log ON CLUSTER '{cluster}' (
      ts_date Date,
      ts_date_time DateTime,
      user_id Int64,
      event_type String,
      site_id Int64,
      groupon_id Int64,
      category_id Int64,
      merchandise_id Int64,
      search_text String
      -- A lot more columns...
    )ENGINE = ReplicatedMergeTree('/clickhouse/tables/{shard}/test/events_local','{replica}')
    PARTITION BY ts_date
    ORDER BY (ts_date,toStartOfHour(ts_date_time),site_id,event_type)
    SETTINGS index_granularity = 8192;

ReplicatedMergeTree引擎族接收两个参数:

  • ZK中该表相关数据的存储路径,ClickHouse官方建议规范化,如上面的格式/clickhouse/tables/{shard}/[database_name]/[table_name]
  • 副本名称,一般用{replica}即可。

观察一下上述ZK路径下的znode结构与内容。

[zk: localhost:2181(CONNECTED) 0] ls /clickhouse/tables/01/test/events_local
[metadata, temp, mutations, log, leader_election, columns, blocks, nonincrement_block_numbers, replicas, quorum, block_numbers]
 
[zk: localhost:2181(CONNECTED) 1] get /clickhouse/tables/04/test/events_local/columns
columns format version: 1
9 columns:
`ts_date` Date
`ts_date_time` DateTime
`user_id` Int64
`event_type` String
`site_id` Int64
`groupon_id` Int64
`category_id` Int64
`merchandise_id` Int64
`search_text` String
# ...................
 
[zk: localhost:2181(CONNECTED) 2] get /clickhouse/tables/07/test/events_local/metadata
metadata format version: 1
date column: 
sampling expression: 
index granularity: 8192
mode: 0
sign column: 
primary key: ts_date, toStartOfHour(ts_date_time), site_id, event_type
data format version: 1
partition key: ts_date
granularity bytes: 10485760
# ...................

 ReplicatedMergeTree引擎族在ZK中存储大量数据,包括且不限于表结构信息、元数据、操作日志、副本状态、数据块校验值、数据part merge过程中的选主信息等等。可见,ZK在复制表机制下扮演了元数据存储、日志框架、分布式协调服务三重角色,任务很重,所以需要额外保证ZK集群的可用性以及资源(尤其是硬盘资源)。

(2)分布式表引擎的创建模板:

支持分布式表的引擎是Distributed,建表DDL语句示例如下,_all只是分布式表名比较通用的后缀而已。

-- auto-generated definition 逻辑表
CREATE TABLE IF NOT EXISTS test.test_log_all ON CLUSTER sht_ck_cluster_1
AS test.events_local
ENGINE = Distributed(sht_ck_cluster_1,test,events_local,rand());

至此,ck_cluster集群的本地表test_log和分布式表test_log_all就创建完成了。

Distributed引擎需要以下几个参数,参数描述:

  • cluster:集群名称,在对分布式表执⾏读写的过程中,它会使⽤集群的配置信息来找到相应的host节点。 
  • database,table:本地表所在的数据库和本地表名称,用于将分布式表映射到本地表上。 
  • 本地表名称,
  • sharding_key(可选的): 分⽚键,分布式表会按照这个规则,将数据分发到各个本地表中。该键与config.xml中配置的分片权重(weight)一同决定写入分布式表时的路由,即数据最终落到哪个物理表上。它可以是表中一列的原始数据(如site_id),也可以是函数调用的结果,如上面的SQL语句采用了随机值rand()。注意该键要尽量保证数据均匀分布,另外一个常用的操作是采用区分度较高的列的哈希值,如intHash64(user_id)
  • --创建分布式表test_log_all,数据在读写时会根据rand()随机函数的取值,决定数据写⼊哪个分⽚,也可以用hash取值。 create table test_log_all on cluster ck_cluster ( totalDate Date, unikey    String ) engine = Distributed('ck_cluster', 'test', 'test_log', rand());

三、python代码实现(亲测有效)

from clickhouse_driver import Client

# 连接clickhouse数据库:host为ip地址,port为端口号,database为数据库名
client = Client(host='xxxxxx', port='9000', database='xxxxxx', user="xxxxxx", password="xxxxxx")


# 创建本地表
sql = """
CREATE TABLE if not exists test_local on cluster zhlw_dev
(
    id Int32,
    user_name String,
    age Int32
) ENGINE = MergeTree()
PARTITION BY id
ORDER BY id
SETTINGS index_granularity = 8192
"""
res = client.execute(sql)
print('#######res:',res)


# 创建分布式表
sql = """
CREATE TABLE if not exists test_all on cluster zhlw_dev
AS suzhou_map.test_local
ENGINE = Distributed(zhlw_dev, suzhou_map, test_local, rand());
"""  # cluster集群名,数据库名,本地表名,在读写时会根据rand()随机函数的取值来决定数据写⼊哪个分⽚

res = client.execute(sql)
print('#######res:',res)


# 打印表结构
sql1 = 'desc test_all'
sql2 = 'desc test_local'
ans = client.execute(sql1)
print('#######ans:',ans)
ans = client.execute(sql2)
print('#######ans:',ans)


# 写入数据
insert_sql = "insert into suzhou_map.test_all(id,user_name,age) values ('%s','%s','%s')" % (6,"wefgrgw",23)
ans = client.execute(insert_sql)



# 查询数据
sql = """SELECT * FROM test_all where id=6"""
print('#######result:', client.execute(sql))

可以看到,插入成功了。

注意:如果恰好存到连接的这台服务器的话就可以在本地表中查询到,否则在本地表中查询不到该条信息。

四、解决遇到的问题

解决 DB::Exception: Missing columns: 'wefgrgrfew' while processing query: 'wefgrgrfew', required columns: 'wefgrgrfew' 'wefgrgrfew': While executing ValuesBlockInputFormat. Stack trace:

问题原因:insert语句写的不对,所以导致插入失败。

解决

from clickhouse_driver import Client

# 连接clickhouse数据库:host为ip地址,port为端口号,database为数据库名
client = Client(host='xxxxxx', port='9000', database='xxxxxx', user="xxxxxx", password="xxxxxx")


# 写入数据
insert_sql = "insert into suzhou_map.test_all(id,user_name,age) values ('%s','%s','%s')" % (6,"wefgrgw",23)
ans = client.execute(insert_sql)
print('#######ans:',ans)

可以看到,成功插入数据了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/5010.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【深度学习】第三章:卷积神经网络

文章目录1. 为什么要使用卷积神经网络&#xff1f;2. 卷积2.1 数学上的卷积2.2 深度学习的卷积3. 卷积的构成4. 卷积的特征5. 卷积的计算(1) 一维卷积计算(2) 二维卷积计算(黑白图片)(2) 三维卷积计算(彩色图片)6. 卷积的优势7. 卷积神经网络7.1 卷积层7.2 池化层7.3 全连接层8…

浅聊一下Nginx

目录 Nginx的下载与安装 去Nginx官网安装&#xff1a;nginx news 直接进入下载页面进行安装 直接安装&#xff1a; 在服务器上使用命令对nginx的安装过程 Nginx命令 Nginx配置文件结构 Nginx配置文件&#xff08;conf/nginx.conf&#xff09;正题分为三个部分&#xff1…

Vue框架的学习(Vue操作指令学习三 V-bind )第三课

Vue框架的学习(Vue操作指令学习三 V-bind )第三课 语法的学习关键在于实操 案例一 V-bind基本操作 通过这个案例了解基本的操作 <div id"app"><img src"./img/1-1 (1).jpg" alt""><!--! 绑定图片利用V-bind指令 --><img v-…

一本通1073;救援(c++)

#include <iostream> #include <cmath> using namespace std; int main() {// 屋顶数目、人数int n, m;// x坐标、y坐标、实际距离、所需时间double x, y, s, sum 0;cin >> n; // 输入屋顶数目for (int i 1; i < n; i){// 输入x、y坐标和人数cin >&g…

Rockland丨艾美捷Rockland大鼠γ-球蛋白说明书

艾美捷Rockland大鼠γ-球蛋白&#xff1a; 大鼠γ-球蛋白组分由含有全抗体和其他非白蛋白血浆蛋白的血清组分组成。丙种球蛋白可用于治疗&#xff0c;以暂时提高患者的免疫力&#xff08;如免疫抑制感染后&#xff09;或增加接受肾移植的可能性。γ-球蛋白级分可作为对照试剂用…

【问题记录与解决】jupyter notebook 无法重命名,无法运行测试代码 || jupyter notebook 中常用的两个快捷键。

可以回顾下之前遇到的小问题&#xff0c;因为这次的问题解决就有赖于之前记录的内容喔&#xff01; 一、问题记录与解决】启动Jupyter&#xff0c;运行代码时报错【Error】 || 通过 Jupyter 建立的Python文件在哪儿 || Jupyter 中 移动 Python 文件 到 指定文件夹 二、【记录】…

nosql期末

文章目录第一章 绪论选择判断题简答题1. NoSQL和关系型数据库在设计目标上有何主要区别&#xff1f;2. 简要总结一下NoSQL数据库的技术特点。第二章 NoSQL数据库的基本原理选择判断简答题1. 描述分布式数据管理的特点。2 什么是CAP原理&#xff1f;CAP原理是否适用于单机环境&a…

数据结构之顺序表

目录一、什么是顺序表二、顺序表的分类1、静态顺序表2、动态顺序表(重要)三、C语言实现顺序表1、顺序表的基本结构&#xff08;2&#xff09;、动态顺序表2、动态顺序表中常见的函数接口&#xff08;1&#xff09;、初始化&#xff08;2&#xff09;、销毁函数&#xff08;3&am…

Java:什么是Quarkus?

Quarkus是一个全栈Kubernetes原生Java框架&#xff0c;用于Java虚拟机(JVM)和原生编译&#xff0c;专门针对容器优化Java&#xff0c;使其成为无服务器、云和Kubernete环境的有效平台。 Quarkus旨在与流行的Java标准、框架和库(如Eclipse MicroProfile和Spring)以及Apache Kafk…

基于FOC电路低次谐波抑制Simulink仿真

Foc电路如下图 当Sa导通时当Sb导通时当Sa导通时 Dc电压全被C2吃了 Lr电流向→ 当Sb导通时 Dc电压全被C1吃了 Lr电流向← 假设C1C2C&#xff0c;开关频率接近无穷、占空比为50%时 Uc1Uc2Udc/2、Ilr0 当占空比D>50%,Uc2增大&#xff0c;Ilr→增大 当占空比D<50%,Uc1增…

【java基础系列】13- java的面向对象

面向对象 程序是为了模拟现实世界&#xff0c;解决现实问题而使用计算机语言编写的指令集合。 1、面向对象的思想&#xff08;Object Oriented Programming&#xff09; 一切客观存在的事物都是对象&#xff0c;万物皆对象。任何对象&#xff0c;一定具有自己的特征和行为 特…

【计算机网络】HTTPS协议的加密流程

文章目录HTTPS简介关于加密过程中的名词SSL中的加密操作对称加密非对称加密证书HTTPS执行流程总结HTTPS简介 HTTPS协议也是应用层的协议&#xff0c;它是在HTTP协议的基础上引入了加密层&#xff0c;称为SSL&#xff08;旧的叫法&#xff09;或TLS&#xff08;新的叫法&#x…

如何用卡片翻转动画制作一个星座运势页面

效果展示&#xff1a;前置准备&#xff1a; 图片素材 有文案素材的detail页面 配置按钮组件触发器 具体步骤&#xff1a; 添加配置按钮、图片组件 配置图片组件动画和触发器步骤分解&#xff1a; 添加配置轮播图基础组件 添加 按钮 组件 添加 图片 组件 选中 按钮 组件 在 数据…

【菜鸡读论文】Learning-based Video Motion Magnification

Learning-based Video Motion Magnification 哈喽&#xff0c;大家好呀&#xff01; 这周有点开心&#xff0c;看到了一篇很有趣的论文。最近天气好热&#xff0c;明明已经十一月了&#xff0c;最近的温度却一直在25度以上&#xff0c;甚至有种可以过夏天&#xff0c;穿裙子的…

怎么给图片添加贴纸?介绍几个简单的方法

不知道大家会不会跟我有同样的想法&#xff0c;不论是经过精心调整拍摄出来的照片&#xff0c;还是平时随手一拍的照片&#xff0c;要发到社交软件上时&#xff0c;都想要添加一些有趣的贴纸或者文字进去。如果照片的内容过于空乏&#xff0c;添加贴纸文字进去会增加照片的趣味…

数学基础之博弈论

1.移棋子游戏 mex为最小的不存在的自然数 #include<bits/stdc.h> using namespace std; const int N2e310,M2e410; int h[N],e[M],ne[M],idx; int n,m,k; int f[N]; void add(int a,int b) {e[idx]b,ne[idx]h[a],h[a]idx; } int sg(int u)//求sg函数 {if(f[u]!-1) return…

Ubuntu16.04搭建UbertoothOne环境

Ubuntu16.04搭建UbertoothOne环境 【支持原创&#xff0c;转载需经过作者同意&#xff0c;否则追究相关责任】 相关链接 ubertoothone 主页ubertoothone github 环境说明 操作系统&#xff1a;Ubuntu 16.04.3 LTSUbertooth软件版本&#xff1a;ubertooth 2020-12-R1Libbtb…

想要精通算法和SQL的成长之路 - 跳跃游戏系列

想要精通算法和SQL的成长之路 - 跳跃游戏系列前言一. 跳跃游戏二. 跳跃游戏II前言 想要精通算法和SQL的成长之路 - 系列导航 一. 跳跃游戏 原题链接 给定一个非负整数数组 nums &#xff0c;你最初位于数组的第一个下标 。数组中的每个元素代表你在该位置可以跳跃的最大长度。…

TCP、UDP API调用(实时聊天)

1. TCP连接 服务器创建ServerSocket&#xff0c;并指定端口进行监听&#xff1b; ServerSocket通过accept()接受用户请求并返回Socket&#xff0c;否则一直处于监听状态&#xff0c;线程阻塞&#xff1b; 客户端创建Socket&#xff0c;需要指定服务器的ip和端口&#xff0c;向服…

OpenGL之纹理映射

1.1 Texture Mapping 1.1.1 在OpenGL编程中&#xff0c;应用纹理主要分为四步&#xff1a; 创建纹理对象&#xff0c;并为它装载一个纹理&#xff1b; glGenTexture(1,&texName); //为每个纹理编号&#xff0c;1代表生成一个编号 glBindTexture(GL_TEXTURE_2D,texNam…