ClickHouse:对不同类型Join的支持

news2025/1/14 18:24:04

ClickHouse 是一个流行的开源实时分析数据库,旨在为需要在大量数据上进行超低延迟分析查询的用例提供最佳性能。为了在分析应用程序中实现最佳性能,通常需要将表组合在一起进行数据非规范化处理。扁平化表通过避免联接来帮助最小化查询延迟,以换取增量 ETL 复杂性,通常可以接受以获得次秒级查询。

然而,对于一些工作负载,如来自传统数据仓库的工作负载,非规范化数据并不总是实用的。有时,用于分析查询的源数据的一部分需要保持规范化。这些规范化表需要较少的存储空间,并提供数据组合的灵活性,但对于某些类型的分析,它们在查询时间需要联接。

幸运的是,与一些误解相反,ClickHouse 完全支持联接!除了支持所有标准 SQL JOIN 类型外,ClickHouse 还提供了其他对分析工作负载和时间序列分析有用的 JOIN 类型。ClickHouse 允许您在六种不同的算法之间选择联接执行方式,或者允许查询规划器自适应选择并在运行时动态更改算法,具体取决于资源可用性和使用情况。

ClickHouse支持的Join类型

我们使用来自关系数据集存储库的标准化IMDB数据集的Venn图和示例查询来解释ClickHouse中可用的Join类型。

创建和加载表的说明在这里。该数据集也可在我们的playground中使用,供希望重现查询的用户使用。

我们将使用示例数据集中的四个表:

以上四个表中的数据代表电影。一部电影可以有一个或多个流派。电影中的角色由演员扮演。图表中的箭头表示外键到主键的关系。例如,genres表中一行的movie_id列包含了movies表中一行的id值。

电影和演员之间存在着多对多的关系。通过使用roles表,这种多对多的关系被规范化为两个一对多的关系。roles表中的每一行包含了movies表和actors表中的id字段的值。

内连接Inner Join

内连接会返回每个匹配连接键的行对的列值,其中包含左表中的行的列值和右表中的行的列值。如果一行有多个匹配项,则返回所有匹配项(也就是说,具有匹配连接键的行会产生笛卡尔积)。

下面这个查询通过将电影表与类型表连接来查找每部电影的类型:

SELECT    m.name AS name,    g.genre AS genreFROM movies AS mINNER JOIN genres AS g ON m.id = g.movie_idORDER BY    m.year DESC,    m.name ASC,    g.genre ASCLIMIT 10;
┌─name───────────────────────────────────┬─genre─────┐│ Harry Potter and the Half-Blood Prince │ Action    ││ Harry Potter and the Half-Blood Prince │ Adventure ││ Harry Potter and the Half-Blood Prince │ Family    ││ Harry Potter and the Half-Blood Prince │ Fantasy   ││ Harry Potter and the Half-Blood Prince │ Thriller  ││ DragonBall Z                           │ Action    ││ DragonBall Z                           │ Adventure ││ DragonBall Z                           │ Comedy    ││ DragonBall Z                           │ Fantasy   ││ DragonBall Z                           │ Sci-Fi    │└────────────────────────────────────────┴───────────┘
10 rows in set. Elapsed: 0.126 sec. Processed 783.39 thousand rows, 21.50 MB (6.24 million rows/s., 171.26 MB/s.)

请注意,Inner 关键字可以省略。可以使用以下其他连接类型之一来扩展或更改 Inner Join 的行为。

(Left/Right/Full) Outer Join

Left Outer Join 与 Inner Join 的行为相同,但对于不匹配的左表行,ClickHouse 会返回右表列的默认值。

Right Outer Join 查询类似,并返回右表中不匹配行的值,以及左表列的默认值。

Full Outer Join 查询将左右外连接结合起来,返回左表和右表中不匹配行的值,并分别使用左表和右表的默认值填充列。

请注意,ClickHouse 可以配置为返回 NULL 而不是默认值(但出于性能原因,这种方法不太推荐)。

此查询通过查询所有在 genres 表中没有匹配项的 movies 表行来查找没有流派的所有电影,因此在查询时间获取 movie_id 列的默认值 0:​​​​​​​

SELECT m.nameFROM movies AS mLEFT JOIN genres AS g ON m.id = g.movie_idWHERE g.movie_id = 0ORDER BY    m.year DESC,    m.name ASCLIMIT 10;

┌─name──────────────────────────────────────┐│ """Pacific War, The"""                    ││ """Turin 2006: XX Olympic Winter Games""" ││ Arthur, the Movie                         ││ Bridge to Terabithia                      ││ Mars in Aries                             ││ Master of Space and Time                  ││ Ninth Life of Louis Drax, The             ││ Paradox                                   ││ Ratatouille                               ││ """American Dad"""                        │└───────────────────────────────────────────┘
10 rows in set. Elapsed: 0.092 sec. Processed 783.39 thousand rows, 15.42 MB (8.49 million rows/s., 167.10 MB/s.)

Cross Join

因为Cross Join不考虑任何连接键,它会对两个表进行完全的笛卡尔积运算,即左表的每一行都会与右表的每一行组合。因此,以下查询将电影表中的每一行与类别表中的每一行组合:​​​​​​​

SELECT    m.name,    m.id,    g.movie_id,    g.genreFROM movies AS mCROSS JOIN genres AS gLIMIT 10;
┌─name─┬─id─┬─movie_id─┬─genre───────┐│ #28  │  0 │        1 │ Documentary ││ #28  │  0 │        1 │ Short       ││ #28  │  0 │        2 │ Comedy      ││ #28  │  0 │        2 │ Crime       ││ #28  │  0 │        5 │ Western     ││ #28  │  0 │        6 │ Comedy      ││ #28  │  0 │        6 │ Family      ││ #28  │  0 │        8 │ Animation   ││ #28  │  0 │        8 │ Comedy      ││ #28  │  0 │        8 │ Short       │└──────┴────┴──────────┴─────────────┘
10 rows in set. Elapsed: 0.024 sec. Processed 477.04 thousand rows, 10.22 MB (20.13 million rows/s., 431.36 MB/s.)

前面的例子查询本身意义不大,但可以通过添加where子句来扩展,以关联匹配的行以复制查找每部电影的类型(s)的内部连接行为:​​​​​​​

SELECT    m.name,    g.genreFROM movies AS mCROSS JOIN genres AS gWHERE m.id = g.movie_idORDER BY    m.year DESC,    m.name ASCLIMIT 10;
┌─name───────────────────────────────────┬─genre─────┐│ Harry Potter and the Half-Blood Prince │ Action    ││ Harry Potter and the Half-Blood Prince │ Adventure ││ Harry Potter and the Half-Blood Prince │ Family    ││ Harry Potter and the Half-Blood Prince │ Fantasy   ││ Harry Potter and the Half-Blood Prince │ Thriller  ││ DragonBall Z                           │ Action    ││ DragonBall Z                           │ Sci-Fi    ││ DragonBall Z                           │ Fantasy   ││ DragonBall Z                           │ Comedy    ││ DragonBall Z                           │ Adventure │└────────────────────────────────────────┴───────────┘
10 rows in set. Elapsed: 0.441 sec. Processed 783.39 thousand rows, 21.50 MB (1.78 million rows/s., 48.78 MB/s.)

一种交叉连接的替代语法是在 from 子句中用逗号分隔多个表。

如果查询的 where 部分有连接表达式,ClickHouse 将交叉连接重写为内部连接。

我们可以通过 EXPLAIN SYNTAX(返回查询执行之前重写为的句法优化版本)来检查示例查询的情况:​​​​​​​

EXPLAIN SYNTAXSELECT    m.name AS name,    g.genre AS genreFROM movies AS mCROSS JOIN genres AS gWHERE m.id = g.movie_idORDER BY    m.year DESC,    m.name ASC,    g.genre ASCLIMIT 10;
┌─explain─────────────────────────────────────┐│ SELECT                                      ││     name AS name,                           ││     genre AS genre                          ││ FROM movies AS m                            ││ ALL INNER JOIN genres AS g ON id = movie_id ││ WHERE id = movie_id                         ││ ORDER BY                                    ││     year DESC,                              ││     name ASC,                               ││     genre ASC                               ││ LIMIT 10                                    │└─────────────────────────────────────────────┘
11 rows in set. Elapsed: 0.077 sec.

在经过语法优化后的交叉连接查询版本中,Inner Join子句包含了all关键字。该关键字被显式添加,以保持Cross Join的笛卡尔积语义,即使它被重写为Inner Join,笛卡尔积也可以被禁用。

正如上文提到的,对于Right Outer Join,Outer关键字可以省略,并且可以添加可选的all关键字。您可以写All Right Join,它会正常工作。

Left/Right Semi Join

Left/Right Semi Join是一种特殊的Join,它只返回符合Join条件的左/右表的行。Left Semi Join只返回左表中至少存在一个Join条件匹配的行,Right Semi Join类似,只返回右表中至少存在一个Join条件匹配的行。但是只返回第一条匹配的结果,不会产生笛卡尔积。

下面的查询找到了所有在2023年参演过电影的演员/女演员。请注意,如果使用常规的(Inner)Join,则如果演员在2023年有多个角色,则会多次出现:​​​​​​​

SELECT    a.first_name,    a.last_nameFROM actors AS aLEFT SEMI JOIN roles AS r ON a.id = r.actor_idWHERE toYear(created_at) = '2023'ORDER BY id ASCLIMIT 10;
┌─first_name─┬─last_name──────────────┐│ Michael    │ 'babeepower' Viera     ││ Eloy       │ 'Chincheta'            ││ Dieguito   │ 'El Cigala'            ││ Antonio    │ 'El de Chipiona'       ││ José       │ 'El Francés'           ││ Félix      │ 'El Gato'              ││ Marcial    │ 'El Jalisco'           ││ José       │ 'El Morito'            ││ Francisco  │ 'El Niño de la Manola' ││ Víctor     │ 'El Payaso'            │└────────────┴────────────────────────┘
10 rows in set. Elapsed: 0.151 sec. Processed 4.25 million rows, 56.23 MB (28.07 million rows/s., 371.48 MB/s.)

Left/Right Anti Join

左反连接返回左表中所有未匹配的行的列值。

类似地,右反连接返回右表中所有未匹配的行的列值。

我们之前示例的外连接查询可以用反连接重写,用于查找数据集中没有分类的电影:

SELECT m.nameFROM movies AS mLEFT ANTI JOIN genres AS g ON m.id = g.movie_idORDER BY    year DESC,    name ASCLIMIT 10;
┌─name──────────────────────────────────────┐│ """Pacific War, The"""                    ││ """Turin 2006: XX Olympic Winter Games""" ││ Arthur, the Movie                         ││ Bridge to Terabithia                      ││ Mars in Aries                             ││ Master of Space and Time                  ││ Ninth Life of Louis Drax, The             ││ Paradox                                   ││ Ratatouille                               ││ """American Dad"""                        │└───────────────────────────────────────────┘
10 rows in set. Elapsed: 0.077 sec. Processed 783.39 thousand rows, 15.42 MB (10.18 million rows/s., 200.47 MB/s.)

Left/Right/Inner Any Join

Left Any Join是左外连接+左半连接的组合,这意味着ClickHouse返回每个左表的行的列值,或者与右表的匹配行的列值组合,或者与右表的默认列值组合,如果没有匹配项。如果左表的一行在右表中有多个匹配项,则ClickHouse仅返回第一个匹配项的组合列值(禁用笛卡尔积)。

同样,Right Any Join是Right Outer Join + Right Semi Join的组合。

Inner Any Join是禁用笛卡尔积的Inner Join。

我们使用两个临时表(left_table和right_table)使用values表函数构建一个抽象示例来演示Left Any Join。

WITH    left_table AS (SELECT * FROM VALUES('c UInt32', 1, 2, 3)),    right_table AS (SELECT * FROM VALUES('c UInt32', 2, 2, 3, 3, 4))SELECT    l.c AS l_c,    r.c AS r_cFROM left_table AS lLEFT ANY JOIN right_table AS r ON l.c = r.c;
┌─l_c─┬─r_c─┐│   1 │   0 ││   2 │   2 ││   3 │   3 │└─────┴─────┘
3 rows in set. Elapsed: 0.002 sec.

这是使用 Right Any Join 的相同查询:

WITH    left_table AS (SELECT * FROM VALUES('c UInt32', 1, 2, 3)),    right_table AS (SELECT * FROM VALUES('c UInt32', 2, 2, 3, 3, 4))SELECT    l.c AS l_c,    r.c AS r_cFROM left_table AS lRIGHT ANY JOIN right_table AS r ON l.c = r.c;
┌─l_c─┬─r_c─┐│   2 │   2 ││   2 │   2 ││   3 │   3 ││   3 │   3 ││   0 │   4 │└─────┴─────┘
5 rows in set. Elapsed: 0.002 sec.

以下是使用 Inner Any Join 的查询:

WITH    left_table AS (SELECT * FROM VALUES('c UInt32', 1, 2, 3)),    right_table AS (SELECT * FROM VALUES('c UInt32', 2, 2, 3, 3, 4))SELECT    l.c AS l_c,    r.c AS r_cFROM left_table AS lINNER ANY JOIN right_table AS r ON l.c = r.c;
┌─l_c─┬─r_c─┐│   2 │   2 ││   3 │   3 │└─────┴─────┘
2 rows in set. Elapsed: 0.002 sec.

ASOF Join

ASOF Join是由Martijn Bakker和Artem Zuikov在2019年为ClickHouse实现的,它提供了非精确匹配的能力。如果左表中的一行在右表中没有完全匹配的行,则会使用最接近的匹配行作为匹配。

这在时间序列分析中特别有用,可以显著减少查询复杂性。

我们将以股票市场数据的时间序列分析为例。quotes表包含特定时间的股票符号报价。在我们的示例数据中,价格每10秒钟更新一次。trades表列出股票交易-在特定时间买入了特定数量的股票:

为了计算每次交易的具体成本,我们需要将交易与其最接近的报价时间进行匹配。

使用ASOF Join实现这一点很简单,我们可以使用ON子句来指定一个精确的匹配条件,使用AND子句来指定最接近的匹配条件——我们正在寻找在交易日期之前或者正好等于交易日期的最接近的quotes表中的行:

SELECTt.symbol,t.volume,t.time AS trade_time,q.time AS closest_quote_time,q.price AS quote_price,t.volume * q.price AS final_priceFROM trades tASOF LEFT JOIN quotes q ON t.symbol = q.symbol AND t.time >= q.timeFORMAT Vertical;
Row 1:──────symbol:             ABCvolume:             200trade_time:         2023-02-22 14:09:05closest_quote_time: 2023-02-22 14:09:00quote_price:        32.11final_price:        6422
Row 2:──────symbol:             ABCvolume:             300trade_time:         2023-02-22 14:09:28closest_quote_time: 2023-02-22 14:09:20quote_price:        32.15final_price:        9645
2 rows in set. Elapsed: 0.003 sec.

请注意,ASOF Join 的 ON 子句是必需的,它在 AND 子句的非精确匹配条件旁边指定了一个精确匹配条件。

目前,ClickHouse 不支持没有任何连接键执行严格匹配的连接(但未来可能会支持)。

总结 

本文介绍了 ClickHouse 支持的所有标准 SQL Join 类型以及用于支持分析查询的特殊 Join 类型。我们描述并演示了所有支持的 Join 类型。


作者:Tom Schreiber

更多技术干活请关注公号“云原生数据库

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/501593.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

从零开始学【网络安全】

前言:网络安全如何从零开始学习,少走弯路? 目录: 一,怎么入门? 1、Web 安全相关概念(2 周)2、熟悉渗透相关工具(3 周)3、渗透实战操作(5 周&…

DevData Talks | 思码逸陆春蕊:研发效能度量落地的难点与计策

本期 DevData Talks 直播活动邀请到的重磅嘉宾是思码逸高级咨询专家陆春蕊老师。陆春蕊老师曾就职于Oracle,在软件质量、项目管理方面有着丰富的经验,在思码逸为上百家客户提供了研发效能体系、数据分析、实践落地等方面的咨询。 陆春蕊老师与我们聊了聊…

QML绘图便捷接口类Convenient API

在绘制矩形时,我们提供了一个便捷的接口,而不需要调用stroke或者fill来完成。 3.import QtQuick 2.0 4. 5.Canvas { 6. id: root 7. width: 120; height: 120 8. onPaint: { 9. var ctx getContext("2d") 10. ctx.fi…

了解进程控制

目录 1、基本概念 2、操作系统内核 2.1支撑功能 2.2资源管理功能 3、进程的创建 3.1进程的层次结构 3.2进程图 3.3引起创建进程的事件 3.4进程的创建 4、进程的终止 4.1引起进程终止的事件 4.2进程的终止过程 5、进程阻塞与唤醒 5.1引起进程阻塞和唤醒的事件 5.2进…

老测试告诉你自动化测试需要考虑什么?

写在前面 这篇文章译自著名测试专家James Bach的《Test Automation Snake Oil》一文,是笔者在学习和研究探索性测试时偶然发现的一篇较有意义的文章,很好地解答了我们对自动化测试的疑惑。 比如万能的自动化测试是否可以替代一切,还给我们提…

什么是多相流?在熟悉工业中常见的两相及多相流的分类及特点

系列文章目录 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加 例如:第一章 Python 机器学习入门之pandas的使用 提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目…

安全工程与运营

安全工程与运营 系统安全工程系统安全工程重要性安全工程系统安全工程理论基础 成立成熟度模型、系统安全工程能力成熟度模型能力成熟度模型(Capability Maturity Model)能力成熟度模型基本思想系统安全工程能力成熟度模型SSE-CMM的作用SSE-CMM体系结构域…

第9章:创建和管理表

一、数据库的创建修改和删除 1.SQL的分类 DDL:数据定义语言 create创建、alter修改、drop删除、rename重命名、truncate清空 DML:数据操作语言 insert、delete、update、select DCL:数据控制语言 commit提交、rollback回滚、savepoint保存…

Spot CEO:我们为什么选择Babylon.js而不是Three.js

为现代网络开发令人兴奋的事情之一是底层平台的快速发展。 WebAssembly、WebGL、WebGPU、Web Worker 等正在解锁以前典型 Web 产品无法想象的体验。 在过去的几年里,我们看到像 Figma 这样的产品利用这一点创造了极具吸引力的业务和产品。 推荐:用 NSDT设…

前端-01Html5基本知识

1 基本 1.1 第一个前端程序 内容 <html><head><title>我的网页</title></head><body>Hello,我的第一个网页</body> </html>使用浏览器打开 1.2 工具安装 浏览器 谷歌浏览器 清缓存 ctrlshiftdelete vscode 生成浏览器文…

cubic 的 tcp friendliness 与拐点控制

TCP CUBIC 应该是迄今为止综合表现最优秀的算法&#xff0c;其中有两个亮点&#xff0c;一个是 RTT 无关性&#xff0c;另一个是可扩展性。RTT 无关性表现在 CUBIC 的 cwnd 表达式中没有 RTT 因子&#xff0c;而可扩展性则来自于曲线本身&#xff1a; 随着 BDP 增加&#xff0…

音视频技术开发周刊 | 292

每周一期&#xff0c;纵览音视频技术领域的干货。 新闻投稿&#xff1a;contributelivevideostack.com。 谷歌将 AI 芯片团队并入云计算部门 追赶微软和亚马逊 OpenAI推出的ChatGPT获得一定成功&#xff0c;微软是OpenAI的重要投资者&#xff0c;它将ChatGPT植入必应搜索&#…

【16】SCI易中期刊推荐——计算机 | 人工智能领域(中科院2区)

💖💖>>>加勒比海带,QQ2479200884<<<💖💖 🍀🍀>>>【YOLO魔法搭配&论文投稿咨询】<<<🍀🍀 ✨✨>>>学习交流 | 温澜潮生 | 合作共赢 | 共同进步<<<✨✨ 📚📚>>>人工智能 | 计算机视觉…

【IO】零拷贝、mmap、sendfile

文章目录 前言一、普通IO二、mmap三、sendfile1. Linux2.1的sendfile2. Linux2.4的sendfile 四、总结与扩展1. 结论2. 解释、扩展 参考 前言 概念&#xff1a; 没有发生CPU拷贝数据&#xff0c;都是DMA&#xff08;直接内存访问&#xff09;拷贝 优势&#xff1a; 减少内核态…

《算经》中的百钱买百鸡问题,你会做吗?试下看看(39)

小朋友们好&#xff0c;大朋友们好&#xff01; 我是猫妹&#xff0c;一名爱上Python编程的小学生。 欢迎和猫妹一起&#xff0c;趣味学Python。 今日主题 你知道我国历史上有个王朝叫北魏吗&#xff1f; 北魏&#xff08;386年—534年&#xff09;&#xff0c;南北朝时期北…

HashMap 简述

文章目录 前言一、HashMap的数据结构二、HashMap存储数据的大致过程1 哈希值2 什么是哈希冲突?3 为何有两种数据结构? 三、HashMap常用知识总结 前言 HashMap 是开发中常用的一种数据结构,通常用做返回值,计算比对等,会经常用到; 一、HashMap的数据结构 jdk8之后,数据结构是…

时至今日,Pascal系列Turbo Pascal 5.0依旧是我心中永远的神

从DOS时代到Windows时代&#xff0c;从桌面应用到Web应用&#xff0c;每一个时代都有它特定的编程工具 在我看来&#xff0c;DOS时代的编程语言&#xff0c;Pascal必占一席之地。 尤其是Turbo Pascal系列的最后一个版本——Turbo Pascal 5.0&#xff0c;更是我心目中永不褪色的…

nginx企业级高性能配置优化

一、基础配置优化 1、CPU亲和性优化 1.1、推荐直接将配置项设置成auto (worker_cpu_affinity)&#xff0c;即采用了Nginx推荐的CPU绑核策略方式。 1.2、手动绑定&#xff0c;将worker线程数量与CPU核心数一一绑定方式设置&#xff0c;设置成auto Nginx会自动识别并按照推荐策略…

New Bing 全面开放?我看未必

前段时间大家应该都被ChatGPT刷屏了&#xff0c;其实就回答来说New Bing 才是最厉害的&#xff0c;因为它底层使用了ChatGPT 并且可以支持联网查询数据&#xff0c;回答中还能支持看到出处&#xff0c;方便确认其真实性。 New Bing 是微软基于 OpenAI ChatGPT 技术开发的新一代…

vue3项目搭建

一、安装 vue3.0 脚手架 &#xff08;1&#xff09;node安装&#xff08;前端开发环境&#xff09; 打开node官网:https://nodejs.org/zh-cn/ 下载node并安装&#xff08;安装vue3建议node在10.0版本以上&#xff09;。 输入node -v可显示node版本 &#xff08;2&#xff09;…