数据库测试|Elasticsearch和ClickHouse的对决

news2025/2/25 12:35:00

前言

数据库作为产品架构的重要组成部分,一直是技术人员做产品选型的考虑因素之一。

ClkLog会经常遇到小伙伴问支持兼容哪几种数据库?为什么是选择ClickHouse而不是这个或那个。

由于目前市场上主流的数据库有许多,这次我们选择其中一个比较典型的Elasticsearch来和ClickHouse做一次实战测试,让大家更直观地看到真实的比对数据,从而对这两个数据库有更深入的了解,也就能理解为什么我们会选择ClickHouse。

比较Elasticsearch和ClickHouse,就像比较苹果和香蕉。两者都是很好的东西,有相似的功效,很多情况下都可以相互替代,同时各有特点,无法给出简单谁强谁弱的结论。

ClickHouse是为OLAP而生的,而Elasticsearch更早面世,也经常被用于生成统计报表。所以,我们将在这个交叉领域做实际测试,以便更好地做出决策。

先看测试结果

省流版测试比对结果,见下图。

如果你有兴趣了解详细的测试过程与结论,那就接着往下看吧。

概述

Web访问日志是最常见的日志之一,有基本统一的共识,比较适合作为测试数据。

测试将从 CPU、内存、存储、延迟等方面对比,服务器采用单节点部署形式,减少变量。

测试环境

  • 硬件配置(最低要求配置

CPU:4 核心

内存:16GB

磁盘:100GB SSD

  • 数据集:模拟生成的Web访问日志,共计1千万条记录
  • 网络环境:局域网

采用Docker Compose创建服务器环境

使用以下Python脚本生成日志文件:

日志文件参考大小为2.8G。

数据导入速度

测试数据集将包含大量的Web访问日志,以模拟实际应用场景中的数据流入情况。我们将比较在相同硬件环境 下,Elasticsearch和ClickHouse在数据导入速度上的表现。

使用vector读取日志文件,解析并发送到Elasticsearch和ClickHouse,配置如下:

​​​​​​

注意,测试时sinks部分应该只保留当前的测试对象,避免互相干扰。

Elasticsearch导入速度如下图所示:

导入1千万条访问日志,花费12分钟18秒,平均13550条每秒。

在导入过程中,Vector没有告警信息。已对导入结果检查,日志数量没有问题。

测试ClickHouse导入前,需要预先创建表:

ClickHouse导入速度如下图所示:

导入1千万条访问日志,花费8分10秒,平均20408条每秒。

在导入过程中,Vector有告警信息。已对导入结果检查,日志数量没有问题。

资源占用(CPU和内存)

资源占用是评价系统性能的重要指标。我们将监控在数据导入过程中,Elasticsearch和ClickHouse的CPU和

内存使用情况。

Elasticsearch在导入过程中,CPU占用约70%,内存占用8GB,导入结束后内存维持占用。

ClickHouse在导入过程中,CPU占用100%,导入过程中及导入结束后内存占用均维持在2GB左右。缓存占用, 导入前为3GB,导入过程中缓存占用逐步上升,导入结束时达到最大值12GB左右,之后逐步下降,最终恢复为3GB。

存储需求

存储需求直接影响系统的扩展性和成本。我们将比较 Elasticsearch和ClickHouse在存储相同数据集时的存储占用情况,以及两者在数据压缩和存储优化方面的表现。

导入1千万条Web访问日志后:

Elasticsearch数据占用存储空间约为3.1GB。在导入过程中占用存储空间逐渐稳定上升。

ClickHouse数据占用存储空间约为1.1GB。注意,在导入过程中占用存储空间一度观察到达到19GB左右(导入结束时),在之后花费约10分钟逐步收缩到最终大小。

查询延迟

查询延迟是用户体验的重要指标。我们将测试 Elasticsearch和ClickHouse在处理不同复杂度查询时的延迟表现,包括简单查询和复杂聚合查询。

  • 场景1

对这1千万条Web访问日志,按天统计,状态码大于等于400的次数前10名的路径。

Elasticsearch花费1700毫秒,使用以下查询:

ClickHouse花费500毫秒,使用以下SQL脚本:

  • 场景2

对这1千万条Web访问日志,查询耗时>=1秒的次数前10的路径,包含路径、总次数、最⼤耗时、平均耗时、超1秒的次数。

Elasticsearch花费7000毫秒,使用以下查询:

ClickHouse花费300毫秒,使用以下SQL脚本:

总结

通过以上几个方面的测试,我们将全面对比Elasticsearch和ClickHouse在Web访问日志统计分析应用中的表现。希望通过这次对比,能够为大家在选择合适的日志分析系统时提供有价值的参考。

总体而言,Elasticsearch开箱即用,特别是应对种类繁杂的日志时,非常灵活。甚至web访问日志这个单一领域,查询参数有很多变化,在写入时建模,省时省力。Elasticsearch使用一种名为 Query DSL(Domain Specific Language)的查询语言与大多数工程师、数据分析师熟悉的技术栈差异比较大,设置了较高的学习和使用门槛,并需要学习大量的多新的概念和语法,即使学会之后还需要经常查阅手册才能写出正确的DSL语句。ClickHouse在写入、查询、存储、内存节省方面有明显优势,但需要实现定义表结构,应对字段经常变化的场景维护繁琐。ClickHouse的查询语言是基于SQL的,称为ClickHouse SQL工程师和数据分析师对于 SQL非常熟悉,经验可以复用,不需要学习新的技术栈即可快速上手。

写在最后

从两方面因素考虑。其一,ClkLog作为用户行为分析系统,需要能够进行大规模的数据存储、繁琐的数据统计与聚合查询,对数据库的性能有比较高的要求。其二,ClkLog作为开源产品,更多的用户是具有开发能力的个人与公司,可以进行较为复杂的表结构维护。

综上,ClickHouse更符合ClkLog的产品需求与定位。

在数据库选型方面,4月我们完成了对火山引擎ByConity的兼容性测试,我们将持续进行对OLAP类型的数据库测试,类似Apache Doris、Apache Druid、Amazon Redshift等。如果你有想看的数据库测试,也可以私信我们(扫描下方二维码,添加好友)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1901969.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【密码学】密码学体系

密码学体系是信息安全领域的基石,它主要分为两大类:对称密码体制和非对称密码体制。 一、对称密码体制(Symmetric Cryptography) 在对称密码体制中,加密和解密使用相同的密钥。这意味着发送方和接收方都必须事先拥有这…

医院产科信息化管理系统源码,智慧产科管理系统,涵盖了从孕妇到医院初次建档、历次产检、住院分娩、统计上报到产后42天全部医院服务的信息化管理。

医院产科信息化管理系统源码,智慧产科管理系统,产科专科电子病历系统 技术架构:前后端分离Java,Vue,ElementUIMySQL8.0.36 医院产科信息化管理系统,通过构建专科病例系统实现临床保健一体化,涵…

线程池理解及7个参数

定义理解 线程池其实是一种池化的技术实现,池化技术的核心思想就是实现资源的复用,避免资源的重复创建和销毁带来的性能开销。线程池可以管理一堆线程,让线程执行完任务之后不进行销毁,而是继续去处理其它线程已经提交的任务。 …

【pytorch18】Logistic Regression

回忆线性回归 for continuous:y xwbfor probability output:yσ(xwb) σ:sigmoid or logistic 线性回归是简单的线性模型,输入是x,网络参数是w和b,输出是连续的y的值 如何把它转化为分类问题?加了sigmoid函数,输出的值不再是…

springboot服务启动读取不到application.yml中的nacos.config信息

我的版本: 可以添加bootstrap.yml文件,在里面添加nacos.config的配置信息 也可以添加VM参数 -Dspring.cloud.nacos.discovery.server-addr -Dspring.cloud.nacos.config.server-addr -Dspring.cloud.nacos.config.namespace -Dspring.cloud.nacos.discov…

Java实现登录验证 -- JWT令牌实现

目录 1.实现登录验证的引出原因 2.JWT令牌2.1 使用JWT令牌时2.2 令牌的组成 3. JWT令牌(token)生成和校验3.1 引入JWT令牌的依赖3.2 使用Jar包中提供的API来实现JWT令牌的生成和校验3.3 使用JWT令牌验证登录3.4 令牌的优缺点 1.实现登录验证的引出 传统…

LeetCode刷题之搜索二维矩阵

2024 7/5 一如既往的晴天,分享几张拍的照片嘿嘿,好几天没做题了,在徘徊、踌躇、踱步。蝉鸣的有些聒噪了,栀子花花苞也都掉落啦,今天给他剪了枝,接回一楼来了。ok,做题啦! 图1、宿舍…

EDA 2023 年世界国家suicide rate排名

文章目录 前言:关于数据集列 导入模块导入数据数据预处理探索性数据分析按性别划分的自杀率 [箱线图]相关矩阵热图自杀率最高的 15 个国家变化百分比最高的 15 个国家/地区2023 年世界地图上自杀率的国家 结尾: 前言: 随着社会的不断发展和变迁,人们对于各种社会问…

154. 寻找旋转排序数组中的最小值 II(困难)

154. 寻找旋转排序数组中的最小值 II 1. 题目描述2.详细题解3.代码实现3.1 Python3.2 Java 1. 题目描述 题目中转:154. 寻找旋转排序数组中的最小值 II 2.详细题解 该题是153. 寻找旋转排序数组中的最小值的进阶题,在153. 寻找旋转排序数组中的最小值…

2024 年第十四届亚太数学建模竞赛(中文赛项)浅析

需要完整B题资料,请关注:“小何数模”! 本次亚太(中文赛)数学建模的赛题已正式出炉,无论是赛题难度还是认可度,该比赛都是仅次于数模国赛的独一档,可以用于国赛前的练手训练。考虑到大家解题实属不易&…

品牌推广的核心价值:作用解析与意义探讨!

在激烈的市场竞争环境之下,品牌推广已经成为企业不可缺少的一部分。不仅关乎企业的知名度,对市场份额更是起到了决定性的作用。 作为一名手工酸奶品牌的创始人,目前全国也复制了100多家门店,这篇文章,我将和大家分享品…

web学习笔记(八十)

目录 1.小程序实现微信一键登录 2. 小程序的授权流程 3.小程序配置vant库 4.小程序配置分包 5.小程序配置独立分包 6.小程序分包预下载 1.小程序实现微信一键登录 要先实现小程序一键登录首先我们需要给按钮设置一个绑定事件,然后在绑定事件内部通过wx.login…

ETAS工具导入Com Arxml修改步骤

文章目录 前言Confgen之前的更改Confgen之后的修改CANCanIfComComMEcuM修改CanNmCanSMDCMCanTp生成RTE过程报错修改DEXT-诊断文件修改Extract问题总结前言 通讯协议栈开发一般通过导入DBC实现,ETAS工具本身导入DBC也是生成arxml后执行cfggen,本文介绍直接导入客户提供的arxml…

FastAPI+vue3+Primeflex教学20240706,渲染阶乘案例

子绝父相 相对定位是相对于自己原本的位置定位。 绝对定位,如果父元素设置了相对定位,则相对于父元素进行绝对定位,否则相对于最近的设置了相对定位的元素进行绝对定位,或者相对于根元素进行绝对定位。 定位有四个方向&#xff0…

白嫖A100-interLM大模型部署试用活动,亲测有效-2.Git

申明 以下部分内容来源于活动教学文档: Docs git 安装 是一个开源的分布式版本控制系统,被广泛用于软件协同开发。程序员的必备基础工具。 常用的 Git 操作 git init 初始化一个新的 Git 仓库,在当前目录创建一个 .git 隐藏文件夹来跟踪…

Ubuntu基本环境配置

#Jdk 安装 #--查看 已安装 的jdk软件 java -version # 安装jdk软件(如果有选择请选 y) sudo apt install openjdk-11-jdk # 自行学习 vi 或 vim 学习网址如下: # https://www.runoob.com/linux/linux-vim.html #-- 修改系统级 path : /etc/profile 文件 (注意要…

每周算法:无向图的双连通分量

题目链接 冗余路径, Redundant Paths G 题目描述 为了从 F F F 个草场中的一个走到另一个,奶牛们有时不得不路过一些她们讨厌的可怕的树。 奶牛们已经厌倦了被迫走某一条路,所以她们想建一些新路,使每一对草场之间都会至少有两条相互分离…

【踩坑】解决undetected-chromedriver报错cannot connect to-chrome

转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~ 更新: 发现一个非常好用的项目,直接内置uc: GitHub - seleniumbase/SeleniumBase: 📊 Pythons all-in…

内网通讯软件有哪些?

企业内部内网通讯工具是为了满足企业内部沟通和协作需求而设计的软件工具,其主要特点是在内网环境下进行通讯,以保证安全性和可控性。以下是一些常见的内网通讯软件,在企业内部通讯中起着重要的作用。 1. Microsoft Teams Microsoft Teams是…

批导会计凭证程序报错,通过监控点和消息类来定位触发的位置

ZFIU001 批导会计凭证报错,通过监控点和消息类来定位触发的位置 在使用程序导入会计凭证的时候,发现报错,后面找了很久很久的系统标准程序,打断点才找到这个位置,使用监控点还是可以比较快速找到报错的原因的&#xff…