【技术选型】Doris vs starRocks

news2024/11/18 2:59:48

比对结论

仅从当前能看到的数据中,相比于doris,starRocks在性能方面具备优势,且更新频率高(降低维护成本)。

目标诉求

  1. 并发性不能太低——相比于clickhouse不到100的QPS
  2. 支持大表关联——降低数据清洗的压力,因为oneId有可能实时变化
  3. 集群化——需要有一定扩展能力,以针对不同量级客户
  4. 可维护——C++底层代码

背景说明

doris前身是百度的palo,因为名字重复,开源的时候换成doris。
starRocks只是从doris的一个分支进行演进。
从人员角度,两者原来是一个团队,后续出现分歧(预计两个问题,一是国内对开源内容不够重视,二是有些人想要商业化)。
starRocks最开始出来的时候叫dorisDB,且文档中有doris相关内容,使很多人误以为是doris的商业版。后续才改名为starRocks。因为上述不道德的行为,导致风评比较差,所以社区的活跃主要是国内。

两者的开源协议不一致,doris是Apache license,starRocks是Elastic License。这就意味着starRocks是部分开源,说是为了防止云厂商的白嫖,但从这一路操作看,未来大概率会商业版。
doris的社区相关活跃的范围更大,但实际活跃度也待定。
推测演进速度,starRocks由于未来考虑商业化,短期内速度一定是更快的,但是否能坚持很久。
doris短期内可能是慢的,但大概率可以维持很久。

目标需求

  1. 具备一定并发能力且能实现大表关联的数据库
  2. 版本更新相对频繁,这样可以有效解决BUG

潜在风险

  • starRocks有可能会商业化,导致在某些版本之后有收费的风险
  • 性能是基于c++开发的,咱们无法修改,doris更新慢的问题就会暴露

信息比对

项目性能github star稳定性演进效率协议
Doris10.4k稳定Apache license
starRocks7k相对稳定Elastic License

性能比对

由于starRocks在doris的社区投票中投入反对票,导致向量化优化推迟合入版本,这就是为什么doris的1.X版本性能是低于starRocks的。
starRocks 3.0 是2023 年 4 月 28 日发布。
doris 2.0 是2023 年 8 月 11 日发布。
正常来说是用doris 2.X 和 starRocks 3.X 进行比对。
但由于doris的2.X发布不久,无法找到直接和starRocks 3.X的性能比对。
计划考虑找doris 2.X 和 doris 1.2X的比对,和doris 1.2X和starRocks 3.X的性能比对。

场景doris 1.2Xdoris 2.XstarRocks 3.X
宽表场景盲测110
多表关联场景盲测113
行为分析场景中并发查询15-90
点查询并发能力120
日志检索分析110
数据写入120

参考文档

Release 2.0.0 - Apache Doris

文件读取比较

2023年10月1日数据湖测试 – 沧海月明

TPCH 性能测试

Doris 1.2.0 / StarRocks-native-3.0
starRocks略胜,性能大约提升50%
TPCH 性能测试

doris版本提升测试

滑动验证页面

旧版本性能比对

我们对 Apache Doris 0.14、StarRocks 2.4.1 在同等集群规模下,进行了一些基准测试验证( SSB、SSB-FLAT、SSB-低基数 Query、TPC-H 100G 的标准测试集)
806b449d3034845c7e8232e3aa0136b3_3521b83e8cdc46d3a97eb61386e1cffa.png
效率提升 10 倍!达达基于 StarRocks 极速统一的智能配送再升级_数据_Apache_能力

4eca8940dd3168ec633992e0b0d36cf3_6d1cb039-34c7-48f4-a75d-669e358e0eee.png
OceanBase 社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1376172.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

什么是个人合同企业合同?

个人相关的合同业务,比如和对方个人、对方企业之间的合同事务。 如果企业合同和个人签署人事合同时,相关的个人就需要登录个人合同模式进行合同的签署合同管理。 如果是个人和社会任何自然人签署的租赁合同,也可以登录个人合同进行管理。 …

【2024】OAK智能深度相机校准教程

编辑:OAK中国 首发:oakchina.cn 喜欢的话,请多多👍⭐️✍ 内容可能会不定期更新,官网内容都是最新的,请查看首发地址链接。 ▌前言 Hello,大家好,这里是OAK中国,我是Ash…

ArchVizPRO Interior Vol.8 URP

ArchVizPRO Interior Vol.8 URP是一个在URP中制作的建筑可视化项目。这是一个完全可导航的现代公寓,包括一个带开放式厨房的客厅、休息区、两间卧室和两间浴室。从头开始构建每一个细节,这个室内有130多件家具和道具、自定义着色器和4K纹理。所有家具和道具都非常详细,可以在…

vue的mvvm模式

1.mvvm优点: 低耦合:视图(View)可以独立于Model变化和修改,一个ViewModel可以绑定到不同的View上,当View变化的时候Model可以不变,当Model变化的时候,View也可以不变。 可复用&…

2024.1.12每日一题

LeetCode 2085.统计出现过一次的公共字符串 2085. 统计出现过一次的公共字符串 - 力扣(LeetCode) 题目描述 给你两个字符串数组 words1 和 words2 ,请你返回在两个字符串数组中 都恰好出现一次 的字符串的数目。 示例 1: 输…

oracle 19c容器数据库data dump数据泵传输数据(2)---11g导19c

目录 1.在11gnon-cdb数据库中创建测试用户 2.在19cCDB容器数据库中新建pdb2 3.执行命令导出 4.执行命令导入 Exporting from a Non-CDB and Importing into a PDB 我們要記住一点:如果是全库导出导入的话,目标数据库没有的表空间我们要事先创建&#…

86.乐理基础-记号篇-速度记号

内容来源于:三分钟音乐社 上一个内容:85.乐理基础-记号篇-力度记号-CSDN博客 速度记号在下方两个里面已经写过一部分了,这些标记总体上是属于 不变速度 的标记,比如一首乐谱就记了 每分钟60拍,那整首速度就都是不变的…

GEE数据集——2000 年至 2022 年与传感器无关的 MODIS 和 VIIRS LAI/FPAR CDR

2000 年至 2022 年与传感器无关的 MODIS 和 VIIRS LAI/FPAR CDR 该地理空间数据集包含关键的生物物理参数,即叶面积指数(LAI)和光合有效辐射分量(FPAR),是描述陆地生态系统特征不可或缺的参数。该数据集解…

Pinpoint 报告:2023年网安产业投资总额减少40%

根据网络招聘公司 Pinpoint Search Group 所作的报告,2023 年度网络安全行业共进行了 346 轮融资和 91 笔并购 (M&A) 交易。其中投资总额为 87 亿美元,比2022年的 145 亿美元减少了 40%。 这些数字也反映在 2023 年第四季度,网络安全公司…

【Java 干货教程】Java实现分页的几种方式详解

一、前言 无论是自我学习中,还是在工作中,固然会遇到与前端搭配实现分页的功能,发现有几种方式,特此记录一下。 二、实现方式 2.1、分页功能直接交给前端实现 这种情况也是有的,(根据业务场景且仅仅只能用于数据量…

【深度学习目标检测】十三、基于深度学习的血细胞识别(python,目标检测,yolov8)

血细胞计数是医学上一种重要的检测手段,用于评估患者的健康状况,诊断疾病,以及监测治疗效果。而目标检测是一种计算机视觉技术,用于在图像中识别和定位特定的目标。在血细胞计数中,目标检测技术可以发挥重要作用。 首先…

数据在内存中的存储(C语言)

​ ✨✨ 欢迎大家来到贝蒂大讲堂✨✨ ​ 🎈🎈养成好习惯,先赞后看哦~🎈🎈 ​ 所属专栏:C语言学习 ​ 贝蒂的主页:Betty‘s blog 引言 ​ 我们早就学完基本的数据类型,那这些数据类型…

Linux系统的由来、特点、以及发行版本

Linux系统 Linux 系统主要被应用于服务器端、嵌入式开发和 PC 桌面 3 大领域,其中服务器端领域是重中之重。例如,我们熟知的大型、超大型互联网企业(百度、腾讯、Sina、阿里等)都在使用Linux 系统作为其服务器端的程序运行平台&a…

记录一次华为云服务器扩容系统磁盘

转载说明:如果您喜欢这篇文章并打算转载它,请私信作者取得授权。感谢您喜爱本文,请文明转载,谢谢。 1. 扩容步骤 1.1 在华为云控制台操作磁盘扩容 1.2 服务器上操作扩容步骤 1)fdisk -l 查看扩容情况,确认…

深入探讨:开发连锁餐饮APP的关键技术要点

时下,开发一款功能强大、用户友好的连锁餐饮APP成为许多餐饮企业的当务之急。在本文中,我们将深入探讨开发连锁餐饮APP的关键技术要点,涵盖了前端、后端以及数据库等方面。 一、前端开发 前端是用户与APP交互的入口,因此设计良好…

锂电池的电压和容量怎么计算?

锂电池组是由电池单体(电芯)通过串并联来组成 1、串联(S)增加电压,容量不变。 例如:1个磷酸铁锂电池的额定电压为3.2V,容量为4000mAH,将10个磷酸铁锂电芯串联,电池组电压:3.2v*10&a…

pytorch11:模型加载与保存、finetune迁移训练

目录 一、模型加载与保存1.1 序列化与反序列化概念1.2 pytorch中的序列化与反序列化1.3 模型保存的两种方法1.4 模型加载两种方法 二、断点训练2.1 断点保存代码2.2 断点恢复代码 三、finetune3.1 迁移学习3.2 模型的迁移学习3.2 模型微调步骤3.2.1 模型微调步骤3.2.2 模型微调…

编码器与解码器LLM全解析:掌握NLP核心技术的关键!

让我们深入了解:基于编码器和基于解码器的模型有什么区别? 编码器与解码器风格的Transformer 从根本上说,编码器和解码器风格的架构都使用相同的自注意力层来编码词汇标记。然而,主要区别在于编码器旨在学习可以用于各种预测建模…

BP神经网络(公式推导+举例应用)

文章目录 引言M-P神经元模型激活函数多层前馈神经网络误差逆传播算法缓解过拟合化结论实验分析 引言 人工神经网络(Artificial Neural Networks,ANNs)作为一种模拟生物神经系统的计算模型,在模式识别、数据挖掘、图像处理等领域取…

TYPE-C接口取电芯片介绍和应用场景

随着科技的发展,USB PDTYPE-C已经成为越来越多设备的充电接口。而在这一领域中,LDR6328Q PD取电芯片作为设备端协议IC芯片,扮演着至关重要的角色。本文将详细介绍LDR6328Q PD取电芯片的工作原理、应用场景以及选型要点。 一、工作原理 LDR63…