StarRocks 社区:从初生到两周年的进化之路

news2024/9/25 19:26:07

2021 年 9 月 8 日,StarRocks 开源社区诞生。从第一天开始,我们怀揣着“打造世界一流的数据分析产品”的梦想,踏上了星辰大海的征途。 两年间,StarRocks 在 GitHub 上收获了 5.4K Stars,产品共迭代发布了 90 余个版本,288 家市值超过 10 亿美元的头部用户在生产环境中上线运行。“不止步于极速”,StarRocks 更是在短短一年内完成了从全场景 OLAP 分析进化到云原生湖仓分析的进化。

StarRocks 突飞猛进的发展都要得力于社区用户的使用反馈和开发者们不断地帮 StarRocks 添砖加瓦,使其生态体系更加完善。在过去一年内,StarRocks 发布了 v2.5、v3.0、v3.1 三个重大的里程碑版本,其中存算分离、湖仓分析、物化视图等重量级特性, 为极速统一湖仓分析新范式的落地奠定了坚实基础。 alt

进化,永不止步

从诞生之初,StarRocks 就不断在探索关于“极速统一”之道。全面向量化引擎、CBO 查询优化器、实时更新数据模型、Pipeline 执行引擎相继发布,将 OLAP 分析性能提升到了新的高度,也引领了当前大数据分析的发展趋势。 随着各项重要功能历经 2 年、近 300 家各行业头部用户在生产环境中的打磨与完善,StarRocks 完成从 OLAP 到云原生湖仓的快速进化,通过湖仓一体让企业能基于一份数据,满足 BI 报表、多维分析、Ad-hoc 查询、实时分析等不同场景的数据分析需求, StarRocks 往 "One data,all analytics" 的目标不断前行。

湖仓一体化极速查询引擎

Presto/Trino/Impala 一直以来都是行业最好的数据湖(Hive/Hudi/Iceberg/Deltalake 等)查询引擎。但是其性能无法和将数据导入到 ClickHouse 或是 StarRocks 此类极速 OLAP 数据库/数仓相媲美,用户通常会组合使用,运维和使用都会比较复杂,StarRocks 期望彻底改变这种“组合”模式,推出更一体化的方案。StarRocks 的湖仓一体化极速查询引擎的理念是可以同时极速查询数据湖数据和 StarRocks 本地数据。从 StarRocks 2.0 到 StarRocks 3.0 版本, 经过一年半的时间和 7 个大版本的持续打磨,StarRocks 终于发布了业内第一个成熟完善的湖仓一体化极速查询引擎,让数据湖查询和本地数据查询基本持平,并且数据湖查询达到了 Presto/Trino/Impala 等系统的 3-6 倍以上的性能水平。

基于物化视图(MV)的轻量化数据建模

当前数据工程师进行数据建模时,需要通过预先构建大量 ETL 任务来生成 ODS/DWD/DWS/ADS 数据表。这种数据建模方法比较重,周期长,而且会存在很多无用 ETL。StarRocks 基于 MV 的轻量化数据建模方法提供了全新模式,将逻辑建模与物理建模分离:

  1. 无需预先大量 ETL,只需要用 view 来建立各层数据模型,快速交付 view 给业务查询使用
  2. 在业务查询使用中,随需创建多表/单表 MV 实现透明查询加速

业内 Clickhouse、Doris、Snowflake 等打造了比较好的单表 MV,缺乏完善的多表 MV 支持,不足以支持轻量级数据建模方法的落地。StarRocks 在 2.4 版本发布了多表 MV,之后经过 12 个月的时间和三个版本—— StarRocks 2.5、 StarRocks 3.0 和 StarRocks 3.1 版本的打磨,已经成为业内第一个可以同时支持复杂查询、数据湖外表和异步构建的多表 MV,可以很好的支持轻量化建模方法落地,成为用户针对数据建模和 ETL 进行降本增效的大杀器。

此外,物化视图也成为 StarRocks 3.0 的核心功能,物化视图通过声明式的方式降低了传统 ETL 中 Transform 的复杂度,通过外表物化视图可以无缝连接湖仓,通过查询改写可以透明加速,通过 spill 和分区增量刷新可以进行稳定的物化视图构建和细粒度的物化视图刷新策略。帮助用户的湖仓建模更容易。

极简存算分离架构

Snowflake 打造出了全球最好的存算分离架构,让很多云服务用户受益匪浅。但是其架构组件复杂,无法简单部署到用户的各类私有化环境。StarRocks 在存算分离上的创新初心是打破这种限制,让任何社区用户都可以将存算分离架构轻松部署到各类私有环境,获取更多降本增效的收益。StarRocks 3.0 版本发布的全新极简存算分离架构,基于原创的云原生操作系统 StarOS,整个新架构只有 FE 和 CN 两个模块,无需任何外部组件依赖,部署运维和非存算分离版本一样简单,性能一样出色。用户可以随时随地部署使用 StarRocks 存算分离架构,实现降本增效。

更加引人注目的是,3.0 版本的存算分离架构不仅学习了 Snowflake 的优点,通过内置的 StarOS,StarRocks 实现了完全无需外部组件的部署,大大简化了用户的操作。让用户在各种云上云下的环境都可以通过存算分离架构来接口存储介质,提升更好的弹性能力,实现多 AZ 甚至多云的高可用能力。大量用户的实践也证明了 StarRocks 存算分离架构已经走向成熟,将逐渐变成 StarRocks 的默认架构。

产品能力进化时间线

alt

一文了解 StarRocks 物化视图、湖仓分析和存算分离: 重新定义物化视图,你必须拥有的极速湖仓神器! 当打造一款极速湖分析产品时,我们在想些什么 兼顾降本与增效,我们对存算分离的设计与思考

进化,不止代码

创建一个健康的开源项目需要整个社区的共同协作,在开源生态系统中,每个参与者都有机会塑造和改进软件,用户可以识别所需功能并贡献代码或用户案例。只有当整个社区和相关社区积极参与时,一个开源项目才能成功发展为一个繁荣的生态系统,这包括代码贡献者、用户、文档编写者、软件和平台供应商以及集成者等各方。

StarRocks 社区始终相信开放协作的力量,信奉 “Code is power. Community is strength. And Openness is everything. ”。代码是改变世界的力量,社区给了我们无限的可能,而这一切都只有通过开放才能实现。StarRocks 社区的价值观具体体现在:

  • 对极速统一的云原生湖仓一体技术的持续探索:用户能更快、更低成本且更简单地在海量数据中挖掘数据的价值,助力业务成功。

  • 与用户共同成长,彼此成就:建立产品文档、新手教程、产品特性解析、FAQ 、最佳实践和丰富的用户案例知识库,并且通过 StarRocks 城市行、开源集市、线上线下会议和微信/Slack/GitHub 等渠道与用户零距离交流。 alt

  • 开放生态,无缝衔接上下游组件:2022 年底,StarRocks 项目正式捐献给 Linux 基金会,更加中立、开放;并与开放的数据生态产品,如 Apache Flink、Apache SeaTunnel、Apache Paimon、Apache Hudi、Apache Icerberg 等社区共建现代数据栈。 alt

蓬勃发展的用户社区

StarRocks 发展至今已有超过 288 家估值超过 10 亿美元的行业头部用户。这些用户遍布各行业,许多用户也在使用 StarRocks 后积极向社区分享了使用场景和实践经验。以下是一些具有代表性的用户案例:

互联网:芒果 TV、 滴滴、万物新生、 贝壳、同程旅行、得物、小红书、携程、美团餐饮 SaaS、360、微信 物流:顺丰、跨越速运、京东物流、达达 金融:中信建投、中欧财富 、众安保险、中原银行、信也科技 游戏:波克城市、37 手游、腾讯游戏、游族网络 汽车: 理想汽车、 蔚来汽车、、吉利汽车、首汽约车、汽车之家 制造/零售:大润发、华润万家、TCL、华米科技、百草味

完整的用户案例合集请见 StarRocks 公众号“StarRocks 用户案例合集” 和 StarRocks B 站!

深度参与社区共建的伙伴

StarRocks 各个代码仓库下已有超过 300 名贡献者,其中有许多人贡献了文档、函数、connector、周边生态等功能。我们由衷感谢每一位为 StarRocks 贡献力量的朋友们。特别要感谢以下深度参与社区的伙伴们,他们为 StarRocks 提供了备受用户欢迎的重要特性。 alt

最后,感谢每一位为 StarRocks 添砖加瓦的小伙伴们:https://github.com/StarRocks/starrocks/graphs/contributors

总结与展望

过去的一年对于 StarRocks 来说是至关重要的一年,我们在产品、用户规模和社区治理模式方面不断进化,取得了飞跃式的成长。

  • 产品:从原本的 OLAP 分析引擎到现在的湖仓一体,再从存算一体到存算分离,StarRocks 已发展成为极速统一云原生湖仓分析的新范式
  • 用户规模:经过短短一年的时间,我们从千人规模的社区成长为超过万人的社区,拥有来自世界各地的众多知名用户积极参与并支持 StarRocks
  • 社区治理:StarRocks 的社区治理也越来越开放,更多开发者能通过不同的兴趣小组(SIG)参与研发工作 ,专家们能加入技术指导委员会(TSC, Technical Steering Committee)参与 StarRocks Roadmap 的制定和培养社区优秀人才

未来, StarRocks 社区也将保持着合作、开放、共赢的信念,与用户们一同探索新一代的云原生湖仓,共同打造极速统一湖仓分析的新范式!让我们期待更加精彩的下一周年!

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1026688.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数字化营销到底是什么?与传统营销有什么区别?

一、什么是数字化营销? 数字化 将许多复杂的、难以估计的信息通过一定的方式变成计算机能处理的0和1的二进制码,形成计算机里的数字孪生。物理世界被重构,被一一搬到数字化世界当中。 数字化营销 就是数字化的传播渠道去推广企业的产品&am…

GLTF编辑器如何快速重置模型原点

1、什么是模型原点? 模型原点是三维建模中的概念,它是指在一个虚拟三维空间中确定的参考点。模型原点通常位于模型的几何中心或基本组件的中心位置。如图所示: 可以看到模型的原点在模型的几何中心 2、模型原点的作用 知道了什么是模型原点&…

【Linux】Ubuntu美化主题【教程】

【Linux】Ubuntu美化主题【教程】 文章目录 【Linux】Ubuntu美化主题【教程】1. 安装优化工具Tweak2.下载自己喜欢的主题3. 下载自己喜欢的iconReference 1. 安装优化工具Tweak 首先安装优化工具Tweak sudo apt-get install gnome-tweak-tool安装完毕后在菜单中打开Tweak 然后…

spring的ThreadPoolTaskExecutor装饰器传递调用线程信息给线程池中的线程

概述 需求是想在线程池执行任务的时候,在开始前将调用线程的信息传到子线程中,在子线程完成后,再清除传入的数据。 下面使用了spring的ThreadPoolTaskExecutor来实现这个需求. ThreadPoolTaskExecutor 在jdk中使用的是ThreadPoolExecutor…

跨境电商运营的新趋势:自养号测评补单技术解析

当前阶段,亚马逊、速卖通、虾皮、lazada等主流跨境电商平台的主要推广方式仍然是广告投放,毕竟这是平台的主要收入来源之一。然而,随着越来越多的卖家进军跨境市场,市场竞争日趋激烈,传统的广告投入效果逐渐减弱。在这…

泡泡玛特大火,潮玩行业如何利用软文推广出圈

随着经济的发展,各类潮玩创意落地、新产品层出不穷,也导致潮玩行业陷入了类目繁多,但是新品很难出圈的困境。泡泡玛特作为年轻人中十分受欢迎的品牌,紧跟消费浪潮,成为国内营销赛道上一个让人无法忽视的潮玩IP。那么潮…

12万汉语源流词典汉字记性ACCESS\EXCEL数据库

《12万汉语源流词典汉字记性ACCESS数据库》在继承前人经验的基础上,注意吸收今人的研究成果,注重形音义的密切配合,尽可能历史地、正确地反映汉字形音义的发展。在字形方面,简要说明其结构的演变。语义解释遵循古今语义的发展变化…

408-2012

一、单项选择题&#xff08;2分/题&#xff09; 1.求整数 n&#xff08;n>0&#xff09;阶乘的算法如下其时间复杂度是______。 int fact(int n){if(n<1){return 1;}return n*fact(n-1); } A.O() B.O(n) C.O() D.O(n^2) 解答&#xff1a;B 2.已知操…

PyTorch深度学习(五)【卷积神经网络】

卷积神经网络(基础篇)&#xff1a; 下采样&#xff08;Subsampling&#xff09;&#xff1a;通道数不变&#xff0c;减少数据量&#xff0c;降低运算需求。 做这个卷积&#xff1a; 网络&#xff1a; 最大池化层&#xff08;MaxPooling&#xff09;&#xff1a;通道数不变&…

测试用例设计底层逻辑

【软件测试行业现状】2023年了你还敢学软件测试&#xff1f;未来已寄..测试人该何去何从&#xff1f;【自动化测试、测试开发、性能测试】 测试用例是每位测试人员都绕不开的话题&#xff0c;也是大家习以为常的事情。几乎所有测试相关的公众号、博客、专栏&#xff0c;都会提及…

openstack wallaby 对应 需要的python版本 3.8.18

Python 3.6 (default in CentOS 8.0) Python 3.8 (latest available; default in Ubuntu 20.04) Tested Runtimes for Wallaby — OpenStack Technical Committee Governance Documents x86_64 CentOS8.3.2011 python 3.6.8 安装报错 python3 -m pip install nova23.2.2 手…

LeetCode(力扣)96. 不同的二叉搜索树Python

LeetCode96. 不同的二叉搜索树 题目链接代码 题目链接 https://leetcode.cn/problems/unique-binary-search-trees/description/ 代码 class Solution:def numTrees(self, n: int) -> int:dp [0] * (n 1)dp[0] 1for i in range(1, n 1):for j in range(1, i 1):dp[…

Flutter开发桌面应用的一些探索分享

引言 在移动应用开发领域&#xff0c;Flutter已经赢得了广泛的认可和采用&#xff0c;成为了跨平台移动应用开发的瑞士军刀。然而&#xff0c;Flutter的魅力并不仅限于移动平台&#xff0c;它还可以用于开发桌面应用程序&#xff0c;为开发人员提供了一种全新的选择。本文将深…

Ubuntu 安装 CUDA 与 CUDNN GPU加速引擎

一、NVIDIA&#xff08;英伟达&#xff09;显卡驱动安装 NVIDIA显卡驱动可以通过指令sudo apt purge nvidia*删除以前安装的NVIDIA驱动版本&#xff0c;重新安装。 1.1. 关闭系统自带驱动nouveau 注意&#xff01;在安装NVIDIA驱动以前需要禁止系统自带显卡驱动nouveau&#xf…

关于包,类名,方法名的命名规范

保持与数据库同名的一个命名规范的规则 方法名采用驼峰命名法&#xff0c;保持与数据库同名的一个命名规范的规则 类名采用首字母大写&#xff0c;驼峰命名法&#xff0c;保持与数据库同名的一个命名规范的规则 包名全部使用小写&#xff0c;保持与数据库同名的一个命名规范的规…

element-table排序icon没有点亮

<el-table :data"tableData" ref"tableRef"border :sort"defaultSort":default-sort"defaultSort"><el-table-column sortable :sort-orders"sortOrder" prop"date" label"日期"> </el-…

记录一个ABB机器人RobotStudio软件智能组件的神奇地方(走进科学来了都得拍三天)

“走进科学”来了都得拍三天 背景&#xff1a; 做项目的时候生产线产品规格比较多、位置有偏差&#xff0c;robotstudio仿真中为了设备能用于所有规格的产品需要对所有规格的产品进行测试&#xff0c;修改完产品规格和位置进行测试&#xff0c;测试完再改规格、位置再测试过于…

想知道视频二维码制作方法吗?方法很简单

现在扫码看视频的应用越来越多&#xff0c;很多人都开始用这种方式来展示内容&#xff0c;比如产品介绍或者使用教程就是常用的一种方式。将视频生成二维码后印刷在宣传单或者包装上&#xff0c;来让购买者了解产品的详情和使用。那么视频二维码制作的方法是什么样的呢&#xf…

【OS】操作系统课程笔记 第四章 中断和处理机调度

什么是调度&#xff1f; 调度就是采用特定算法&#xff0c;安排多个作业或进程运行。 4.1 中断 中断对于操作系统的五个作用&#xff1a;&#xff08;可能考简答题&#xff09; 实现多道程序设计与并发的基础解决主机与外设的并行工作问题具备控制和管理计算机&#xff0c;…

深度探讨丨区块链领域企业的未来之路

发表时间&#xff1a;2022年8月4日 信息来源&#xff1a;bsvblockchain.org 随着公司越来越多地采用区块链和人工智能等新技术&#xff0c;他们也应当注意其中的一些机遇与挑战。这是近期在波兰华沙举行的“明日技术大会”上的一个主要圆桌讨论议题。 在圆桌讨论中&#xff0c…