starRocks搭建

news2025/1/16 2:06:41

公司要使用新的大数据架构,打算用国产代替国外的大数据平台。所以这里我就纠结用doris还是starrocks,如果用doris,因为是开源的,以后就可以直接用云厂商的。如果用starrocks就得自己搭建,但是以后肯定会商业化,也是要收钱的。doris我以前用过,没用过starRocks,想试下是不是真的像下面参考链接里的高性能,所以我选择了starrocks。用他来做数仓,代替我们以前cdh里的hive-presto或者kudu-impala。

大家觉得starRocks可以替代hive吗?我觉得是可以的,hadoop那一套的都是20年前google玩腻的了,hadoop那套组件太多了,好处就是非常稳定,20年了,几乎遇到的大bug都修完了。彻底不用hadoop那套,可以用starRocks代替。

检测cpu是否支持

cat /proc/cpuinfo | grep avx2

如果什么都没有打印,那么你可以换cpu了。

Be是负责计算的,你没有这个指令集,那么部署不了

介绍

startrocks是做【数据分析】的【数据仓库】,可以替代传统的hive,他具有向量化MMP架构列式存储引擎,支持实时分析,并发计算。兼容mysql协议,可使用mysql客户端对接。支持水平扩展。全系统无外部依赖,也就是不需要zookeeper来管理,或者元数据存在mysql,只用维护自身。

他不适合做事务操作,比如更新等操作,用来分析的数据都是写入了就不变的,比如日志数据,或者是体检报告等。

向量化:指的是将数据向量化后,cpu原本只能处理一条,现在可以同时处理多条

MPP架构:大规模并行处理架构,将数据拆分给多台机器一起执行,处理大量数据

列式存储引擎:将列进行管理,支持大宽表存储和分析,mysql就不行,字段多了就崩了,单独查列很快,可以实时更新列

实时分析:查询分析速度比较快,毫秒级

mysql客户端对接:比如navicat,或者jdbc都可以直接链接它?待验证

水平扩展:1台太弱,我可以继续加机器,让他分析能力变强

支持以下BI对接:包括 Tableau、Power BI、FineBI 和 Smartbi。

作为实时数仓,他只能【秒级】同步数据,可以实时【毫秒级查询

系统架构(维护以及搭建必看)

系统的核心只有 FE(Frontend)、BE (Backend) 或 CN (Compute Node) 进程。

前端(显示界面)、后端(逻辑控制)、节点

3.0后支持了存算分离,存储持久化数据必须放到hdfs上。当然你也可以选择存算一体。

3.0同样支持这两种架构。

这2个有啥区别,存算一体的话,你必须将【数据复制】到startRocks里一份,存算分离的话,你【直接用hdfs】的数据就行了。少了一步复制,存算分离的话更加省钱,省磁盘,更好的动态扩容,扩容就不用管存储了,直接扩容计算节点就行。缺点就是要多维护一套外源数据。

不支持混合部署,存算一体选择了,就不能弄存算分离了。

Fe负责协调、和目录管理

存算一体

Be负责存储计算

Fe(详细版)

负责管理元数据,管理客户端的连接,查询规划、查询调度。

FE的元数据是存储在内存里的,磁盘中也有一份。

FE有3种角色,leader,follower,observer

Leader是选举出来的,他负责读写。然后写入后,将元数据更新完,同步给follwer和observer,只有一半的follwer成功了才算成功。

Follwer没有写入权限,只有读取权限

Observer和follwer一样,可选部署,能提高查询速度,不参与选举,相当于是如虎添翼

Be(详细版)

每个BE是一样的(没有啥leader,follwer),但是并不是每一个be都有完整的数据,BE负责是存储和计算,FE将数据分配到BE,BE将他存下来,并且生成索引。

Be计算,会将sql根据语法意思,分成逻辑单元(代码层面),然后根据数据分布变成物理单元(硬件层面),然后会在本地执行。

元数据:这个不会没人知道吧,说实话我都不想写,只是为了照顾小白。比如这个数据是什么类型的,是字符串还是数字,这就是元数据,用来修饰数据的数据。

查询规划:计划要消耗多少性能,用什么sql,进行优化,转换成物理计划

查询调度:选择哪台be去执行这个物理计划

存算提一体数据管理

starRocks最小的存储单元叫做tablet。我们可以自行分区,然后指定分桶。

图中是按时间列分区,然后对指定4个字段进行分桶(4列,其实用1列都可以),然后指定了3个副本,每个列的数据每个单元数据,分布在不同的节点下。A-1和A-2还有A-3都是相同的数据,是A的备份。

他扩容的时候,不需要停止服务,增加节点会自动迁移,节点减少时也会自动均横分布数据。

存算分离

引入了【缓存】的概念,Be【只】负责计算,然后改名叫做Cn(计算节点-compute node)

缓存:会自动根据查询频率将数据进行动态变化

动态变化:分为3级,内存,本地,外源。最热的数据在内存中,然后其他是本地磁盘中,然后冷数据(不经常用的)在外源中。随着你的访问频率进行动态数据调整

存算分离建表时候,需要告诉他是否开启缓存。

支持以下后端存储:

  • 兼容 AWS S3 协议的对象存储系统(支持主流的对象存储系统如 AWS S3、Google GCP、阿里云 OSS、腾讯云 COS、百度云 BOS、华为云 OBS 以及 MinIO 等)
  • Azure Blob Storage
  • 传统数据中心部署的 HDFS


这里官网的系统架构的每句话,我都已经用自己话讲完了。下面开始搭建。

快速上手体验

他是用docker容器帮你打包好环境了,所以可以直接启动。

首先安装docker,至少4G内存,10GB空间。

我们服务器的cpu不支持avx2,这里我在下虚拟机,打算在windows上面弄一个Ubuntu.22,因为我个人电脑是支持avx2的。---等我下载完,在开始写后面的。


 

参考:

📚 【源码解析】StarRocks 查询优化系列文章 - 原理解读 - StarRocks中文社区论坛

StarRocks | StarRocks

部署前提条件 | StarRocks

https://www.cnblogs.com/huanghanyu/p/18186894

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1920762.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ARM功耗管理之多核处理器启动

安全之安全(security)博客目录导读 思考:SecureBoot?多核处理器启动流程?PSCI启动方式? 一般嵌入式系统使用的都是对称多处理器(Symmetric Multi-Processor, SMP)系统,包含了多个cpu, 这几个cp…

脑电图 (EEG) :语音脑机接口(BCI)的理想选择

运动性语言障碍是一种严重的医疗状况,它让患者几乎或完全失去说话能力。这种状况在帕金森病患者中的发生率为90%,在中风患者中的发生率为45.2%,在肌萎缩侧索硬化症(ALS)患者中的发生率为95%。典型的针对语言障碍的沟通…

轮转数组(超详细!)

前言: 小编在上一篇文章的时候拿过轮转数组作为例子来讲述复杂度,但是小编并没有给出这个题目的正确解答,既然读者朋友已经了解复杂度了(不了解也没关系,可以看小编上一篇文章),下面&#xff0c…

木舟0基础学习Java的第十六天(异常,分类,自定义异常,注意事项)

异常 异常概述:异常是Java程序运行过程中出现的错误 异常分类:API查找Throwable 1.Error(服务器宕机,数据库崩溃等) 2.Exception C(异常的继承体系)API查RuntimeException 运行时异常:一般是程序员的错误异常可以让我们发现错…

LiveNVR监控流媒体Onvif/RTSP用户手册-用户管理:编辑、添加用户、关联通道、重置密码、删除、过滤搜索

LiveNVR监控流媒体Onvif/RTSP用户手册-用户管理:编辑、添加用户、关联通道、重置密码、删除、过滤搜索 1、用户管理1.1、添加用户1.2、关联通道1.3、重置密码1.4、编辑1.5、删除1.6、过滤搜索 2、RTSP/HLS/FLV/RTMP拉流Onvif流媒体服务 1、用户管理 1.1、添加用户 点击用户管理…

【源码开源】C#桌面应用开发:串口调试助手

c#桌面应用开发 1、环境搭建和工程创建:参照番茄定时器项目 工程创建参照 2、界面布局设计 3、具体功能函数 (1)端口扫描: private void btn_com_scan_Click(object sender, EventArgs e){//端口号扫描ReflashPortToComboBox(…

【JavaWeb程序设计】JavaBean(二)

目录 一、请设计并实现下面的Web应用 1. 运行结果 2. inputNumber.jsp代码 3. ComputerBean.java代码 4. handleCompute 5. lookResult.jsp 二、基于MVC模式完成用户注册功能,不允许添加重名用户,使用AJAX技术在用户填写时进行检查并提示是否重复&…

【产品经理】WMS多仓调拨转移说明

对于仓储管理来说,越来越多企业开始应用WMS进行系统化的管理,以提升仓库的作业效率。本文作者从业务流程和基础功能两个方面展开介绍,希望对你有帮助。 一、业务流程 。在线下业务流程拓展,仓库不断增多的过程中,由于…

[leetcode]circular-array-loop 环形数组是否存在循环

. - 力扣&#xff08;LeetCode&#xff09; class Solution { public:bool circularArrayLoop(vector<int>& nums) {int n nums.size();auto next [&](int cur) {return ((cur nums[cur]) % n n) % n; // 保证返回值在 [0,n) 中};for (int i 0; i < n; i…

Apache AGE 运算符

运算符 字符串特定比较运算符 测试数据 SELECT * FROM cypher(graph_name, $$ CREATE (:Person {name: John}),(:Person {name: Jeff}),(:Person {name: Joan}),(:Person {name: Bill}) $$) AS (result agtype);Starts With 对字符串执行区分大小写的前缀搜索。 SELECT * …

Vue2-集成Element-ui、Fontawesome、Axios介绍与使用

文章目录 前期准备Element UI介绍Element-ui安装使用Fontawesome介绍Fontawesome安装使用Axios介绍Axios安装使用本篇小结 更多相关内容可查看 前期准备 脚手架生成vue2项目&#xff1a;NodeJS安装并生成Vue脚手架(保姆级) Element UI介绍 Element UI 是一个基于 Vue.js 2.0…

【Node.js安装教程】

Node.js安装教程 第一步&#xff1a;下载 下载链接&#xff1a;https://nodejs.org/zh-cn 第二步&#xff1a;安装 **方法一&#xff1a;**建议安装在默认路径 方法二&#xff1a;如果不是默认安装路径可能会出现一系列问题&#xff1a;这时可以选择卸载重装或者配置环境变量…

将vue项目整合到springboot项目中并在阿里云上运行

第一步&#xff0c;使用springboot中的thymeleaf模板引擎 导入依赖 <!-- thymeleaf 模板 --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-thymeleaf</artifactId></dependency> 在r…

帕金森老人的锻炼建议

对于帕金森病老人来说&#xff0c;适当的锻炼可以帮助改善症状、增强肌肉力量、提高关节灵活性&#xff0c;并预防长期并发症。以下是一些基于最新信息的锻炼建议&#xff1a; 选择合适的运动类型&#xff1a;包括有氧运动、抗阻运动和牵伸运动。有氧运动如快走、慢跑、游泳和舞…

Python酷库之旅-第三方库Pandas(017)

目录 一、用法精讲 41、pandas.melt函数 41-1、语法 41-2、参数 41-3、功能 41-4、返回值 41-5、说明 41-5-1、宽格式数据(Wide Format) 41-5-2、长格式数据(Long Format) 41-6、用法 41-6-1、数据准备 41-6-2、代码示例 41-6-3、结果输出 42、pandas.pivot函数 …

.net C# 使用网易163邮箱搭建smtp服务,实现发送邮件功能

功能描述&#xff1a;使用邮箱验证实现用户注册激活和找回密码。邮箱选择网易163作为smtp服务器。 真实测试情况&#xff1a;第一种&#xff1a;大部分服务器运行商的25端口默认是封禁的&#xff0c;可以联系运营商进行25端口解封&#xff0c;解封之后可以使用25端口。第二种&…

电力需求预测挑战赛笔记 Taks1 跑通baseline

#AI夏令营 #Datawhale #夏令营 赛题 一句话介绍赛题任务可以这样理解赛题&#xff1a; 【训练时序预测模型助力电力需求预测】 电力需求的准确预测对于电网的稳定运行、能源的有效管理以及可再生能源的整合至关重要。 赛题任务 给定多个房屋对应电力消耗历史 N 天的相关序列数…

Comparable 和 Comparator 接口的区别

Comparable 和 Comparator 接口的区别 1、Comparable 接口1.1 compareTo() 方法 2、Comparator 接口2.1 compare() 方法 3、 Comparable 和 Comparator 的区别总结 &#x1f496;The Begin&#x1f496;点点关注&#xff0c;收藏不迷路&#x1f496; 在Java中&#xff0c;Compa…

网络钓鱼中的高级同形异义:网络安全的新威胁

网络安全正面临一个潜在的新威胁&#xff1a;在网络钓鱼攻击中使用同形异义词。 这篇调查文章探讨了同形异义现象如何在各种类型的网络钓鱼攻击中使用、其背后的技术。 对这种恶意行为的研究以及高级语言模型 (LLM) 如何帮助加速同形异形现象的研究。 什么是同形异义&#xf…

SpringCloud--Eureka集群

Eureka注册中心集群 为什么要集群 如果只有一个注册中心服务器&#xff0c;会存在单点故障&#xff0c;不可以高并发处理所以要集群。 如何集群 准备三个EurekaServer 相互注册&#xff0c;也就是说每个EurekaServer都需要向所有的EureakServer注册&#xff0c;包括自己 &a…