大数据-151 Apache Druid 集群模式 配置启动【上篇】 超详细!

news2024/9/28 12:46:21

点一下关注吧!!!非常感谢!!持续更新!!!

目前已经更新到了:

  • Hadoop(已更完)
  • HDFS(已更完)
  • MapReduce(已更完)
  • Hive(已更完)
  • Flume(已更完)
  • Sqoop(已更完)
  • Zookeeper(已更完)
  • HBase(已更完)
  • Redis (已更完)
  • Kafka(已更完)
  • Spark(已更完)
  • Flink(已更完)
  • ClickHouse(已更完)
  • Kudu(已更完)
  • Druid(正在更新…)

章节内容

上节我们完成了如下的内容:

  • Apache Druid 系统架构 核心组件介绍
  • Druid 单机模式配置启动

在这里插入图片描述

整体介绍

Apache Druid 是一种高性能、分布式的列式存储数据库,专门用于实时分析和查询大规模数据集。它适用于 OLAP(在线分析处理)场景,尤其在处理大数据实时流时表现优异。Druid 的架构由多个组件组成,主要包括数据摄取、存储、查询和管理。

在集群配置方面,Druid 通常由以下节点构成:

  • 数据摄取层:使用 MiddleManager 节点来处理数据的实时摄取,负责从不同数据源(如 Kafka、HDFS 等)读取数据并进行实时处理。
  • 存储层:数据存储在 Historical 节点上,这些节点负责存储和管理较老的数据,支持高效的查询。数据被以列式格式存储,优化了查询性能。
  • 查询层:Broker 节点充当查询路由器,接受用户的查询请求并将其分发到相应的 Historical 或 Real-time 节点,然后将结果汇总返回给用户。
  • 协调层:Coordinator 节点负责集群的状态管理和数据分配,确保数据均匀分布并自动处理节点故障。

Druid 的配置文件允许用户自定义参数,如 JVM 设置、内存分配和数据分片策略,以便根据不同的工作负载和性能需求进行优化。此外,Druid 还支持多种查询语言,包括 SQL,便于用户进行灵活的数据分析。整体上,Druid 提供了一种高效、可扩展的解决方案,适合需要快速实时分析的大数据应用场景。

集群规划

集群部署采用的分配如下:

  • 主节点部署 Coordinator 和 Overlord 进程
  • 数据节点运行 Historical 和 MiddleManager 进程
  • 查询节点 部署Broker 和 Router 进程

在这里插入图片描述
我的实机部署情况:

  • h121.wzk.icu 2C4G ZooKeeper、Kafka、Druid
  • h122.wzk.icu 2C4G ZooKeeper、Kafka、Druid、MySQL(之前Hive时搭建)
  • h123.wzk.icu 2C2G ZooKeeper、Druid

环境变量

vim /etc/profile

写入的内容如下:

# druid
export DRUID_HOME=/opt/servers/apache-druid-30.0.0
export PATH=$PATH:$DRUID_HOME/bin

在这里插入图片描述

配置文件

将 Hadoop 配置文件:

  • core-site.xml
  • hdfs-site.xml
  • yarn-site.xml
  • mapred-site.xml

上述文件链接到 conf/druid/cluster/_common 下
执行下面的Shell:

cd $DRUID_HOME/conf/druid/cluster/_common
ln -s $HADOOP_HOME/etc/hadoop/core-site.xml core-site.xml
ln -s $HADOOP_HOME/etc/hadoop/hdfs-site.xml hdfs-site.xml
ln -s $HADOOP_HOME/etc/hadoop/yarn-site.xml yarn-site.xml
ln -s $HADOOP_HOME/etc/hadoop/mapred-site.xml mapred-site.xml
ls

执行结果如下图所示:

MySQL

将MySQL驱动链接到:$DRUID_HOME/extensions/mysql-metadata-storage 中

cd $DRUID_HOME/extensions/mysql-metadata-storage
cp $HIVE_HOME/lib/mysql-connector-java-8.0.19.jar mysql-connector-java-8.0.19.jar
ls

执行结果如下图所示:
在这里插入图片描述

修改配置

vim $DRUID_HOME/conf/druid/cluster/_common/common.runtime.properties

我们要修改如下的内容:

# 增加"mysql-metadata-storage"
druid.extensions.loadList=["mysql-metadata-storage", "druid-hdfs-storage", "druid-kafka-indexing-service", "druid-datasketches", "druid-multi-stage-query"]

# 每台机器写自己的ip或hostname
# 我这里是h121节点
druid.host=h121.wzk.icu
# 填写zk地址
druid.zk.service.host=h121.wzk.icu:2181,h122.wzk.icu:2181,h123.wzk.icu:2181
druid.zk.paths.base=/druid

# 注释掉前面 derby 的配置
# 增加 mysql 的配置
druid.metadata.storage.type=mysql
druid.metadata.storage.connector.connectURI=jdbc:mysql://h122.wzk.icu:3306/druid
druid.metadata.storage.connector.user=hive
druid.metadata.storage.connector.password=hive@wzk.icu

# 注释掉local的配置
# 增加HDFS的配置,即使用HDFS作为深度存储
druid.storage.type=hdfs
druid.storage.storageDirectory=/druid/segments

# 注释掉 indexer.logs For local disk的配置
# 增加 indexer.logs For HDFS 的配置
druid.indexer.logs.type=hdfs
druid.indexer.logs.directory=/druid/indexing-logs

修改截图如下:
在这里插入图片描述
修改截图如下所示:
在这里插入图片描述

coordinator-overlord

参数大小根据实际情况调整

vim $DRUID_HOME/conf/druid/cluster/master/coordinator-overlord/jvm.config

原来的配置如下图所示:

-server
-Xms15g
-Xmx15g
-XX:+ExitOnOutOfMemoryError
-XX:+UseG1GC
-Duser.timezone=UTC
-Dfile.encoding=UTF-8
-Djava.io.tmpdir=var/tmp
-Djava.util.logging.manager=org.apache.logging.log4j.jul.LogManager
-Dderby.stream.error.file=var/druid/derby.log

修改内容如下所示:

-server
-Xms512m
-Xmx512m
-XX:+ExitOnOutOfMemoryError
-XX:+UseG1GC
-Duser.timezone=UTC+8
-Dfile.encoding=UTF-8
-Djava.io.tmpdir=var/tmp
-Djava.util.logging.manager=org.apache.logging.log4j.jul.LogManager

对应的截图如下所示:
在这里插入图片描述

historical

参数大小根据实际情况调整

vim $DRUID_HOME/conf/druid/cluster/data/historical/jvm.config

原配置内容如下所示:

-server
-Xms8g
-Xmx8g
-XX:MaxDirectMemorySize=13g
-XX:+ExitOnOutOfMemoryError
-Duser.timezone=UTC
-Dfile.encoding=UTF-8
-Djava.io.tmpdir=var/tmp
-Djava.util.logging.manager=org.apache.logging.log4j.jul.LogManager

修改内容如下:

-server
-Xms512m
-Xmx512m
-XX:MaxDirectMemorySize=1g
-XX:+ExitOnOutOfMemoryError
-Duser.timezone=UTC+8
-Dfile.encoding=UTF-8
-Djava.io.tmpdir=var/tmp
-Djava.util.logging.manager=org.apache.logging.log4j.jul.LogManager

修改结果如下图:
在这里插入图片描述
此外还有一个参数:

vim $DRUID_HOME/conf/druid/cluster/data/historical/runtime.properties

原配置内容如下:

druid.processing.buffer.sizeBytes=500MiB

修改为如下内容:

# 相当于 50MiB
druid.processing.buffer.sizeBytes=50000000

修改的截图如下:
在这里插入图片描述
备注:

  • druid.processing.buffer.sizeBytes 每个查询用于聚合的对外哈希表的大小
  • maxDirectMemory = druid.processing.buffer.sizeBytes * (durid.processing.numMergeBuffers + druid.processing.numThreads + 1)
  • 如果 druid.processing.buffer.sizeBytes太大的话,需要加大 maxDirectMemory,否则 historical服务无法启动

middleManager

vim $DRUID_HOME/conf/druid/cluster/data/middleManager/jvm.config

原配置:

-server
-Xms128m
-Xmx128m
-XX:+ExitOnOutOfMemoryError
-Duser.timezone=UTC
-Dfile.encoding=UTF-8
-Djava.io.tmpdir=var/tmp
-Djava.util.logging.manager=org.apache.logging.log4j.jul.LogManager

配置如下(没有修改):

-server
-Xms128m
-Xmx128m
-XX:+ExitOnOutOfMemoryError
-Duser.timezone=UTC+8
-Dfile.encoding=UTF-8
-Djava.io.tmpdir=var/tmp
-Djava.util.logging.manager=org.apache.logging.log4j.jul.LogManager

修改的截图如下:
在这里插入图片描述

【续接下篇!】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2173534.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

windows10 docker 推送本地镜像

windows10安装好docker后,接下来上传本地镜像文件: 1,设置请非安全参数,处理:https改为http请求 点击设置,打开 Docker Engine 追加: "insecure-registries": ["http://177.18…

8-回溯算法

参考 代码随想录 题目分类大纲如下: 一、回溯算法理论基础 1、什么是回溯法 回溯法也可以叫做回溯搜索法,它是一种搜索的方式。回溯是递归的副产品,只要有递归就会有回溯。回溯法其实就是暴力查找,并不是什么高效的算法 2、回…

分享了一个支持WIN7的QGIS3.34的版本

上传分享了一个支持WIN7的QGIS3.34的版本,该版本同时也是个轻量级的QGIS,大小轻便、启动速度也快!但该版本没有Python及Python插件支持。 需要在WIN7下使用或只使用QGIS3.34核心基本功能的可以使用这个!当然这个版本也支持WIN7以上…

Docker必学命令与操作技巧:新手快速入门指南

各位Docker初学者大家好!今天为大家分享一些关于Docker的必学命令和操作技巧,帮助大家快速入门。 Docker是什么? Docker是一个开源的容器化平台,它可以让开发者打包他们的应用以及依赖项到一个轻量级、可移植的容器中,然后在任何运行Docker引擎的机器上运行。 必学Dock…

使用Python创建EXE运行器和截图工具

在今天的博客中,我们将探讨如何使用Python和wxPython创建一个强大而实用的桌面应用程序。这个应用程序可以遍历指定文件夹中的所有EXE文件,并提供运行这些文件和自动截图的功能。无论你是系统管理员、软件测试人员,还是仅仅对自动化工具感兴趣的开发者,这个项目都会给你带来启发…

低代码用户中心:构建高效便捷的用户管理平台

什么是低代码用户中心? 低代码用户中心是一种利用低代码开发平台构建的用户管理系统,允许企业快速创建、部署和管理用户信息、权限及互动记录。通过可视化界面和预置组件,企业可以在短时间内实现灵活的用户管理解决方案,而无需编…

美畅物联丨GB/T 28181系列之TCP/UDP被动模式和TCP主动模式

GB/T 28181《安全防范视频监控联网系统信息传输、交换、控制技术要求》作为我国安防领域的重要标准,为视频监控系统的建设提供了全面的技术指导和规范。该标准详细规定了视频监控系统的信息传输、交换和控制技术要求,在视频流传输方面,GB/T 2…

【Midjourney中文版:AI绘画新纪元,赋能创意设计与开发】

在数字艺术与设计领域,创新与效率并重。Midjourney中文版,作为一款强大的AI绘画工具,正引领我们步入一个全新的创意时代。它不仅简化了复杂的绘画流程,更以智能算法为驱动力,为开发者、设计师及所有创意工作者带来了前…

从0开始深度学习(6)——Pytorch动态图机制(前向传播、反向传播)

PyTorch 的动态计算图机制是其核心特性之一,它使得深度学习模型的开发更加灵活和高效。 0 计算图 计算图(Computation Graph)是一种用于表示数学表达式或程序流程的图形结构,可以将复杂的表达式分解成一系列简单的操作&#xff0…

Materials Studio零基础专题培训重磅来袭

一、软件介绍 Materials Studio是一款由美国Accelrys公司开发的新一代材料计算软件,专为材料科学领域的研究者设计,能够运行在PC上进行各种模拟研究。以下是对它的具体介绍: 1. 软件简介 定义与用途:Materials Studio是一款专门…

基于SpringBoot+Vue的智慧博物馆管理系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码 精品专栏:Java精选实战项目…

MapReduce学习与理解

MapReduce为google分布式三驾马车之一。分别为《The Google File System》、《MapReduce: Simplified Data Processing on Large Clusters》、《Bigtable: A Distributed Storage System for Structured Data》。三遍论文奠定了分布式存储和计算的基础。本篇文章来说说mapreduc…

在 commit 里使用 emoji~

在 git commit 上使用 emoji 提供了一种简单的方法:仅通过查看所使用的 emoji 来确定提交的目的或意图,非常好理解,阅读体验很棒。 ‍ 效果 以我的 博客项目 为例,可以看到不少的 emoji : ‍ ‍ 使用方法 直接在…

【Linux】驱动的基本架构和编译

驱动源码 /** Silicon Integrated Co., Ltd haptic sih688x haptic driver file** Copyright (c) 2021 kugua <daokuan.zhusi-in.com>** This program is free software; you can redistribute it and/or modify it* under the terms of the GNU General Public Licen…

python基础库

文章目录 1.研究目的2.platform库介绍3.代码4.结果展示 1.研究目的 最近项目中需要利用python获取计算机硬件的一些基本信息,查阅资料,.于是写下这篇简短的博客,有问题烦请提出,谢谢-_- 2.platform库介绍 platform 库是 Python 的一个内置库&#xff0c;可以让我们轻松地获取…

京东面试:RR隔离mysql如何实现?什么情况RR不能解决幻读?

尼恩说在前面 在40岁老架构师 尼恩的读者交流群(50)中&#xff0c;最近有小伙伴拿到了一线互联网企业如得物、阿里、滴滴、极兔、有赞、希音、百度、网易、美团的面试资格&#xff0c;遇到很多很重要的面试题&#xff1a; 谈谈&#xff1a;mysql 事务隔离的底层原理&#xff1…

Cilium + ebpf 系列文章- (七)Cilium-BGP-自定义定时器-ebgp多跳-优雅重启-MD5加密-传播团体字

一、自定义定时器 这里指的是自定义: Keepalive Interval: 缺省值为30秒。Keepalive用于维护邻居关系&#xff0c;如果在协商的保持时间内没有收到Keepalive消息&#xff0c;则BGP将断开邻居连接。 Hold Time:缺省值是Keepalive时间的3倍&#xff0c;即90秒。这是BGP在关闭连…

spark计算引擎-架构和应用

一Spark 定义&#xff1a;Spark 是一个开源的分布式计算系统&#xff0c;它提供了一个快速且通用的集群计算平台。Spark 被设计用来处理大规模数据集&#xff0c;并且支持多种数据处理任务&#xff0c;包括批处理、交互式查询、机器学习、图形处理和流处理。 核心架构&#x…

c++九月27日

1.顺序表 #ifndef ARRAYLIST_H #define ARRAYLIST_H#include <iostream> #include <stdexcept>template <typename T> class ArrayList { private:T* data; // 存储数据的数组int capacity; // 数组容量int size; // 当前元素数量publ…

【linux】基础IO(下)

8. 理解文件系统 8.1. 认识硬件 --- 磁盘 唯一的机械设备&#xff0c;也是一个外设 注意&#xff1a; 磁头是一面一个&#xff0c;磁头和盘面不接触在软件设计上&#xff0c;设计者会有意识地将相关数据放在一起一般来说&#xff0c;运动越少&#xff0c;效率越高&#xff1…