Springboot 整合 DolphinScheduler(一):初识海豚调度

news2024/11/24 20:52:15

目录

一、什么是 DolphinScheduler

二、DolphinScheduler 的特性

三、DolphinScheduler 核心架构

四、单机环境部署流程

1、下载安装包

2、上传至服务器,解压缩

3、单机启动

4、登录 dolphinscheduler UI

5、配置数据库【非必需】

(1)下载 MySQL 驱动

(2)上传服务器并解压缩

(3)引入mysql连接驱动包

(4)在MySQL中创建dolphinscheduler数据库

(5)修改 dolphinscheduler 的数据源连接

(6)通过Shell 脚本来初始化数据库

五、集群环境部署流程

1、环境准备

2、上传服务器并解压缩

3、修改配置项

4、配置 MySql 数据库

5、执行安装

6、启动服务

7、启动成功后,登录UI


一、什么是 DolphinScheduler

Apache DolphinScheduler 是一个分布式易扩展的可视化 DAG 工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。

Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系,并为应用程序提供数据和各种 OPS 编排中的关系。 解决数据研发ETL依赖错综复杂,无法监控任务健康状态的问题。 DolphinScheduler 以 DAG(Directed Acyclic Graph,DAG,有向无环图)流式方式组装任务,可以及时监控任务的执行状态,支持重试、指定节点恢复失败、暂停、恢复、终止任务等操作。

二、DolphinScheduler 的特性

  • 可视化 DAG: 用户友好的,通过拖拽定义工作流的,运行时控制工具
  • 模块化操作: 模块化有助于轻松定制和维护。
  • 支持多种任务类型: 支持Shell、MR、Spark、SQL等10余种任务类型,支持跨语言,易于扩展
  • 丰富的工作流操作: 工作流程可以定时、暂停、恢复和停止,便于维护和控制全局和本地参数。
  • 高可靠性: 去中心化设计,确保稳定性。 原生 HA 任务队列支持,提供过载容错能力。 DolphinScheduler 能提供高度稳健的环境。
  • 高扩展性: 支持多租户和在线资源管理。支持每天10万个数据任务的稳定运行。

三、DolphinScheduler 核心架构

主要角色如下:

  • MasterServer:采用分布式无中心设计理念,MasterServer主要负责 DAG 任务切分、任务提交、任务监控,并同时监听其它 MasterServer 和 WorkerServer 的健康状态。
  • WorkerServer:也采用分布式无中心设计理念,WorkerServer主要负责任务的执行和提供日志服务。
  • ZooKeeper服务:系统中的 MasterServer 和 WorkerServer 节点都通过 ZooKeeper 来进行集群管理和容错。
  • Alert服务:提供告警相关服务。
  • API接口层:主要负责处理前端UI层的请求。
  • UI:系统的前端页面,提供系统的各种可视化操作界面。

四、单机环境部署流程

1、下载安装包

地址:Index of /apache/dolphinscheduler/3.2.1

2、上传至服务器,解压缩

tar -zxvf apache-dolphinscheduler-3.2.1-bin.tar.gz

3、单机启动

./bin/dolphinscheduler-daemon.sh start standalone-server

4、登录 dolphinscheduler UI

 浏览器输入地址:http://{所在服务器IP}:12345/dolphinscheduler/ui

 用户名admin

 密码dolphinscheduler123

【注】无法访问可能是因为服务器端口12345未开放

① 查看 12345 端口号是否开放:firewall-cmd --query-port=12345/tcp

② 打开端口:firewall-cmd --zone=public --add-port=12345/tcp --permanent

③ 重启防火墙:firewall-cmd –reload

5、配置数据库【非必需】

Standalone server 使用 H2 数据库作为其元数据存储数据,这是为了上手简单,用户在启动服务器之前不需要启动数据库。但是如果用户想将元数据库存储在 MySQL PostgreSQL 等其他数据库中,必须更改一些配置。以下以修改成MySQL数据库为例:

(1)下载 MySQL 驱动

地址:https://downloads.mysql.com/archives/c-j/

(2)上传服务器并解压缩

(3)引入mysql连接驱动包

将 mysql-connector-j-8.2.0.jar 拷贝到 DolphinScheduler 的每个模块的 libs 目录下。

其中包括 api-server/libs 、alert-server/libs 、master-server/libs 、worker-server/libs

(4)在MySQL中创建dolphinscheduler数据库

(5)修改 dolphinscheduler 的数据源连接

修改文件:./bin/env/dolphinscheduler_env.sh

(6)通过Shell 脚本来初始化数据库

脚本位置:apache-dolphinscheduler-3.2.1-bin/tools/bin/upgrade-schema.sh

五、集群环境部署流程

DolphinScheduler 的集群需要依赖 Zookeeper,目前已有一套 CDH 的组网环境,其中 zookeeper 的版本为 3.4.5。DolphinScheduler 3.2.1 版本使用的是 Zookeeper 3.8.0 版本。版本不一致导致我在启动 DolphinScheduler时,一直报如下错误:

尝试将 CDH 中 zookeeper 的版本升至 3.8.3后,仍未解决问题,因此将 DolphinScheduler 版本降至 2.0.6。

1、环境准备

(1) 已安装了 Zookeeper 集群环境,CDH 组网环境如下:

主机名

IP

服务

hadoop103

192.168.1.247

JDK、zookeeper

hadoop104

192.168.1.248

JDK、zookeeper

hadoop105

192.168.1.249

JDK、zookeeper、MySQL

(2) DolphinScheduler 要搭建的集群环境:

【注】三台服务器之间能互相免密登录,涉及文件拷贝等操作。

角色

服务器IP

master

192.168.1.247

master

192.168.1.248

worker

192.168.1.249

2、上传服务器并解压缩

过程略

3、修改配置项

① apache-dolphinscheduler-2.0.6-bin/conf/env/dolphinscheduler_env.sh

② apache-dolphinscheduler-2.0.6-bin/conf/config/install_config.conf

4、配置 MySql 数据库

① 手动创建数据库dolphinscheduler

② 将MySQL驱动包放入apache-dolphinscheduler-2.0.6-bin/lib/下

③ 执行脚本初始化数据库

脚本位置:apache-dolphinscheduler-2.0.6-bin/script/create-dolphinscheduler.sh

5、执行安装

脚本位置:apache-dolphinscheduler-2.0.6-bin/install.sh 

只在 247 服务器上执行脚本即可,执行后,会在三台主从机上的 home/dolphinscheduler 下产生相关文件:

6、启动服务

脚本位置:/apache-dolphinscheduler-2.0.6-bin/bin/start-all.sh

另外:

查看状态:status-all.sh

停止服务:stop-all.sh

7、启动成功后,登录UI

 


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1879525.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

timm中模型更换huggingface模型链接

现在timm默认使用huggingface的链接了,错误链接如下: (MaxRetryError("HTTPSConnectionPool(hosthuggingface.co, port443): Max retries exceeded with url: /timm/swinv2_tiny_window8_256.ms_in1k/resolve/main/model.safetensors (Caused by C…

Docker Compose 入门

想象一下在服务器上运行静态页面的场景。对于这项任务,NGINX 服务器是一个不错的选择。我们在 static-site/index.html 路径下有一个简单的 HTML 文件: 通过使用 Docker,我们将使用以下官方镜像运行 NGINX 服务器 docker run --rm -p 8080:…

C++ 之插件机制初试

C 之插件机制 C 插件架构允许一个应用程序以动态链接库(DLLs 在 Windows,或 .so 在 Unix-like 系统)的形式加载和使用插件。以下是构建 C 插件架构的一般步骤和考虑因素: 定义插件接口 首先,定义一个插件接口&#…

R包的4种安装方式及常见问题解决方法

R包的4种安装方式及常见问题解决方法 R包的四种安装方式1. install.packages()2. 从Bioconductor安装3. 从本地源码安装4. 从github安装 常见问题的解决1. 版本问题2. 网络/镜像问题3.缺少Rtools R包的四种安装方式 1. install.packages() 对于R自带的包的安装一般都可以通过…

LeetCode热题100刷题2:283. 移动零、11. 盛最多水的容器、15. 三数之和、42. 接雨水

283. 移动零 挺简单的没啥说的 class Solution { public:void moveZeroes(vector<int>& nums) {//快慢指针 // 快指针负责往前遍历&#xff0c;慢指针记录快指针遍历过的把0撵走的最后一个元素的位置// 然后快指针遍历完之后&#xff0c;慢指针到结尾直接赋0就行in…

Python逻辑控制语句 之 判断语句--if语句的基本结构

1.程序执行的三大流程 顺序 分支&#xff08;判断&#xff09; 循环 2.if 语句的介绍 单独的 if 语句,就是 “如果 条件成⽴,做什么事” 3.if 语句的语法 if 判断条件: 判断条件成立&#xff0c;执行的代码…

PyCharm 2024.1 版本更新亮点:智能编程,高效协作

目录 1. 前言2. 更新内容2.1 智能编码体验2.1.1 Hugging Face 文档预览2.1.2 全行代码补全 2.2 提升编辑器体验2.2.1 粘性行功能2.2.2 编辑器内代码审查 2.3 全新终端体验&#xff08;测试版&#xff09;2.3.1 新终端 Beta 2.4 智能助手&#xff08;特定版本和专业用户&#xf…

操作符详解(下) (C语言)

操作符详解下 操作符的属性1.优先级2.结合级 表达式求值1.整型提升2.如何进行整形提升呢&#xff1f;3.算术转换4.问题表达式解析 操作符的属性 C语言的操作符有2个重要的属性&#xff1a;优先级、结合性&#xff0c;这两个属性决定了表达式求值的计算顺序。 1.优先级 优先级…

MSPM0G3507——定时器例程讲解4——timx_timer_mode_periodic

以下示例以周期模式配置TimerG并切换LED。周期从500ms开始&#xff0c;每次切换减少50ms&#xff0c;直到周期为100ms&#xff0c;然后重复。设备在等待中断时保持待机模式 #include "ti_msp_dl_config.h"/* ((32KHz / (321)) * 0.5s) 45 - 1 495 due to N1 ticks …

时间复杂度计算

要求算法的时间复杂度时&#xff0c;我们可以分析给定表达式 的阶。让我们来逐步分析&#xff1a; 分析阶的定义&#xff1a; 当我们说一个表达式的时间复杂度是 ( O(g(n)) )&#xff0c;我们指的是当 ( n ) 趋近无穷大时&#xff0c;表达式的增长率与 ( g(n) ) 的增长率相似。…

【计算机网络仿真】b站湖科大教书匠思科Packet Tracer——实验11 IP数据报的发送和转发流程

一、实验目的 1.观察IP数据报的发送和转发流程&#xff1b; 二、实验要求 1.使用Cisco Packet Tracer仿真平台&#xff1b; 2.观看B站湖科大教书匠仿真实验视频&#xff0c;完成对应实验。 三、实验内容 1.构建网络拓扑&#xff1b; 2.观察主机发送IP数据报的过程 3.观察路…

pytest-命令行参数

命令行参数 使用 Pytest 执行用例时&#xff0c;我们经常都是通过命令行来执行的&#xff0c;有同学要说了&#xff0c;我一般是通过编辑器里面直接就执行了&#xff1b;在实际项目中编写用例调试用例&#xff0c;使用编辑器执行用例没问题&#xff0c;但在 CI 集成环境下&…

中霖教育:二级建造师能同时报名参加多个省份的考试吗?

【中霖教育口碑】【中霖教育好吗】 二级建造师考试能同时报名参加多个省份吗?原则上是可以的。 二级建造师的报名过程需满足各省份设定的特定标准&#xff0c;申请者需提供相应省份注册的工程建设企业的工作年限证明&#xff0c;并在报名表上加盖章以证明企业身份。 部分省…

【电源专题】为什么带电量计芯片的电池MOS保护要放在高侧

在实际的电量计电池开发中,发现一个很奇怪的现象。传统电池保护IC往往都是将充电保护和放电保护的两个MOS管放在低侧的。如下所示是文章:【电源专题】读一读单节锂电池保护IC规格书 可以看到M1和M2两个MOS管是放在PB-(也就是电池的负端),我们叫做低端。 而BQ28Z610电…

LC437.路径总和Ⅲ、LC207.课程表

给定一个二叉树的根节点 root &#xff0c;和一个整数 targetSum &#xff0c;求该二叉树里节点值之和等于 targetSum 的 路径 的数目。 路径 不需要从根节点开始&#xff0c;也不需要在叶子节点结束&#xff0c;但是路径方向必须是向下的&#xff08;只能从父节点到子节点&am…

【小沐学AI】Python实现语音识别(whisperX)

文章目录 1、简介1.1 whisper1.2 whisperX 2、安装2.1 安装cuda2.2 安装whisperX 结语 1、简介 1.1 whisper https://arxiv.org/pdf/2212.04356 https://github.com/openai/whisper Whisper 是一种通用语音识别模型。它是在各种音频的大型数据集上训练的&#xff0c;也是一个…

打开防火墙设置提示需要使用新应用以打开此windowsdefender

拿到一台新电脑&#xff0c;装好虚拟机。主机ping虚拟机正常&#xff0c;虚拟机上网也正常&#xff0c;但是虚拟机ping主机ping不通。根据我多年虚拟机使用经验&#xff0c;这显然是因为主机防火墙没关。但是当我准备关闭主机防火墙的时候&#xff0c;发现防火墙设置打不开。界…

rtthread stm32h743的使用(十二)spi设备fal驱动的使用

我们要在rtthread studio 开发环境中建立stm32h743xih6芯片的工程。我们使用一块stm32h743及fpga的核心板完成相关实验&#xff0c;核心板如图&#xff1a; fal驱动的使用是建立在sfud驱动之上的&#xff0c;所以我们在上一节使用的工程基础上继续实验。 1.在上一节工程的基础…

互联网大厂核心知识总结PDF资料

我们要敢于追求卓越&#xff0c;也能承认自己平庸&#xff0c;不要低估3&#xff0c;5&#xff0c;10年沉淀的威力 hi 大家好&#xff0c;我是大师兄&#xff0c;大厂工作特点是需要多方面的知识和技能。这种学习和积累一般人需要一段的时间&#xff0c;不太可能一蹴而就&…

Swift宏的实现

上篇介绍了Swift宏的定义与生声明&#xff0c;本篇主要看看是Swift宏的具体实现。结合Swift中Codable协议&#xff0c;封装一个工具让类或者结构体自动实现Codable协议&#xff0c;并且添加一些协议中没有的功能。 关于Codable协议 Codable很好&#xff0c;但是有一些缺陷&…