联通数科如何基于Apache DolphinScheduler构建DataOps一体化能力平台

news2024/9/23 9:28:49

各位小伙伴晚上好,我是联通数字科技有限公司数据智能事业部的王兴杰。

file

今天,我将和大家聊一聊联通数字科技有限公司是如何基于Apache DolphinScheduler构建DataOps一体化能力平台的。

今天的分享主要分为三个部分:

  1. 关于DataOps的一些思考;
  2. 企业在实施任务调度系统时的一些困境和困难;
  3. 我们基于Apache DolphinScheduler所做的一些改造。

DataOps与任务调度

在谈及任务调度系统时,我们往往会提到DataOps。那什么是DataOps?为什么它与任务调度系统密切相关?企业的数据加工链路中涉及的工具往往不仅仅只有任务调度系统,还包括数据集成、数据治理、数据应用等其他平台工具。

file

这种情况下,如何解决数据加工链路上的断层,以及如何降低用户的使用成本等等问题需要有一个指导思想,这就是DataOps。

DataOps是基于DevOps提出的,参照了软件研发、发布的流程,对数据的研发、治理、运营体系进行指导,旨在优化数据处理流程,提高数据处理的效率和质量。

DataOps面临的问题

在企业实施DataOps的过程中,通常会遇到以下几个主要问题:

复杂的数据接入需求

企业的数据源种类繁多,包含结构化和非结构化数据,并且存在批数据和流数据同时接入的情况。以往单一的开源数据集成工具难以满足企业复杂的数据接入场景和多样的数据源类型。

同时,由于数据源类型和网络等数据加工场景的复杂性,企业很难获取全链路的数据血缘关系。

数据治理介入时机不够完善

企业很难持续高质量的产出满足客户要求的数据。一旦数据出现问题,排查整个数据加工链路的成本很高,如果对数据加工链不熟悉,查找问题节点和修改问题的成本会更大。

长链路的数据加工尤其容易导致问题排查困难,修改问题时还要考虑下游节点的依赖关系,避免盲目修改引发生产事故。当然这种情况的生产事故问题可能不仅由于数据治理,也可能因为需求变更或bug修复导致。

人才需求问题

企业在实施DataOps过程中,通常会遇到技术人员不懂业务,业务人员不懂技术的情况。这主要是企业组织架构问题,尤其在大型企业或数据加工复杂的企业更为明显。

平台维护、数据研发、生产运营的人员通常由不同部门负责,彼此对对方的工作了解不多,数据管理意识薄弱,缺乏统一的数据标准和规范,导致口径不一致,问题处理困难。。

工具集成问题

企业使用的工具通常独立运行,用户操作需要在不同系统间跳转,甚至使用不同账号和配置进行处理。

这种情况不仅增加了操作复杂性,还可能导致数据孤岛和处理效率低下。

数据 VS 软件研发

在讨论DataOps时,理解数据研发与软件研发的差异非常重要。虽然DataOps借鉴了DevOps的概念,但数据研发和软件研发之间仍存在显著差异。

file

需求与设计阶段

在需求阶段和设计阶段,数据研发和软件研发的差异并不明显。

软件研发关注的是软件的架构设计和需求的流转,而数据研发则更关注数据的来源、分布以及数据研发的架构等问题。

研发阶段

在研发阶段,数据研发和软件研发的方法和流程相似。两者都需要经过需求分析、设计、编码和测试等步骤。

但数据研发更注重数据的处理和转换,而软件研发则更注重功能实现和代码质量

测试阶段

在测试阶段,数据研发和软件研发的差异较为明显。

  • 软件测试:在需求评审阶段,测试人员已经明确了解点击某个按钮或发起某种请求后应该得到的结果。测试周期通常较短,测试人员和研发人员可以快速沟通并修复bug。
  • 数据测试:数据测试过程更为复杂。在需求提出时,可能对数据结果不够明确,结果的判断需要依赖研发人员或业务人员的经验,或通过其他数据搭配可视化分析工具来辅助结果确认。数据测试周期较长,一些大型复杂的数据加工任务可能会经过一个月甚至更长的时间才能得到测试结果。

运维阶段

软件系统的运维阶段,侧重于保障软件系统的稳定运行,处理故障、优化性能、进行系统升级等,以确保业务的连续性。而对于数据来说,除了运维以外,更应该关注的是数据运营,要持续关注数据安全、数据质量等问题。

DataOps从研发管理到运营管理的所有阶段,都可以在任务调度系统中完成。任务调度系统在整个数据加工链路中扮演核心角色,是解决DataOps困境的关键入口。所以我们结合DataOps与任务调度系统可以更好的解决企业在实施任务调度系统和DataOps平台的困境。

数据研发与软件研发虽然在某些阶段和流程上有相似之处,但在测试和运维阶段的差异尤为明显。

理解这些差异对于有效实施DataOps至关重要。通过采用适当的工具和方法,企业可以更好地应对数据研发中的挑战,提升用户体验,提高数据处理的效率和质量。

而Apache DolphinScheduler作为任务调度系统,可以在DataOps的各个阶段提供支持,帮助企业实现一体化的数据处理和管理。

企业实施任务调度系统的挑战

任务调度系统是DataOps平台工具中的重要组成部分,对于企业的数据加工任务来说也是核心平台工具,企业在实施任务调度系统时往往也会有多方面的要求。

file

挑战一:稳定性要求

企业对任务调度系统的首要要求是稳定性,要充分确保数据加工任务和业务的连续性,同时系统也需要具备一定的风险抵抗和预警能力,以应对突发状况。

Apache DolphinScheduler采用核心的分布式去中心化架构,并结合服务融合机制,能够充分保证系统的稳定性。即使在极端情况下,部分节点丢失也不会立即导致系统崩溃。通过Master和Worker机制及其队列处理机制,系统可以有效避免服务器崩溃的情况。

挑战二:处理复杂多样的数据加工任务

不同企业的数据加工任务场景会有所差异,最好是能够万全兼容原有数据加工任务和场景。对于一些不常见的情况,也要求二次开发成本尽可能低。

Apache DolphinScheduler目前支持38种数据加工类型节点,能够覆盖大多数企业的数据加工需求。

如果遇到极端或不常见的情况,Apache DolphinScheduler的代码结构规范简单,二次开发成本低,可以轻松增加新的数据类型节点。

挑战三:使用简单

企业在选型任务调度系统时,功能的多样性和操作的简便性同样重要。Apache DolphinScheduler提供了可视化的拖拉拽DAG编辑页面,对用户非常友好,降低了学习成本。

对于技术人员和业务人员来说,传统的脚本式开发工具学习成本高,而DAG编辑页面则更易于接受和使用。

挑战四:系统的可扩展性

任务调度系统需要具备灵活的扩展和缩容能力,以适应企业业务的发展和变更。在扩展过程中,不能对现有任务产生任何影响。

Apache DolphinScheduler通过其分布式架构,可以在不影响现有任务的情况下进行系统扩展和缩容,确保系统的高效运行。

Apache DolphinScheduler的解决方案

file

  1. 稳定性: 通过分布式去中心化架构和服务容错机制,确保系统在极端情况下的稳定运行。
  2. 多样性处理: 支持38种数据加工类型节点,满足复杂多样的数据接入需求。
  3. 易用性: 提供可视化的DAG编辑页面,降低用户的学习和使用成本。
  4. 可扩展性: 灵活的扩展和缩容能力,在不影响现有任务的情况下进行系统调整。
  5. 系统集成: 统一调度插件简化系统集成,提高整体工作效率(开源之夏正在研发中)。

企业在实施任务调度系统时,面临着稳定性、数据处理多样性、使用简单性、系统可扩展性和工具集成等方面的挑战。

而Apache DolphinScheduler通过其先进的架构设计和丰富的功能,提供了全面的解决方案,帮助企业高效地实现数据加工和任务调度,确保系统的稳定运行和业务的连续性。

调度应用规模

在联通数字科技有限公司,我们基于Apache DolphinScheduler构建了一个大规模的任务调度系统。

以下是我们的当前规模:

file

  • 单日任务处理量:超过十万。
  • Worker集群规模:125台机器。
  • K8s集群:搭配了两套K8s集群用于承接Worker运行的任务。

为了应对庞大的数据量和集群规模,我们进行了以下二次开发和改造。

file

数据类型节点

我们主要使用以下两种数据类型节点:

  1. Shell节点: 主要用于传统服务器运行的任务数据加工类型。结合数据开发平台(后续会详细介绍)和文件管理系统,实现不同数据加工类型任务的运行和封装。
  2. K8s节点: 支持应用镜像的构建、存储,以及K8s集群中的监控和日志查看。由于K8s节点的日志和文件会在pod销毁时丢失,所以我们适配了一套网盘系统,以便下游节点依赖上游节点的数据加工结果(如文件或日志)。

辅助节点类型与功能

为了增强任务调度系统的功能,我们实现了以下辅助节点类型和功能,并将大部分功能贡献给了社区:

  • 流程参数与条件判断节点:用于动态控制任务流程。
  • 批量子流程节点:用于批量任务处理。
  • 业务系统节点:通过统一调度插件实现对业务系统的集成。

调度策略改造

我们还对调度策略进行了改造,主要包括:

  1. 任务组控制:用于控制任务的并发度,已贡献到社区。
  2. 参数触发:解决下游工作流依赖多个上游工作流的问题,通过参数触发满足功能要求。

file

数据开发平台

为了配合上述改造,我们还开发了一个数据开发平台。

file

该平台包括以下功能:

  • 模板与代码管理: 通过模板和代码管理系统(git、hdfs),实现对不同数据加工类型任务的统一管理。
  • 镜像管理: 支持应用镜像的构建、存储。
  • 监控与日志管理: 实现对任务运行状态的监控和日志的集中管理。

通过以上的实践和改造,我们在Apache DolphinScheduler的基础上,构建了一个高效、稳定、功能强大的任务调度系统,能够满足大规模数据处理和复杂数据加工的需求。我们也积极将部分功能贡献给社区,促进开源生态的发展。

服务管理与在线版本升级

在我们基于Apache DolphinScheduler的实践中,服务管理是一个针对开发人员的重要功能模块。

服务管理主要包括以下几个方面:

版本管理和在线升级

  • 支持在线版本升级功能,通过页面实现发布包的分发和版本管理。
  • 服务的重启可以通过页面完成,确保系统在进行版本更新时的平滑过渡。

服务的上下线管理

  • 服务上线:服务正常运行,开始接收新任务。
  • 服务下线:服务停止接收新任务,但现有任务继续运行,直到完成。这个功能主要应用于Worker节点。
  • 通过Worker分组和服务下线管理,可以实现服务的滚动升级,确保升级过程中的任务不会受到影响。

多环境管理

  • 我们的开发平台支持数据的开发和测试环境管理。
  • 可以以DAG为单位进行发布,即整个工作流的定义经过测试后可以发布到生产环境。
  • 确保开发、测试和生产环境的隔离,提高数据加工任务的可靠性和稳定性。

实践应用

在实际应用中,我们通过这些服务管理功能,确保任务调度系统的高可用性和灵活性。

例如:

在线版本升级: 通过在线版本升级功能,开发人员可以在不影响现有任务运行的情况下,对系统进行升级和维护。通过页面实现发布包的分发和服务的重启,极大地提高了运维效率。

服务下线管理: 在一些特殊情况下,需要对某个Worker节点进行维护或升级,通过服务下线功能,可以在不影响现有任务运行的情况下,停止该节点接收新任务,确保系统的平稳过渡。

动态升级和滚动升级: 通过Worker分组和动态升级、滚动升级功能,可以实现系统的平滑升级,避免因升级导致的任务中断或失败。

通过上述功能的实现,我们在确保系统高可用性的同时,也提高了系统的灵活性和可维护性

这些功能在实际应用中发挥了重要作用,帮助我们更好地管理和维护任务调度系统。希望这些实践经验对大家有所帮助,也欢迎大家一起交流探讨,共同提升任务调度系统的管理水平。

统计分析与告警

在维护和管理数据处理流程中,我们通过一些统一的分析指标进行统计分析和告警管理。

这些指标提供了对系统运行状况的可视化展现,帮助用户更好地理解和优化任务调度。

分布图和关系图

工作流实例运行分布图
  • 我们为每个项目划分工作流实例的运行时间分布。通过颜色区分不同时间段的运行情况,用户可以直观地看到在某个时段内运行的工作流数量和运行时间分布。

  • 例如,对于T+1的批处理任务,用户可以通过分布图决定最佳的运行时间,以确保服务器的负载均衡。

作业执行关系图
  • 显示作业与执行器之间的关系,Master与工作流、Worker与任务之间的关系。
  • 用户可以通过这些关系图分析在不同时间点的任务运行数量,帮助优化任务调度配置。

这些图表有助于用户在决策过程中找到最佳的任务运行时段,从而实现负载均衡和资源的高效利用。

数据开发平台

我们的数据开发平台内置了一套独立的任务调度系统,支持开发和测试任务的全流程管理。

该平台提供了以下功能:

在线代码编写与测试
  1. 用户可以在平台上完成常见数据处理任务的代码编写和测试,包括HiveSQLSparksqlPython等。
  2. 平台内置了一个在线代码编译器,方便用户进行数据处理任务的开发和测试。
应用镜像构建

根据不同的语言和版本,我们维护了不同的基础镜像,这些镜像可以用于任务开发和测试。

任务调度系统
  1. 除了数据开发平台自带的任务调度系统外,我们还提供了生产环境的任务调度系统,两者完全隔离,确保安全和稳定性。
  2. 用户可以在开发平台上进行工作流的开发、测试和定义,然后将其发布到生产环境的任务调度系统中,实现全流程的研发、测试和发布。

统一研发和测试环境

我们通过数据开发平台实现了完整的研发和测试流程:

物理隔离

数据开发平台和生产任务调度系统是两套独立部署的系统,物理上完全隔离,确保了环境的安全性和独立性。

完整的工作流管理

用户可以在数据开发平台上完成工作流的研发和测试,然后通过发布功能将工作流同步到生产任务调度系统中,确保工作流在生产环境中的正常运行。

数据资产管理路线

最后会给大家介绍一下我们现在的数据资产管理路线,这是我们今天的重点部分。

file

当前,我们针对任务调度系统本身的需求已经基本上平稳。最近正在进行整体的改造,即数据加工链路中涉及的平台工具间的集成,这也就是我们提到的DataOps平台工具,一体化数据资产管理平台。

任务调度系统与DataOps

在DataOps的实施中,除了关于人才需求的问题需要企业针对性地做出组织架构调整外,很多在工具层面的问题都可以以任务调度系统为出发点去解决。

现在高版本的Apache DolphinScheduler支持Flink节点,所以围绕数据加工任务,无论是批量数据还是流数据,都可以在任务调度系统内完成。

从数据集成到数据应用,包括中间的数据治理和数据加工之间的依赖关系,都可以在一张图中展示。

伪DAG图与数据处理

我们可以看到在伪DAG图中,包含了从数据采集、数据集成、数据加工和数据治理的整个流程。

当然,数据加工和数据治理可能会有多个环节。可视化数据处理平台是我们内部提供的一个工具,主要用于标签、BI报表和指标等数据应用模块,提供基础的数据处理功能。

这个工具不需要用户具备技术基础,只需通过页面上的可视化操作,拖拽配置即可完成数据加工任务的配置。

对于一些对外交付的小型项目,我们可以简化数据加工过程,直接通过可视化数据处理对接数据采集,为指标报表和BI提供基础数据处理工作。

这个过程可以有效解决数据加工链路的断层问题。以前,如果不在任务调度系统内,其他业务系统可能通过结果通知或轮询数据结果来实现依赖。

而现在,所有数据加工链路的依赖都可以在任务调度系统内通过DAG图直观地看到,避免了数据加工链路的断层问题。

数据治理的集成

将数据治理节点集成到数据加工任务中,可以将数据治理前置,传统做法是完成数据加工任务后再做数据治理,这样出现问题就需要排查整个数据加工链路。

而将数据治理集成到数据加工任务的过程中,可以有效的保证每个节点或某一段数据加工链路的数据质量问题。

全链路血缘与任务血缘

当数据加工任务修改了中间数据加工任务的结果后,我们无法判断哪些下游任务依赖当前数据加工任务的结果。依靠数据血缘分析仅能知道下游依赖的表,但不知道具体任务。

由于任务的依赖关系在任务调度系统中可能出现跨项目或底层数据依赖等情况,所以通过任务调度系统的任务血缘来判断,无法覆盖所有的下游任务。

所以将全链路的数据血缘与任务血缘相结合可以更为全面的覆盖下游任务范围,更好的做到影响分析从而减少生产事故。

本文由 白鲸开源科技 提供发布支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1996778.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

视觉SLAM第五讲

本讲将讨论“机器人如何观测外部世界”,也就是观测方程部分。而在以相机为主的视觉SLAM中,观测主要是指相机成像的过程。 三维世界中的一个物体反射或发出的光线,穿过相机光心后,投影在相机的成像平面上。相机的感光器件接收到光…

主机加固是什么?主机加固与产线工控安全关系

1. 需求背景 随着工业4.0的发展,生产线日益智能化,生产网已经发展成一个复杂的计算机环境。尽管这些网络通常进行了物理隔离,但在实际操作中仍需要与外部进行数据交互。这种交互可能导致病毒和恶意软件的入侵,威胁工控主机和产线…

k8s分布式存储-ceph

文章目录 Cephdeploy-ceph部署1.系统环境初始化1.1 修改主机名,DNS解析1.2 时间同步1.3 配置apt基础源与ceph源1.4关闭selinux与防火墙1.5 **创建** ceph **集群部署用户** cephadmin1.6分发密钥 2. ceph部署2.1 **安装** ceph 部署工具2.2 **初始化** mon **节点**…

计算机毕业设计选题推荐-小型民营加油站管理系统-Java/Python项目实战

✨作者主页:IT研究室✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python…

使用 Java Swing 创建一个最大公约数计算器 GUI 应用

使用Java语言,设计一个程序,实现求取两个正整数的最大公约数。 比较基础的一个Java小程序。 1、效果展示 2、程序代码 package demo; import javax.swing.*; import java.awt.*;

用python连接mysql的方法

如何将个人主机上的mysql服务发布到公网:frp内网穿透 用python连接mysql的方法 方法一: 1.设置清华镜像站:从国内下载安装包,提高下载和安装速度 pip3 config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simp…

航向角、前轮转角、偏航角的区别及其在MPC中的使用

目录 前言一、概念解析二、三种角度在MPC中的应用三、总结四、MPC算法流程 前言 航向角、偏航角、前轮转角是车辆控制中描述方向的关键概念。本文将简要介绍它们的区别及在MPC(模型预测控制)中的应用。 一、概念解析 φ 为车体的航向角; δ…

[ACP云计算]组件介绍

一、IaaS、PaaS、SaaS 二、交换机 三、VPC 四、ECS 云服务器ECS(Elastic Compute Service)是阿里云提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别云计算服务。云服务器ECS免去了您采购IT硬件的前期…

jupyter项目使用Anaconda环境内核

1、创建虚拟环境 conda create --name myjupyter python3.7 2、进入虚拟环境 conda activate myjupyter 3、切换到自己jupyter notebook项目想在的目录 E: cd E:\first\project\jupyter\jupyter01 4、安装IPython内核包,这是Jupyter Notebook使用Python内核所必需的…

【MySQL 03】库的操作 (带思维导图)

前置:之后的所有的 SQL 语句中,凡是被中括号 [ ] 括起来的均为可选项。 🌈 一、创建数据库 数据库创建语句 创建数据库本质就是在 /var/lib/mysql 中创建一个目录。 if not exists:如果指定数据库不存在则创建该数据库&#xf…

[Java]面向对象-static继承

Static static表示静态,是Java中的一个修饰符,可以修饰成员方法、成员变量 静态变量: 被static修饰的成员变量,叫静态变量 特点: 被该类所有对象共享 调用方式:1.类名调用 2.对象名调用 静态方法&…

PyFluent入门之旅(8) PyFluent API 分类与区别

PyFluent提供了两种主要的API来与Ansys Fluent进行交互: Settings APITUI API 通过这两种接口方式,可以控制 Ansys Fluent 的各个方面,包括从网格生成到后处理的所有操作。 分类 Settings API pyFluent 的 Settings API类似于 Ansys Flu…

线性表——数据结构

线性表 文章目录 线性表线性表的定义和基本操作线性表的定义线性表的基本操作 线性表的顺序表示顺序表的定义顺序表的实现——静态分配顺序表的实现——动态分配顺序表的特点 线性表的定义和基本操作 线性表的定义 线性表(Linear List)的定义 ​ 线性…

略谈set与map的pair封装与进入哈希

引子:之前我们讲了红黑树的自实现,与小小的接口实现,那set与map的pair封装是如何实现的呢?,今天我们来一探究竟,而且我们也要进入新章节--哈希 对于operator--()的封装: 注意:牢记思…

动手学深度学习V2每日笔记(批量归一化、ResNet)

本文主要参考沐神的视频教程 https://www.bilibili.com/video/BV1Uv411G71b/spm_id_fromautoNext&vd_sourcec7bfc6ce0ea0cbe43aa288ba2713e56d https://cv.gluon.ai/model_zoo/classification.html 文档教程 https://zh-v2.d2l.ai/ 本文的主要内容对沐神提供的代码中个人不…

【OpenHarmony】openharmony移植到RK3568------搭建开发环境

一、关于OpenHarmony OpenHarmony是由开放原子开源基金会(OpenAtom Foundation)孵化及运营的开源项目,目标是面向全场景、全连接、全智能时代,基于开源的方式,搭建一个智能终端设备操作系统的框架和平台,促…

各种高端链游 区块链游戏 休闲小游戏DAPP开发

【西游闯关】-高端区块链3D手游 【我朝有马】-高端区块链3D手游 【弹弹岛2】-高端区块链3D手游

FiddlerCharles请求包导入Postman教程

前言 晓杰因开发需要经常需要使用抓包工具进行抓包然后使用POSTMAN测试,每次复制都很麻烦,就想着如何直接抓包工具中导出,postman导入! Fiddler 这个有2个方案,第一个方案是因为第二个方案发现的! 方案…

html+css+js网页设计 找法网2个页面(带js)ui还原度百分之90

htmlcssjs网页设计 找法网2个页面(带js)ui还原度百分之90 网页作品代码简单,可使用任意HTML编辑软件(如:Dreamweaver、HBuilder、Vscode 、Sublime 、Webstorm、Text 、Notepad 等任意html编辑软件进行运行及修改编辑…

私域流量运营中的精准量化与开源AI智能名片O2O商城小程序的应用深度解析

摘要:在数字化时代,私域流量作为品牌直接与消费者建立联系的重要桥梁,其管理和运营策略直接影响着企业的市场竞争力。本文深入探讨了私域流量运营的底层逻辑——精准量化运营,详细分析了其核心要素及实现路径。同时,结…