信也科技基于 Apache SeaTunnel金融场景的应用实践探索

news2024/12/23 12:36:18

前言

作者:朱俊,信也科技,数据开发专家

离线开发一直是数据仓库建设中重要的一个环节。信也科技之前基于Azkaban构建了离线任务调度与开发平台,承载了公司90%以上的离线任务调度需求,以及玄策变量平台的每日变量跑批产出任务。

随着时间的积累,任务量级越来越大,Azkaban难以运维与二次开发等问题日渐凸显,给技术同学带来不小的负担。

从2023年下半年开始,借助内部创新项目的机会,开展了调度系统引擎升级的项目立项与调研,希望在新调度系统的基础上,进一步规范任务开发流程,提高运维效率,简化全链路血缘的获取和维护。

在历时大半年的探索与落地过程中,调研了Apache DolphinScheduler与内部自研调度系统DataCloud之后,考虑到公司实际情况与用户使用习惯,最终决定在自研调度系统DataCloud的基础上,借鉴Apache DolphinScheduler的架构思想与插件式设计理念,打造全新的调度引擎,并推出全新的一体化离线任务开发运维平台——千帆

最终千帆平台成功在生产环境上线,并开始推动历史任务的迁移与迭代工作。

在调研Apache DophinScheduler的过程中,深刻体会了海豚调度结合Apache SeaTunnel打造数据抽取→任务开发→数据推送一体化流程的便捷性与实用性,对DevOps理念在数据工程中的应用也加深了一些理解和认识。

考虑到内部对于数据推送和互导这一场景依然存在着不少的痛点和问题,因此在千帆平台落地的过程中,经过技术选型与调研,决定采用Apache SeaTunnel框架来统一赋能数据集成与推送场景。

现状

在公司发展早期,由于快速迭代等原因,很多内部系统都带有不同程度的数据推送能力。

这种烟囱式的开发虽然带来了灵活适配,快速上线等好处,但随着业务不断成熟,也逐步呈现一些弊端,比如多个平台自成体系,增加了全链路血缘建设的复杂度;权限难以打通与统一管理。

另一方面,作为数据开发的核心调度引擎,Azkaban专注于调度本身,并没有集成数据抽取,数据推送等功能,需要数仓同学自行开发任务脚本实现这类功能,增加了开发成本,且复用性不高。

鉴于这两个原因,希望在千帆里集成统一的,配置化的推数功能,来收口这些分散的推数场景。

以下是我们之前的架构

架构图

从上图可以看到,各种内部平台到各式各样的目标存储系统之间,存在多种操作数据导出的方式或者工具,这些历史遗留问题为后续的开发带来了一些不便之处。

痛点

(一)全链路血缘难打通

过去,由于推送任务分散在各个系统当中,当上游的离线计算任务数据质量出现问题的时候,各个下游依赖该张离线表产出任务的推送任务无法及时感知数据质量问题,进行阻断或者重跑。

这就导致了数仓同学发现某张离线表数据有问题而重刷了当天分区数据时,需要耗费较长的时间来查下游哪些推数任务需要进行重跑,是一个不小的运维负担

理论上我们可以开发一个统一的血缘服务来汇总每个系统的血缘数据,构建跨系统的全链路血缘。

但是这需要去理解和统一不同系统的元数据,带来较高的开发成本,不利于数据治理工作的开展。

(二)推送框架难统一

由于历史原因,基于Azkaban的调度平台虽然能满足离线调度的需求,但是Azkaban是以command为任务运行的最小单元,每个command实际上一个或多个shell脚本的功能集合,这就造成了基于Azkaban的任务类型难以划分,同样的功能可能会复用不同的shell脚本,每个脚本对于开发运维同学来说都相当于一个黑盒,需要熟悉其中的逻辑才能把控。

我们在做千帆早期的设计和开发,想对接Azkaban时,就面临这样的问题。为了适配Azkaban底层的不同运行脚本,需要不断的在产品设计上增加Case来满足各种自定义脚本的参数和逻辑分支,来适配推送不同存储(如Mongo和StarRocks)的作业。

而对于其他拥有推送功能的系统来说,由于设计开发的人员不同,整体架构和使用场景不同,也会选择不同的实现方式来完成数据推送(比如采用impala JDBC、MapReduce等实现方式),这就造成了同质化的功能采用不同的技术实现,不仅维护难,出了问题也较难定位,且无法采用统一的产品设计逻辑来覆盖公司内部的业务场景。

(三)推送任务监控与治理难实现

上述问题造成了数据计算流程和数据推送流程之间的割裂,原本数据抽取-数据计算-数据推送应该在逻辑上是一个整体,现在需要开发人员分散地去处理。

当涉及到权限,验数,链路排查等问题时,这种一来二去带来了时间和沟通上的成本。

同样由于实现方式的不统一,对于推送任务的效率和断点续传、Checkpoint、流控、监控Metric等高级功能,难以给出统一的实现方案,不利于整体的数据治理。

技术选型

在新系统调研开发过程中,我们对数据集成底层框架进行技术选型时,参考了其他公司在落地实践中的经验,我们认为针对我司的场景,需要从以下几个关键点来进行衡量:

  • 性能: 数据集成框架需要具备高吞吐、低延迟、可观测的特点
  • 安全部署: 金融场景需要考虑数据的安全性,因此集成框架部署依赖的其他组件越少越好,部署环境与流程简单,易于维护
  • 易用性与扩展性: 数据集成框架应具有良好的扩展性和架构设计,易于针对个性化场景进行二次开发
  • 社区生态: 数据集成框架应支持多种数据源和目标存储,社区活跃度高,拥有丰富的User Case

我们考察了一些较为流行的开源工具,主要集中在使用较为广泛的DataX、Sqoop、SeaTunnel。

以下是这三款产品的横向对比

对比项Apache SeaTunnelDataXApache Sqoop
运行模式分布式,支持单机单机非分布式框架,依赖Hadoop MR实现分布式
容错机制无中心化高可用架构,容错机制完善易受网络、数据源等因素影响MR模式容错处理不便
部署难度容易容易依赖Hadoop集群部署
支持数据源丰富度超过100种数据源20+种数据源只支持几种数据源
自动建表支持不支持不支持
断点续传支持不支持不支持
单机性能很好较好一般
可扩展性易扩展易扩展扩展性较差
统计信息
与调度系统集成与DophinScheduler集成,也支持集成到其他调度系统不支持不支持
社区非常活跃,成功案例多一般已从Apache退役

结合上面的横向对比(部分参考了社区用户实践经验与官方文档)结论,基于我司的现状和痛点,综合考虑架构设计先进性、灵活性、部署运维成本、社区活跃度等方面,我们最终选择了Apache SeaTunnel作为底层框架来统一任务推送与导出的流程与场景。

实践过程

在调研和落地过程中,我们基于SeaTunnel 2.3.4版本,主要做了以下一些适配和改造,以满足公司内部的导数场景和需求

(一)扩展Sink插件

  • 支持PMQ

    在2.3.4的基础上,我们扩展了connector-pmq模块,以接入公司内部的消息队列中间件PMQ

    PMQ是信也科技自研的一款消息系统中间件,在公司内部有广泛应用,支撑了信贷业务各条线的消息传输与上下游数据链路,支撑PMQ打通了数仓到业务系统的最后一环,实现了数据赋能业务的最后一公里。

  • 支持跨集群HBase Kerberos认证

    公司已有的一些业务平台依赖于自建的HBase集群存储,与数仓的大数据集群是两套体系,之前由于Kerberos认证的问题,难以从数仓的Hive表将离线计算结果写入业务平台的HBase集群,需要改造一个MapReduce程序去实现跨集群的Kerberos认证,增加了数仓开发同学的维护成本。

    千帆平台在SeaTunnel 2.3.4版本的Connector-HBase模块上增加了对Kerberos认证的支持(复用了Connector-file-base-hadoop模块中对Kerberos相关的Config),实现了配置化生成任务读取Hive表跨集群导入标签平台的业务需求,目前这块后端已经实现,产品设计交互和前端页面计划在下个迭代支持。

  • 数据传输流程优化

    在信也科技,有一些离线数据经过内网专线跨机房传输的需求,过去由于没有统一的平台工具支持,往往是数据开发同学产出离线报表且验证无误之后,通知下游研发同学进行数据传输任务的启动。

    由于数据跨机房传输对于数据质量和网络传输速率都有一定的要求,且有一些特定的处理逻辑,因此当传输失败或者数据错误时,往往需要研发同学人工介入,维护成本较高,且无法做到流程自动化。

    考虑到为减少人工维护成本,我们也在积极与数据开发和研发同学沟通需求,通过SeaTunnel来支持这一业务场景,目前整个研发方案在沟通与设计中,计划在未来的版本上线。

(二)千帆平台支持推送任务类型

过去,基于Azkaban调度构建的离线开发平台产品(千帆前身),在功能上很难构建统一的推送任务,内部实现较难解耦,且完全依赖用户自己编写的历史脚本来实现。

当其他平台的用户想要迁移到千帆平台时,往往面临着较高的成本,需要将ETL的流程迁移到多个系统上来支持。

在新的千帆平台上,我们重构了推送任务体系,并且支持了Kafka、StarRocks、MySQL、PMQ(内测中) 这几个任务类型,并实现了页面配置化到任务部署生产、实例运维的CI/ CD流程,以下是我们产品的一些交互设计:

图1

图2

图3

图4

阶段成果

经过一段时间的迭代,Apache SeaTunnel作为新千帆平台的数据集成底座已经在生产环境上线,目前已有部分用户将一些试点任务迁移到千帆平台推送任务当中。

以下是我们重构之后的架构图

未来规划

接下来,我们希望围绕Apache SeaTunnel去进一步扩展数据推送与互导的场景,进一步结合我司业务场景落地一些实际使用Case,希望能够扩大业务场景的覆盖范围和提升推送质量和效率。

以下是我们近期希望尝试落地的一些工作方向:

  • 扩大覆盖的下游Sink组件范围,尽可能覆盖到我司常用的存储组件及一些业务个性化使用的存储场景
  • 尝试切换推送任务的底层引擎,从Flink切换到Zeta,在推送Metric监控及资源调度上做一些尝试
  • 围绕推送数据质量和任务报告进行精细化建设与运营,推动历史任务的迁移

最后,感谢Apache DolphinScheduler社区和Apache SeaTunnel社区在落地实践工作中的帮助和指导,也衷心祝愿社区发展越来越好!

本文由 白鲸开源科技 提供发布支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2109639.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

爵士编曲:如何编写爵士鼓

音源选取 使用ssd鼓写爵士乐,使用其中的豪华爵士音源,然后选其中的第一个或第二个都可以。 或者用add鼓studio drummer中的爵士鼓也可以 ​Cubase图示 用swing的律动把叮叮镲写上 然后第三拍加上踩镲

【截图服务 +打包】pkg打包 puppeteer

目录 最后结论 遇到的问题与解决 版本匹配问题 参考文档 最后结论 pkg -t win --public ./screenshots.js --output ./dist/screen.exe 服务启动: postman调用 : 遇到的问题与解决 版本匹配问题 pkg 这里说的是v3.5,实际装的是5.8.1,…

【ArcGIS Pro实操第二期】最小成本路径(Least-cost path)原理及实操案例

ArcGIS Pro实操第一期:最小成本路径原理及实操案例 概述(Creating the least-cost path)1.1 原理介绍1.2 实现步骤1.3 应用案例 2 GIS实操2.1 工具箱简介2.1.1 成本路径(Cost path)2.1.2 成本距离(Cost dis…

Cesium 展示——格式化时间控件信息

文章目录 需求分析需求 如图,我们在 Cesium 初始化后如图一展示,展示的是UTC的时间,而且是英文,如何将该控件进行格式化一下,展示当前的北京时间呢?分析 初始化 Cesiumconst fetchData = () => {

【LabVIEW学习篇 - 20】:人机界面交互设计04

文章目录 声音播放自定义控件自定义控件创建过程演示 选项卡、子面板、分隔栏 声音播放 有时系统检测到某些事件发生时,需要通过声音去传递信息,因此播放声音也是一种重要的交互方式,如系统检测到异常报警时,需要放报警声音来通知…

flutter Image

Flutter中,Image是一个用于显示图片的控件,可以显示网络图片、本地图片以及Asset中的图片。Image控件支持多种常见的图片格式,例如PNG、JPEG、GIF等。 const Image({super.key,required this.image,this.frameBuilder,this.loadingBuilder,th…

用“黑科技”书写“黑神话” | 基于RK3576核心板的三维扫描仪应用方案

《黑神话:悟空》作为国内首款3A游戏大作,上线仅10天全球发行量就已超过1700万份,不论您是否是游戏玩家,相信您都能在各种新闻、宣传和活动中感受到这款游戏的热度。在游戏的众多亮点中,“细腻的场景设计与对名胜古迹的…

3个永不过时的妙招,恢复苹果手机视频不是问题

苹果手机的视频功能较为出色,使用苹果手机拍摄的视频更加真实、清晰,因此许多人会选择使用苹果手机来记录生活点滴。但是,如果我们不小心删除了苹果手机视频,有什么方法可以让这些“生活的回忆”重现呢?别担心&#xf…

拆解一个不靠烧广告的宠物站的流水成长流史丨出海笔记

最近后台收到会员的私信,说宠物投放广告ROI很低。秉承互助分享精神,我们也加入寻找突破口,看看别人的宠物网站是怎么做的。 之前出海笔记分享过 找竞对不能只找头部卖家,所以我们这次选取的是一个接地气的宠物网站alldogboots进行…

torchvision数据集使用

文章目录 一、下载torchvision中的数据集文件二、断点知识点三、数据集形式建立四、展示数据集中的图片 一、下载torchvision中的数据集文件 这段代码是使用PyTorch的torchvision库来加载CIFAR-10数据集。 import torchvision train_set torchvision.datasets.CIFAR10(root&…

EasyExcel 文件导出:表头与内容样式简单设置

文章目录 EasyExcel 文件导出 - 最终效果使用的 EasyExcel的版本设置表头样式和内容样式设置自动列宽 EasyExcel 文件导出 - 最终效果 具体的效果可通过修改代码来自行调整。经过调整后的样式与默认样式相比,美观程度大幅提升。 下面是默认的样式。丑的一批。 使用…

FreeRTOS学习笔记(一)初认RTOS

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、RTOS的引入二、Free RTOS的基本内容2.1 FreeRTOS的特点2.2 Free RTOS编程风格2.3 Free RTOS的配置文件 前言 笔者在去年曾经开始过rtos的学习(虽…

模型中间部分的卷积可视化

整体代码如下: def forward(self, x):x self.conv1(x)x1 xout_img3 x1.squeeze()print(out_img3.shape)print("经过第一个卷积之后的输出:",x.shape) import yaml from omegaconf import OmegaConf from pathlib import Path from PIL imp…

景联文科技:提供高质量多模态数据标注,推动智能化转型

随着人工智能技术的快速发展,多模态数据标注成为推动智能系统更深层次理解和应用的关键技术之一。 作为行业领先的多模态数据标注服务商,景联文科技凭借其在技术、流程和人才方面的综合优势,推出了全面的多模态标注解决方案,助力…

C语言详细笔记--构造数据类型(共用体)

目录 一、共用体类型声明 二、共用体变量的定义 三、共用体变量的初始化 四、共用体变量的引用 一、共用体类型声明 共用体类型是一种多个不同类型数据共享存储空间的构造类型,即共用体变量的所以成员占用同一个存储空间,一般声明格式如下&#xff…

【LeetCode面试150】——205同构字符串

博客昵称:沈小农学编程 作者简介:一名在读硕士,**定期更新相关算法面试题**,欢迎关注小弟! PS:哈喽!各位CSDN的uu们,我是你的小弟沈小农,希望我的文章能帮助到你。欢迎大…

录屏没声音怎么办?3招解决,教您秒变声音大师

在录屏的过程中,突然发现录制的视频没有声音,这无疑会让人感到沮丧。声音作为视频的重要组成部分,一旦缺失,便会让整个作品失去生动性。然而,不必过于担心,因为录屏没声音的问题并非无法解决。 接下来&…

新手c语言讲解及题目分享(十七)--运算符与表达式专项练习

本文主要讲解c语言的基础部分,运算符与表达式的学习,在这一部分中,往往有许多细节的东西需要去记住。当各种运算符一起用时,就会存在优先级的关系,本文末尾有各种运算符的优先级顺序表。 参考书目和推荐学习书目&#…

开放式耳机哪个牌子好?长文传授6招秘籍,彻底远离坑货!

​大家好,作为一位专注于评测各类数码产品的博主,今天我特别推荐开放式耳机作为我们日常的首选。这种耳机以其独特的设计,避免了传统耳机长时间佩戴可能带来的不适和感染风险。开放式耳机佩戴简便且稳固,尤其适合热爱跑步和运动的…

解决TMP_InputField 在WebGL(抖音)上不能唤起虚拟键盘,不能使用手机内置输入法的问题

整整花费了一天时间测试和解决。试验了多个方法,花了不少美刀,最终才发现抖音这个官方文档,哭了: https://partner.open-douyin.com/docs/resource/zh-CN/mini-game/develop/guide/game-engine/rd-to-SCgame/open-capacity/capabi…