互联网银行每日2TB数据量,Apache SeaTunnel集成应用轻松搞定!

news2024/11/15 15:24:58

file

在我国,数字化的趋势驱动互联网银行发展走上快车道,近年来互联网银行发展迅速,积极拓展线上业务,并利用大数据技术加强风险控制,积极进行数字化转型。当新兴互联网银行乘着数字化改革的风潮搭档数据集成平台Apache SeaTunnel,成千万上亿的数据就有了快速流通的管道。

在社区的6月份线上用户交流会上,来自某互联网银行的大数据工程师带来了关于互联网银行在Apache SeaTunnel应用与实践方面的分享,以下为演讲整理,供参考(以下“某互联网银行”简称“银行”):

演讲概览

  • 演讲人:陈卫
  • 演讲日期:2024年6月26日
  • 主题:Apache SeaTunnel 2.1.3版本在数据集成领域的应用与定制化实践

背景与需求

file

随着银行数据集成需求的日益增长,我们需要一种能够支持配置化开发、异构数据源接入,并具备高性能高效率的数据集成工具。经过调研考察,Apache SeaTunnel以其强大的数据处理能力满足了这些需求,所以我们决定采用Apache SeaTunnel。

应用场景

Apache SeaTunnel在银行以下三个主要场景中发挥着重要作用:

  1. 数据加速:数据仓库在数据模型层对模型进行加工,完成后将大数据平台数据推送至OLAP专属引擎(目前配置ClickHouse引擎),支持用户即时查询。
  2. 数据推送:将内部管理系统,如指标管理系统、标签管理系统加工后的结果数据推送至目标数据源(MySQL)。
  3. 数据采集:提高业务系统的数据时效性,及时采集至目标数据源。

SeaTunnel定制化(V2.1.3)

为了更好地适应银行的需求,我们对SeaTunnel进行了一系列的定制化改进:

  • 数据源支持:增加了对非Spark直接支持数据源的支持,例如星环Inceptor和Hive事务表。
  • 插件优化
    • 自定义插件的增加。
    • 迭代优化已有插件,如Jdbc、ClickHouse、Hive、ElasticSearch。
    • 其他运行时优化。

特定插件的定制化

  • Jdbc

    • 增加多查询支持、根据指定字段自动分区。
    • Jdbc Sink增加PreSQL执行支持。
    • 增加对Inceptor表中事务表的支持。
  • ClickHouse & Hive

    • 增加PreSQL执行支持。
    • 调整Hive数据写入方式。

SeaTunnel的集成应用

与Apache Livy的集成

我们把Apache SeaTunnel融入到已有的Apache Livy服务中,在快速启动、安全性、灵活性上得到了提高。

  • 快速启动:通过Livy Client,在同一个SparkContext下运行多个SeaTunnel Job,提升启动效率。
  • 安全性:通过Livy访问大数据平台,客户端设置安全认证,无需将整个大数据集群暴露,从而保护大数据集群安全性。
  • 灵活性:通过与Livy集成,无需生产本地配置文件,通过Livy job提交SeaTunnel任务,提升系统灵活性。

与Apache DolphinScheduler的集成

  • 共享数据源:与SQL等任务使用相同数据源配置,降低配置变更复杂度。
  • 参数一致:支持与调度系统一致的参数配置,便于用户学习和使用。
  • 元数据一致:银行开发了支持血缘相关功能,支持在任务层面提供与SQL等任务相对的元数据配置,便于系统自动触发。

SeaTunnel实践情况

  • 已接入项目数:7个
  • 已接入任务数:2000+
  • 每日实例数:2000+
  • 每日数据量:2TB
  • 支持的数据源:星环Inceptor,MySQL,Oracle,ElasticSearch,Remote Hbase, ClickHouse

SeaTunnel总结与展望

  1. SeaTunnel基本支持了我们当前对异常数据集成的支持,主要集中在数据应用端,后续需推广对数据采集支持,提升数据管道的整体效率;
  2. SeaTunnel对批量数据采集的应用待完善,尤其是针对分库分表的支持。调度系统侧则需要增加按标志(数据库标志、文件标志等)调度能力的支持;
  3. SeaTunnel数据集成采集metrics数据完善;
  4. SeaTunnel数据集成并行度优化(尤其针对ES写入优化)。

加入SeaTunnel社区

欢迎对数据集成感兴趣的开发者和企业加入SeaTunnel社区,共同探讨和推动数据集成技术的发展。

本文由 白鲸开源科技 提供发布支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1906988.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android 15 适配之16K Page Size :为什么它会是最坑的一个适配点

首先什么是 Page Size ?一般意义上,页面(Page)指的就是 Linux 虚拟内存管理中使用的最小数据单位,页面大小(Page Size)就是虚拟地址空间中的页面大小, Linux 中进程的虚拟地址空间是由固定大小的页面组成。 Page Size 对于虚拟内…

如何把harmonos项目修改为openharmony项目

一开始分不清harmonyos和openharmony,在harmonyos直接下载的开发软件,后面发现不对劲,打脑阔 首先你要安装对应版本的开发软件,鸿蒙开发是由harmonyos和openharmony官网两个的,找到对应的地方下载对应版本的开发软件&…

rocketmq实现限流

目录 问题背景 技术方向 方案确认 消息队列(√) 分布式锁() 方案实现 监控方向 业务方向 问题背景 公司邮件服务token有 分钟内超200封的熔断机制,当前token被熔断后,系统发邮件操作会被忽略&…

关于微信支付-商户平台:查询订单提示“查询失败:操作失败,请稍候重试”的分析

目录 引子 分析 应对 小结 引子 在开发和实施微信 JSAPI 支付的应用后,我们遇到了一些问题,订单的状态更新不正常,当然我们首先需要从自身寻找原因和完善解决问题的办法和方案。在支付的过程中,客户会给我们一些反馈&#xf…

K8S篇之Ingress详解以及用法说明

一、Ingress简介 Ingress 是 Kubernetes 中用于管理和配置从集群外部访问集群内部服务的资源对象。它通过定义路由规则来控制外部流量的访问方式,支持基于 HTTP 和 HTTPS 的高级路由功能和安全性配置。 Ingress是一种HTTP方式的路由转发机制,为K8S服务配…

【力扣高频题】014.最长公共前缀

经常刷算法题的小伙伴对于 “最长”,“公共” 两个词一定不陌生。与此相关的算法题目实在是太多了 !!! 之前的 「动态规划」 专题系列文章中就曾讲解过两道相关的题目:最长公共子序列 和 最长回文子序列 。 关注公众…

SpringCloud 负载均衡

目录 一、负载均衡 1、问题 2、什么是负载均衡 服务端负载均衡 客户端负载均衡 二、Spring Cloud LoadBalance 1、使用 Spring Cloud LoadBalance 2、负载均衡策略 3、LoadBalancer 原理 一、负载均衡 1、问题 我们来看一下前面写的代码&#xff1a; List<Serv…

【易捷海购-注册安全分析报告】

前言 由于网站注册入口容易被黑客攻击&#xff0c;存在如下安全问题&#xff1a; 暴力破解密码&#xff0c;造成用户信息泄露短信盗刷的安全问题&#xff0c;影响业务及导致用户投诉带来经济损失&#xff0c;尤其是后付费客户&#xff0c;风险巨大&#xff0c;造成亏损无底洞…

Drools开源业务规则引擎(五)- jBPM流程图元素介绍

文章目录 Drools开源业务规则引擎&#xff08;五&#xff09;- jBPM流程图元素介绍1.process2.startEvent3.Connections3.1.sequenceFlow3.2.Association 4.Activities4.1.businessRuleTask4.2.scriptTask 5.Gateways5.1.exclusiveGateway 6.endEvent Drools开源业务规则引擎&a…

Windows netstat命令详解,Windows查看网络连接

「作者简介」&#xff1a;冬奥会网络安全中国代表队&#xff0c;CSDN Top100&#xff0c;就职奇安信多年&#xff0c;以实战工作为基础著作 《网络安全自学教程》&#xff0c;适合基础薄弱的同学系统化的学习网络安全&#xff0c;用最短的时间掌握最核心的技术。 netstat 常用来…

支持图片识别语音输入的LobeChat保姆级本地部署流程

文章目录 前言1. LobeChat对我们有哪些帮助?2. 本地安装LobeChat3. 如何使用LobeChat工具4. 安装Cpolar内网穿透5. 实现公网访问LobeChat6. 固定LobeChat公网地址 前言 本文主要介绍如何在Windows系统电脑本地部署LobeChat&#xff0c;一款高颜值的开源AI大模型智能应用&…

【删库跑路】一次删除pip下载的所有第三方库方法

进入命令行&#xff0c;先list看下库存 pip list导出所有的第三方库至一文件列表 pip freeze >requirements.txt按照列表卸载所有库 pip uninstall -r requirements.txt -y再list看下&#xff0c;可见库存已清空

MATLAB基础应用精讲-【数模应用】 岭回归(Ridge)(附MATLAB、python和R语言代码实现)

目录 前言 算法原理 数学模型 Ridge 回归的估计量 Ridge 回归与标准多元线性回归的比较 3. Ridge 参数的选择 算法步骤 SPSSPRO 1、作用 2、输入输出描述 3、案例示例 4、案例数据 5、案例操作 6、输出结果分析 7、注意事项 8、模型理论 SPSSAU 岭回归分析案…

第三届机器学习、云计算与智能挖掘国际会议(MLCCIM 2024)

随着科技的不断进步&#xff0c;机器学习和挖掘技术已成为推动现代社会发展的重要力量。本届机器学习、云计算与智能挖掘国际会议&#xff08;MLCCIM&#xff09;将于2024年8月8日至8月11日在中国湖北省神农架盛大召开&#xff0c;旨在汇聚全球智慧&#xff0c;共同探讨这一领域…

Linux安装elasticsearch单机版

一、检查内核 uname -a uname -m 二、下载版本 下载版本选择自己服务器相同的内核版本 我这边是aaech64 ES下载地址 Kibana 下载地址 二、上传服务器解压 tar -xvf elasticsearch-8.14.1-linux-aarch64.tar.gz 三、安装ES 因为ES不能用root用户启动先创建用户 #新增 es …

[python]Markdown图片引用格式批处理桌面应用程序

需求 使用python编写一个exe&#xff0c;实现批量修改图片引用&#xff0c;将修改后的文件生成为 文件名_blog.md。有一个编辑框&#xff0c;允许接收拖动过来md文件&#xff0c;拖入文件时获取文件路径&#xff0c;有一个编辑框编辑修改后的文件的输出路径&#xff0c;用户拖入…

抖音商城自定义小程序源码系统 前后端分离 带完整的源代码包以及搭建教程

系统概述 在当今数字化时代&#xff0c;电商平台的便捷性和个性化体验成为了吸引用户的关键。随着短视频平台的兴起&#xff0c;抖音作为其中的佼佼者&#xff0c;其商城小程序成为了商家连接消费者的新阵地。为了帮助商家快速构建个性化、高效的小程序店铺&#xff0c;本文将…

Java面试题--JVM大厂篇之深入探讨Serial GC的应用场景

目录 引言: 正文: 一、什么是Serial GC&#xff1f; 二、Serial GC的工作原理 三、适用场景 单处理器环境在单处理器环境下&#xff0c;Serial GC是一个非常好的选择。由于没有多余的处理器资源&#xff0c;单线程的垃圾回收操作不会导致额外的上下文切换开销&#xff0c…

springboot非物质文化遗产管理系统-计算机毕业设计源码16087

目录 摘要 1 绪论 1.1 选题背景与意义 1.2国内外研究现状 1.3论文结构与章节安排 2系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1系统开发流程 2.2.2 用户登录流程 2.2.3 系统操作流程 2.2.4 添加信息流程 2.2.5 修改信息流程 2.2.6 删除信息流程 2.3 系统功能…

欧拉系统(openEuler) aarch64虚拟机安装

文章目录 一、操作背景二、资源准备三、文件路径四、安装QEMU五、创建磁盘文件六、安装虚拟机七、连接虚拟机八、启动虚拟机 一、操作背景 客户公司扫描出欧拉系统aarch64架构服务器存在编号 CVE-2024-1086 的内核漏洞&#xff0c;需要对内核升级&#xff0c;首先在个人电脑虚…