一个免费好用的全域数据集成平台

news2024/10/7 16:23:49

文章目录

  • 全域数据集成平台RestCloud
    • 一、产品架构
    • 一、数据源管理
    • 二、离线数据集成
    • 三、实时数据集成
    • 四、监控中心
    • 五、对比总结
    • 六、离线数据集成实战
      • 1.新建mysql数据源
      • 2.离线数据集成
      • 3.执行同步数据


大家好,我是脚丫先生 (o^^o)

小伙伴们都知道,在之前数据中台的研发中,我们一直使用Datax进行数据汇聚。

并且在数据湖项目中,采用的是Kettle作为离线开发的核心功能。

这个两个开源项目虽然很优秀,但是只是针对单一的方向,一旦有实时或者其他需求,难免捉襟见肘。

因此一直苦于没有一个菜单式的流批数据集成平台,在之后我们进行了全网调研~~~最终选择了全域数据集成平台RestCloud。

自从使用了RestCloud,在大数据项目交付中大大提高了我们的进度,非常Nice。

全域数据集成平台RestCloud

ETLCloud为最新一代的数据集成平台,我们致力于打造一款集离线数据集成ETL、ELT、CDC实时数据集成、编排调度、数据服务API为一体的数据集成平台(DataOps),一站式满足企业的各种最为复杂的数据集成场景。提供私有化部署能力和云原生架构,满足企业不同发展阶段的业务需求。 提供开放的组件市场,企业通过本平台可以快速构建大数据基础底座,同时快速打通ERP、MES、OA、SaaS、API、MQ、IOT等数据构建数据仓库。

一、产品架构

RestCloud数据集成平台采用SprigCloud微服务架构技术开发,底层基于纯Java语言采用前后端分离架构,前端采用React技术进行开发。 RestCloud数据集成平台是基于数据流+工作流引擎的架构进行研发的。

其底层设计了一个专门为数据处理任务流而研发的工作流引擎用以支撑任意复杂的数据流处理包括:串行、同步并行、异步并行、同步子流程、异步子流程、事务控制、循环任务执行、多流合并、数据折分、数据流复制等。

而不是基于DAG这种简单的有向无环图的数据流程处理逻辑,得益于我们在工作流上面集累的优势我们不但可以做DAG这种简单的依赖任务处理还可以做复杂的多层任务调度能力,企业可以把数据处理任务分为原子层、逻辑组合层、调度层等方式来组合企业的复杂任务调度需求,可以把一个复杂的数据集成流程拆分成多个可复用的子任务来进行调度。

接下来,给小伙伴介绍下数据集成平台的各个模块,让大家嗨起来。

一、数据源管理

众所周知,数据源管理是数据平台的较为核心的功能,传统的方式都是以单一的数据源为主,但是随着业务的逐步发展,已经很难于去满足。因此异构数据源集成是当下急需的业务功能。

  • 1.数据源统一管理:相比于Kettle需要在每个任务中单独维护和管理数据源的连接和认证信息,这会增加管理的复杂性。相比之下,我们提供统一的多数据源管理能力可以简化数据源管理和维护,减少错误和重复性工作。
  • 2.多数据源支持:支持包括主流及国产关系型数据库、NoSQL数据库、文件系统、云存储等,可以满足链接多种不同数据源的需求。
  • 3.降低管理复杂性:统一界面管理多个数据源,降低了管理复杂性。开发人员可以在一个流程中进行数据管理、转换和加载,而无需切换多个工具,从而减少了维护成本和错误率。
  • 4.增强数据安全性:统一数据源连接、数据加密和安全认证等功能,可以帮助保护数据的安全性。开发人员可以在一个工具中配置和管理这些安全功能,从而提高了数据安全性和可靠性。

二、离线数据集成

通过可视化的拖、拉、拽创建异构数据源之间的集成任务,对数据进行清洗、转换、传输等操作。可以说这块功能是非常超前于其他开源的离线数据集成,其中最大的区别在于组件的丰富多样,并且支持大数据组件。

  • 1.平台提供ETL和ELT双引擎模块,用户可根据不同业务场景选择使用ETL或ELT组件。

  • 2.ETL可为用户实现复杂的数据集成场景以及数仓反向集成业务系统的ETL过程。

  • 3.ELT可为用户快速实现业务数据到数仓及数湖的抽取过程。

  • 4.具有单项目上万数据管道的稳定调度实施经验,可为用户提供复杂的数据管道架构方案,以及全球化的数据合规交换。

三、实时数据集成

实时数据集成,一般用于对时效性要求很高的场景,也可以用于离线数据集成里的数据增量采集。

在ETLCloud数据集成平台里,支持异构数据源实时数据监听读取,实时数据通过经过清选、转换后可以实时存储到数仓中并可立即发布成API服务。

  • 1、能够自动根据不同的数据库类型捕获数据变化日志可实现数据表的实时毫秒级同步,实时数据可同时并行分发到多个目标库或应用中。
  • 2、支持实时数据传输到Hive、MongoDB 、Doris、MQ中,同时也支持从MongoDB 、MQ、文件实时传输到SQL数据库中,支持一对多传输,支持多流合并传输,传输过程中支持数据质量检查,能实时把脏数据分发到指定表中并发送告警通知。

四、监控中心

采用智能算法、对运行中的自动化流程进行统一监控和告警。不单单像传统的监控方式,仅仅以插件的方式去获取任务的异常。

目前大多数的监控任务的方式,是采用了prometheus进行监控,以获取数据,通过Grafana进行显示。但是这种方式很多时候,会不精准,造成严重的经济损失。而ETLCloud数据集成平台采用的是智能算法的方式对任务监控,以达到更为精准的目的。

五、对比总结

当下而言,开源的异构数据源集成平台很多,其中以Kettle较为知名。那么接下来我们进行了总结对比:

RestCloud ETL和Kettle都有什么优势和劣势?

我们从平台架构、平台管理、监控分析、数据组件、数据传输、平台性能进行比较如下:

六、离线数据集成实战

接下来,我们以离线数据集成的一个案例进行演示,让小伙伴感受下:

mysql数据源,把mysql的test库的info表数据,集成到test_target库的info_target表中。

(这里小伙伴可以对不同的数据源进行数据的集成)

愉快的玩转数据集成功能!

1.新建mysql数据源

在数据平台中,进入数据源管理,之后新建数据源

这里,我以mysql数据源为案例。

对mysql的参数进行配置,测试连接之后。也就完成了我们数据源的建立。

2.离线数据集成

进入离线数据集成功能模块,并创建自己项目应用

在此之后,进入应用,到达我们的核心功能区: 数据集流程

这里,小伙伴们可以进行数据流程的新建和设计

**我的数据流程设计:**把test库的info表数据,同步到 test_target库的info_target表中。

3.执行同步数据

在完成了数据流程的设计之后,我们就可以执行任务(可以自己选择手动执行或者调度执行)

在执行数据流程任务之后,我们来看看成果~~~

test库的info表数据:

test_target的info_target数据:

到此,非常nice,一个mysql源,不同库表的数据同步就算完成,当然数据集成功能远远不止于此。

关键:在数据集成过程中,对数据流程的设计,小伙伴们可以使用去挖掘更多的功能,快速完成的自己工作,愉快的摸鱼才是我们向往!

完结,撒花。

在这里插入图片描述

祝各位终有所成,收获满满

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/939219.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

无涯教程-机器学习 - 矩阵图函数

相关性是有关两个变量之间变化的指示,在前面的章节中,无涯教程讨论了Pearson的相关系数以及相关的重要性,可以绘制相关矩阵以显示哪个变量相对于另一个变量具有较高或较低的相关性。 在以下示例中,Python脚本将为Pima印度糖尿病数…

VMware虚拟机的安装以及安装CentOS系统

VMware虚拟机是一款非常受欢迎的虚拟化软件,它可以模拟一台计算机运行在另一台计算机上,从而实现在一台物理机器上运行多个虚拟机的目的。在本文中,我们将会介绍如何安装VMware虚拟机并在其中安装CentOS操作系统。 文章目录 📀VMw…

Linux用户与组管理(03)(八)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 目录 前言 一、组管理 1、概述 2、用户信息查看 总结 前言 今天是学习用户与组管理的最后一节课,这节课主要是组管理的内容,希望能一起学习&#xff…

跨足多领域:人脸美颜SDK在医疗、娱乐和安全中的应用案例

随着科技的不断发展,人脸美颜技术不再局限于满足用户的审美需求,而是在医疗、娱乐和安全领域展现出了广泛的应用前景。本文将深入探讨人脸美颜SDK 在这三个领域中的创新应用案例,展示其在不同场景中的独特价值和潜力。 一、医疗领域 1、皮…

Leetcode86. 分隔链表

给你一个链表的头节点 head 和一个特定值 x ,请你对链表进行分隔,使得所有 小于 x 的节点都出现在 大于或等于 x 的节点之前。 你应当 保留 两个分区中每个节点的初始相对位置。 力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台…

2.3 【MySQL】命令行和配置文件中启动选项的区别

在命令行上指定的绝大部分启动选项都可以放到配置文件中,但是有一些选项是专门为命令行设计的,比方说defaults-extra-file 、 defaults-file 这样的选项本身就是为了指定配置文件路径的,再放在配置文件中使用就没啥意义了。 如果同一个启动选…

winpe还原windows系统备份

准备工作 用大白菜制作一个启动u盘,里面可以镜系统备份文件 插入电脑,启动,按f11(这个快捷键因电脑而异),选择启动u盘,进入winpe 硬盘格式化 选择分区助手软件 选择硬盘,右键选择【…

Spring Bean对象生命周期

文章目录 前言基础通俗理解bean作用域 前言 最近学习spring的一些基础概念,所以就先了解了bean对象的概念,而且发现这个里面涉及到很多的内容,比如在spring中一个bean对象是如何创建以及销毁的这些概念,所以就打算总结一些spring…

Spring MVC 学习总结

学习目标 了解 Spring MVC 是什么,为什么要使用它或者说它能解决什么问题,其与 Spring 是什么关系。理解为什么配置 Spring MVC 的前端控制器的映射路径为 “/” 会导致静态资源访问不了,掌握怎么处理这个问题。掌握基于注解方式使用 Spring…

分享一个vue-slot插槽使用场景

需求再现 <el-table-column align"center" label"状态" prop"mitStatus" show-overflow-tooltip />在这里&#xff0c;我想对于状态进行一个三目判断&#xff0c;如果为0那就是进行中&#xff0c;否则就是已完成&#xff0c;期初我是这样写…

九大常见数据结构

常用的数据结构可根据数据访问的特点分为线性结构和非线性结构。线性结构包括常见的链表、栈、队列等&#xff0c;非线性结构包括树、图等。 1 数组 数组可以说是最基本最常见的数据结构。数组一般用来存储相同类型的数据&#xff0c;可通过数组名和下标进行数据的访问和更新。…

self instruct 技术

《SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions》 github: self-instruct 背景 大模型表现惊人&#xff0c;但是严重依赖于人工编写的指令数据。本文中提出self-instruct框架&#xff1a;一种基于大模型自动生成指令数据的方法。 主要步骤 1. …

[ DPU / SmartNIC/ 网卡 ]系统级的测试验证

开局一张图&#xff0c;其他慢慢来编 信雅纳DPU测试解决方案荣获第三届DPU峰会的“匠芯技术奖” 看完这张&#xff0c;小编再送一张&#xff1a;&#xff1a;&#xff1a; 网卡进化 更智能的加速卡SmartNIC/DPU 例如&#xff0c;将部分网络协议处理的功能卸载到 DPU 网卡&am…

Flutter(九)Flutter动画简介

1.动画简介 Animation、Curve、Controller、Tween这四个角色&#xff0c;它们一起配合来完成一个完整动画 Animation Animation是抽象类&#xff0c;和UI渲染没有关系&#xff0c;功能是保存动画的插值和状态&#xff1b;比较常用的是Animation addListener&#xff1a;帧监听…

EXCEL中点击单元格,所在行和列都改变颜色

1、打开VBA编辑环境。 2、选中需要添加程序的Sheet页面。 3、粘贴如下代码在编辑区域并保存后关闭。 Private Sub Worksheet_SelectionChange(ByVal Target As Excel.Range) On Error Resume Next Cells.FormatConditions.Delete // 如下代码是行变&#xff0c;在粘贴到VBA中时…

【项目经理】如何说话有条理

如何说话有条理 1. PREP法则2. SCRTV模型3. FFC赞美法则4. RIDE 说服法则 1. PREP法则 2. SCRTV模型 3. FFC赞美法则 4. RIDE 说服法则

WiFi标签工作状态描述

1. LED 灯闪烁代表意义 蓝灯慢闪&#xff08;每隔 500ms 亮一次&#xff09;&#xff1a;标签进入到配置模式 蓝灯快闪&#xff08;每隔 100ms 亮一次&#xff09;&#xff1a; WIFI-TOOL 工具连接上了标签 蓝灯超快闪烁&#xff08;每隔 50ms 闪烁一次&#xff09;&…

每天一分享#读up有感#$记忆宫殿$

记忆宫殿&#xff0c;分享一位喜欢的up&#xff0c;粗略记录下今日鉴赏小结。 【记忆宫殿背句子-哔哩哔哩】 https://b23.tv/vzSCsek 所得 人的记忆就像水波&#xff0c;你只要记住一个中心它会自动往外扩散。 解惑了我记忆时先找关键字加顺序背诵的原理&#xff0c;只是up厉…

关于 MySQL、PostgresSQL、Mariadb 数据库2038千年虫问题

MySQL 测试时间&#xff1a;2023-8 启动MySQL服务后&#xff0c;将系统时间调制2038年01月19日03时14分07秒之后的日期&#xff0c;发现MySQL服务自动停止。 根据最新的MySQL源码&#xff08;mysql-8.1.0&#xff09;分析&#xff0c;sql/sql_parse.cc中依然存在2038年千年虫…

mongodb 分片集群部署

文章目录 mongodb 分片部署二进制安装三台config 配置shard 分片安装shard1 安装shard2 安装shard3 安装mongos 安装数据库、集合启用分片创建集群认证文件创建集群用户部署常见问题 mongodb 分片部署 二进制安装 mkdir -p /data/mongodb tar xvf mongodb-linux-x86_64-rhel7…