新一代智能全域数据集成平台
- 一、介绍
- 1.1 企业级数据集成架构面临的痛点
- 1.2 RestCloud说明
- 1.3 重构企业数据融合架构,解决各种复杂、即时、高合规的数据集成需求
- 1.4 (智能)全域数据集成平台
- 1.5 300+数据及应用连接器轻松汇聚全域数据
- 二、产品简介
- 2.1 功能特性
- 2.2 产品架构及工作原理
- 2.3 产品优势对比
- 2.4 社区免费版本说明
- 2.5 系统安装升级
- 2.5.1 Windows WAR包安装
- 2.5.1.1 安装准备
- 2.5.1.1.1 服务器硬件环境要求
- 2.5.1.1.2 服务器端软件环境要求
- 2.5.1.1.3 用户端软件环境要求
- 2.5.1.2 安装JDK (已安装跳过)
- 2.5.1.3 安装mongodb(已安装跳过)
- 2.5.1.4 安装tomcat (已安装跳过)
- 2.5.1.5 安装ROOT.war(在相关安装包中下载)
- 2.5.1.6 解压安装程序包并在application.properties文件配置链接mongodb的信息
- 2.5.1.6.1 配置数据库链接信息
- 2.5.1.7 将ROOT文件夹复制到Tomcat下面的webapps目录下,确保粘贴前将webapps下面的文件清空
- 2.5.1.8 启动restcloud
- 2.5.1.9 访问DataOps数据集成平台
- 2.5.2 Windows全量包安装
- 2.5.2.1 安装准备
- 2.5.2.1.1 服务器硬件环境要求
- 2.5.2.1.2 服务器端软件环境要求
- 2.5.2.1.3 用户端软件环境要求
- 2.5.2.2(已安装跳过)
- 2.5.2.3 安装mongodb(已安装跳过)
一、介绍
1.1 企业级数据集成架构面临的痛点
- 过度架构
过度引入开源架构及组件,造成架构过 于复杂,使整个架构失去了敏捷性
- 实时数据处理能力差
实时数据采集传输能力弱,缺少对实时数据进行合并、过滤、转换等处理能力
- 任务调度不稳定
依赖开源组件进行调度,缺少完整的任务监控能力,经常发生任务异常
- 缺少反向ETL能力
缺少从数仓到业务系统的复杂数据分发能力,数仓中的数据到应用系统之间存在巨大障碍
- 无法自助式开发
数据管道开发严重依赖大数据部门,业务部门无法自助式敏捷使用数据
- 实施运维成本高
随着数据管道的增加,对于管道及开源组件本身的运维工作量具高不下,故障率越来越高
- 数据服务开放困难
数仓中的数据无法敏捷的发布为API服务,缺少API管理及安全防护措施
1.2 RestCloud说明
自助式,只需单击几下即可完成数据管道构建,实现数据抽取、加载入仓,轻松汇聚各种应用数据,大幅缩短数据价值变现时间。
毫秒级实时数据同步
支持异构数据源实时数据监听读取,实时数据通过经过清选、转换后可以实时存储到数仓中并可立即发布成API服务
GPT智能构建流程
全面集成AIGC能力实现智能数据管道构建,用户只需要简单描述需求,系统即可全自动完成数据管道构建,大幅缩短数据变现时间
批流一体化架构
一站式覆盖离线及实时数据任务开发、任务调度、任务监控、血缘关系分析、数据质量监测、元数据管理等核心能力
1.3 重构企业数据融合架构,解决各种复杂、即时、高合规的数据集成需求
一站式覆盖:任务开发、任务编排调度、血缘关系分析、数据质量管理、数据服务开发、任务监控
实时数据集成
1.能够自动根据不同的数据库类型捕获数据变化日志可实现数据表的实时毫秒级同步,实时数据可同时并行分发到多个目标库或应用中。
2.支持实时数据传输到Hive、MongoDB 、Doris、MQ中,同时也支持从MongoDB 、MQ、文件实时传输到SQL数据库中,支持一对多传输,支持多流合并传输,传输过程中支持数据质量检查,能实时把脏数据分发到指定表中并发送告警通知。
离线数据集成
1.平台提供ETL和ELT双引擎模块,用户可根据不同业务场景选择使用ETL或ELT组件
2. ETL可为用户实现复杂的数据集成场景以及数仓反向集成业务系统的ETL过程
3.ELT可为用户快速实现业务数据到数仓及数湖的抽取过程
4.我们具有单项目上万数据管道的稳定调度实施经验,可为用户提供复杂的数据管道架构方案,以及全球化的数据合规交换
分钟级数据服务发布
1.依托我们在API领域的强大技术实力,我们可为用户提供业界最为优秀的数据服务发布、数据服务治理等一整套解决方案。
2.通过专业的API低代码开发平台,可实现分钟级数据服务交付速度,为用户快速构建数据即服务平台(DaaS)
3.针对大型企业我们提供数据服务可视化编排、高性能数据服务网关等全方位的解决方案
最快的数据集成平台
1.平台采用Web可视化设计只需单击几下即可完成数据任务开发
2.充分优化的数据处理组件可以让任务开发效率大幅提升
3.自主研发自动分片和多通道并行传输技术极致传输性能
4.性能大幅优于Kettle、DataX等开源工具
5.任务开发效率可大幅提升50%以上
1.4 (智能)全域数据集成平台
1.5 300+数据及应用连接器轻松汇聚全域数据
二、产品简介
2.1 功能特性
1. AI深度集成融合
普通用户只需通过简单对话即可完成数据管道的构建。
2. 开箱即用业务人员可操作
系统提供可视化的自动化处理流程,用户只需要单击几下即可创建数据处理任务,轻松在多个异构数据源中实现数据同步以及数据清洗传输。
3. 高效的数据集成开发效率
系统对每个组件均进行了多次迭代和优化,目的是为了减少数据集成的复杂度让数据集成变成一个轻松愉快的工作,同时用最少的节点数据实现最为复杂的数据传输和处理逻辑。
4. 支持动态扩容或缩容
得益于RestCloud 数据集成平台采用微服务架构研发,可基于k8s进行部署,根据数据量及任务量按需进行在线扩容或者缩容,扩容或者缩容过程中数据集成任务能够自动分配到共他集群节点实现故障或任务的自动转移。
5. 金融级高可用架构
数据任务采用最先新的先进先出队列模式产生和执行,所有数据任务执行节点根据自身的CPU以及内存使用率来主动领取任务执行,当CPU或内存被监控到超出指定指标后系统自动停止节点领取新的任务直到内存恢复到正常水平,系统可以保护每一个节点的稳定性避免内存溢出的问题出现、数据执行任务历史记录可以采用MongodDb多副本存储确保任务执行高可用。
6. 实时数据集成
提供实时数据集成能力,实时数据源可以通过多种方式实时推送给ETL的自动化处理流程如:API数据、数据库LOG、MQ消息等,在数据任务中支持对实时数据进行数据质量检查、过虑等多重功能,企业可以快速构建实时数仓。
7. 云原生架构自主研发国产化
专为云而设计的纯国产化的数据集成平台,用户可在公有云、私有云、混合云、信创环境中实现快速部署,真正的实现数据集成平台的自动化部署能力敏捷响应业务需求。
8. 云数仓支持
数据集成平台可以把企业云上以及云下的数据快速的传送到云数据仓中支持阿里云、腾讯云、华为云的数仓。
9. 支持API以及第三方任务调度
支持数据处理任务直接发布为API接口服务被第三方系统进行调用,数据处理结果可以作为API的输出结果返回给调用端,同时支持kettle、datax等任务的调度。
10. 多人、环境协同并行开发
提供多帐号、多人、多应用、多套环境的并行协同开发能力,企业的多个数据集成人员可以在线同时进行数据任务的开发。
11. 反向ETL支持
可快速把企业数仓中干净的数据同步到SaaS和业务系统中,让数据快速反哺业务。
2.2 产品架构及工作原理
RestCloud数据集成平台采用SprigCloud微服务架构技术开发,底层基于纯Java语言采用前后端分离架构,前端采用React技术进行开发。 RestCloud数据集成平台是基于数据流+工作流引擎的架构进行研发的,底层设计了一个专门为数据处理任务流而研发的工作流引擎用以支撑任意复杂的数据流处理包括:串行、同步并行、异步并行、同步子流程、异步子流程、事务控制、循环任务执行、多流合并、数据折分、数据流复制等,而不是基于DAG这种简单的有向无环图的数据流程处理逻辑,得益于我们在工作流上面集累的优势我们不但可以做DAG这种简单的依赖任务处理还可以做复杂的多层任务调度能力,企业可以把数据处理任务分为原子层、逻辑组合层、调度层等方式来组合企业的复杂任务调度需求,可以把一个复杂的数据集成流程拆分成多个可复用的子任务来进行调度。
在RestCloud数据集成平台中数据作为流在多个节点中进行流动、数据可以穿透多个节点以及子任务,这样数据流可以被多个节点以及任务中被访问到,以实现数据复用和分发。 为了保障系统的任务调度的稳定性我们做了大量的工作以及偿试,目前在产品中已经支持了多种调度模式包括:队列模式、主备模式、调度机模式等等目的都是为了保障任务能够被准时执行,同时在任务失败时提供了自动重跑、断点重跑、重跑指定节点、重跑所有下游节点的能力。
2.3 产品优势对比
产品优势
- 基于微服务架构开发支持分布式部署同时支持上万流程的调度与执行
- 平台简单易用开箱即用,无需安装客户端软件只需浏览器即可
- 自动分片极速传输性能(全面优于开源的kettle ETL工具)
- 支持完整的事务控制策略,跨数据库事务控制,保证数据的一至性
- 支持CDC、MQ流式数据的实时处理,支持批流数据的合并
- 支持多种数据源(RDBS,NOSQL,API,Excel,kafka、hive等)
- 支持数据过滤器,通过自定义的数据过滤器可以实现复杂的数据交换规则
- 支持各种不同数据源之间数据类型的自动转换,极大提升流程的构建速度
- 支持数据缓冲库功能,提供中间缓冲数据功能
- 通过数据交换日记,记录所有数据投递情况
- 可以完全替换kettle、datax、informatica、datastage以及任何第三方ETL/ELT/CDC工具
RestCloud ETL与Kettle对比分析
2.4 社区免费版本说明
- 平台有社区免费版本和企业收费版本均支持私有化部署
- 社区免费版: (包含30个流程)
- 专业版: (根据模块和流程数进行购买,50流程起购)
- 旗舰版: (根据企业需求进行个性化的定制和部署)
- 社区免费版目前暂不支持增加流程数, 如需增加流程数请升级到企业版
版本对比
功能对比 | 社区版 | 企业版 |
---|---|---|
提供多个版本供不同规模企业选择,同时支持针对大型企业的定制化服务 | 永久免费使用 (30个流程以内) | 按需购买 |
流程数量 | 30 | 按需购买 |
购买组件 | 收费 | 免费20个 |
无用户数限制 | ✓ | ✓ |
集群支持 | - | 可选 |
GPT创建流程 | - | 支持 |
数据源管理 | ✓ | ✓ |
离线数据开发(ETL) | ✓ | ✓ |
实时数据传输(CDC) | ✓ | ✓ |
实时流监听 | 仅kafka | 全部 |
用户权限管理 | ✓ | ✓ |
监控中心 | ✓ | ✓ |
服务等级 | 社区问答 | VIP一对一 |
数据服务开发平台(API) | - | 可选 |
SQL管理平台 | - | ✓ |
数据资产管理 | - | 可选 |
数据可视化大屏 | - | 可选 |
血缘关系分析 | - | ✓ |
元数据管理 | - | ✓ |
数据质量管理 | - | ✓ |
默认数据处理组件 | 80+ | 100+ |
私有化支持 | ✓ | ✓ |
信创环境安装 | ✓ | ✓ |
容器化部署 | 单机单节点 | 动态弹性伸缩 |
2.5 系统安装升级
是指用户自已安装tomcat,用户只下载了平台的*.war包的安装说明
平台最小依赖安装: Sun JDK1.8U201以上,Tomcat 8.5以上,mongodb 4.x 以上
2.5.1 Windows WAR包安装
部署步骤
下载相关安装包 下载
- 安装准备
- 安装JDK1.8u201 (已安装跳过)
- 安装mongodb4.x(已安装跳过)
- 安装tomcat9.0.68(已安装跳过)
- 安装ROOT.war
- 解压安装程序包
- 移动ROOT文件夹到tomcat中
- 启动tomcat
- 访问http://localhost:8080/restcloud/admin 初始用户admin密码pass
2.5.1.1 安装准备
2.5.1.1.1 服务器硬件环境要求
Restcloud ETL服务器的最低运行环境如下:
CPU:Intel 1.6G 4核或以上
内存:可用内存4G或以上(不包括操作系统等其他程序占用内存)
可用硬盘空间:40G或以上
最少服务器数量:1台
2.5.1.1.2 服务器端软件环境要求
支持操作系统:Windows10/Windows7/Windows2012/windows server 2008以上版本
JAVA运行环境:JDK1.8u201或更高,但不建议使用jdk11以上版本
数据库: MongoDB3.6或更高
Web服务器:Tomcat8.5.57或更高,暂不支持tomcat10.0以上版本
2.5.1.1.3 用户端软件环境要求
最佳浏览器:Google Chrome 85以上版本
2.5.1.2 安装JDK (已安装跳过)
如需安装请参考文档:Windows安装JDK https://zhuanlan.zhihu.com/p/566048727
2.5.1.3 安装mongodb(已安装跳过)
如果原来已有mongodb可以直接链接即可,没有则需要新安装请参考文档:windows安装MongoDB教程
注意:mongodb请不要暴露在外网,否则容易被攻击
Mongo创建用户
链接上mongo之后
切换到admin库
use admin;
创建用户,admin用户读写数据库,root用户管理数据库,运维工作中的备份等操作需使用root账号,注意密码复杂度
db.createUser(
{
user: "admin",
pwd: "pass@2022",
roles:['readWriteAnyDatabase','dbAdminAnyDatabase']
}
);
db.createUser(
{
user: "root",
pwd: "root@2022",
roles:['root']
});
创建后出现以下提示则创建成功
Successfully added user: {
"user" : "admin",
"roles" : [
"readWriteAnyDatabase",
"dbAdminAnyDatabase"
]
}
验证用户
db.auth("admin","pass@2022");
退出连接
exit
2.5.1.4 安装tomcat (已安装跳过)
如需安装请参考文档:Windows安装tomcat https://blog.csdn.net/Kd_2number/article/details/127680792
2.5.1.5 安装ROOT.war(在相关安装包中下载)
2.5.1.6 解压安装程序包并在application.properties文件配置链接mongodb的信息
2.5.1.6.1 配置数据库链接信息
进入到tomcat目录下,在/webapps/ROOT/WEB-INF/classes目录下
修改application.properties文件
#这个是mongodb认证库的名称,安装后注册用户时创建的
spring.data.mongodb.authentication-database=admin
#MongoDB数据库连接信息
spring.data.mongodb.host=127.0.0.1:27017
spring.data.mongodb.username=userid mongo创建的用户名
spring.data.mongodb.password=password 密码
2.5.1.7 将ROOT文件夹复制到Tomcat下面的webapps目录下,确保粘贴前将webapps下面的文件清空
2.5.1.8 启动restcloud
进入tomcat文件夹下面的bin目录,双击startup.bat文件,这里我的目录为"F:\tomcat\apache-tomcat-9.0.68\bin"
等待tomcat启动,当出现这个界面,则restcloud证明启动成功
2.5.1.9 访问DataOps数据集成平台
访问地址:{host}/restcloud/admin 产品默认用户名密码: admin/pass
若序列号过期或没有序列号点击下方蓝色字体去到个人中心申请序列号
填写好邮箱和对应的机器号,点击验证发送验证邮件然后就会返回申请的序列号到所填写的邮箱
将返回的序列号填好,点击保存,刷新页面进入到首页
2.5.2 Windows全量包安装
Windows全量包下载部署步骤
是指用户下载了平台*.zip包,这个包里面已经自带了tomcat解压即可用
平台最小依赖安装: 解压即用,需要安装 Sun JDK1.8U201以上,MongoDB 4.x 以上
先下载相关安装包 下载
1.安装准备
2.安装JDK1.8u201 (已安装跳过)
3.安装MongoDB4.x(已安装跳过)
4.解压tomcat压缩包
5.启动tomcat
6.进入DataOps数据集成平台(初始用户:用户名admin密码pass)
2.5.2.1 安装准备
2.5.2.1.1 服务器硬件环境要求
Restcloud DataOps服务器的最低运行环境如下:
CPU:Intel 1.6G 4核或以上
内存:可用内存4G或以上(不包括操作系统等其他程序占用内存)
可用硬盘空间:40G或以上
最少服务器数量:1台
2.5.2.1.2 服务器端软件环境要求
支持操作系统:Windows11/Windows10/Windows7/Windows2012/windows server 2008以上版本
JAVA运行环境:JDK1.8u201或更高,但不建议使用jdk11以上版本
数据库: MongoDB4.x或更高
Web服务器:Tomcat8.5.57或更高,暂不支持tomcat10.0以上版本
2.5.2.1.3 用户端软件环境要求
最佳浏览器:Google Chrome 85以上版本,
2.5.2.2(已安装跳过)
如需安装请参考文档:Windows安装JDK https://zhuanlan.zhihu.com/p/566048727
2.5.2.3 安装mongodb(已安装跳过)
如果原来已有mongodb可以直接连接即可,没有则需要新安装请参考文档:windows安装MongoDB教程
注意:mongodb请不要暴露在外网,否则容易被攻击
Mongo创建用户
链接上mongo之后,切换到admin库
use admin;
创建用户,admin用户读写数据库,root用户管理数据库,运维工作中的备份等操作需使用root账号,注意密码复杂度
db.createUser(
{
user: “admin”,
pwd: “pass@2022”,
roles:[‘readWriteAnyDatabase’,‘dbAdminAnyDatabase’]
}
);
db.createUser(
{
user: “root”,
pwd: “root@2022”,
roles:[‘root’]
});
创建后出现以下提示则创建成功
Successfully added user: {
“user” : “admin”,
“roles” : [
“readWriteAnyDatabase”,
“dbAdminAnyDatabase”
]
}
验证用户
db.auth(“admin”,“pass@2022”);
退出连接
exit