使用ETLCloud强大的自定义规则实现自定义数据处理算法

news2025/1/18 10:54:07

实时数据处理规则有什么作用

在大数据中的实时数据采集、ETL批量数据传输过程中很多数据处理过程以及数据质量都希望实时进行处理和检测并把不符合要求的脏数据过滤掉或者进行实时的数据质量告警等。

在数据仓库建设过程中,每家企业的数据处理过程中肯定会有一些自身的数据处理特点如学号的处理、车牌号的处理、身份证号码的处理、SKU编码的处理、订单号的处理等等,各行各业都有自己的数据处理和运算方式,而ETL平台本身只是内置了一些通用的数据处理规则,企业所需要的这些个性化的运算规则就可以通过ETL的自定义规则来实现了。

怎么自定义数据处理规则?

首先进入ETL平台的一个应用,只有应用中才可以新增自定义规则,因为规则必须属于某一个应用。

注意:新增一个规则的分类才可以新增自定义规则


进入应用配置中新增一个规则分类

有了分类后再进入到自定义规则中就可以新增规则了,点击新增规则后给规则一个名称如:发动机号校验规则、订单号合法性校验规则等等,class path不用填系统会自动生成。

自定义数据处理规则的注意事项

规则新增成功后就可以给规则进行代码逻辑的编写了

系统会自动生成一个规则运算的代码模板出来,只需要根据模板中的提示进行逻辑修改即可

平台运算规则使用的是标准的Java语法,不是JavaScript之类的,所以不用担心运算规则的执行效率,经过我们测试处理100W的数据使用Java规则只需要几秒钟即可完成,而如果用JavaScript语法的规则需要几分钟才能完成,所以RestCloud ETL在性能上是很有优势的。

规则代码编写完成后可以点击编译并保存按钮即可,如果提示成功则表示代码没有问题,如果提示失败可以根据提示信息进行代码修改,如果在Web IDE中编辑不是很方便也可以把代码copy到idea/eclipse中进行编辑,编辑完成后再copy进来即可。

使用参数提升数据处理规则的复用率

如果规则都是固定算法不需要在系统执行时传入参数就不需要定义参数,但是有时我们为了能提升规则的复用性就必须得用到规则参数的功能了如:自定义一个格式化时间的规则,而格式化时间会有: yyyy-MM-dd、yyyy年MM月dd日、yyyy-MM-dd HH:mm:ss等等,根本不知道用户想格式化成什么样,光是一个时间格式如果不用参数我们就得定义一大堆规则才可以实现上面的功能,最好的方式是时间的格式是由绑定规则时指定的一个参数,这样我们在开发规则的时候只需要一个规则即可完成。

在新建规则时可以指定一个规则参数,这样在用户选择这个规则时就会提醒用户设定参数

这样用户可以在绑定规则时指定一个参数,这个参数会传入到规则的方法中

系统通过一个{参数id:参数值}的json传入,我们转为map对象后再获取参数值即可在代码中使用。

怎么使用规则进行数据质量的检查或过滤

规则定义好后我们就可以在ETL的流程中使用这些规则来进行数据质量的检查,数据清洗过滤等操作,如下面这个流程就可以把不符合要求的电话号码的用户给过滤掉同时发送告警通知给用户

自定义规则调用第三方jar包

规则中可以使用import 引入自己开发的jar包或者第三方jar包的class进入,这样就可以利用第三方jar包中的运算能力(如:spark、sm4加密算法、逻辑回归算法等)来实现很多复杂业务的处理和数据运算。

规则中可以执行SQL吗?

规则中可以很方便地执行SQL语句,系统已经封装了ETLRdbUtil这样工具类(还有其他很多数据库的工具类如:Redis,MongoDB,ES,Kafka等)如下代码即可执行SQL并返回数据

String sql=”select * from tablename where id<10”;

List docs=ETLRdbUtil.listDocs(ETLRdbUtil.getConnection("数据源id"), sql);

for(Document doc:docs) {

PrintUtil.o(doc.getString("userId"));

}

ETLRdbUtil工具类有很多方便访问数据库的工具,一般只需要几行代码就能读取、写入、修改数据,后面我们会专门介绍ETLRdbUtil工具类的使用。

ETLCloud数据集成平台社区版

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/619623.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java调用Groovy动态加载接口实现类,热部署不需要编译

pom <dependency><groupId>org.codehaus.groovy</groupId><artifactId>groovy-all</artifactId><version>2.4.3</version></dependency> Java接口&#xff1a; public interface Run {public void speed(int s); } Groovy实…

基于SSM的图书馆借阅管理系统

✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取项目下载方式&#x1f345; 一、项目背景介绍&#xff1a; 随着社会的发展和信息…

十二、Docker日志管理

Docker日志管理 Docker的日志大致有两种&#xff0c;一是Docker 引擎日志&#xff0c;也就是 dockerd服务自身运行时的日志&#xff1b;二是容器内的服务产生的日志。后一种有一定使用经验的童鞋应该发现有时候我们能通过docker logs查看容器日志&#xff0c;有时候又不能&…

就这水平也去大厂面试?你是怎么敢的啊

面试一直都是一个热门话题&#xff0c;软件测试员当然也逃不过~纵使你是一个技能全部满点的超优秀软件测试员&#xff0c;卡在面试这一关也是万万不可的。特别是大厂的测试员&#xff0c;他们面试所问的东西&#xff0c;你在学校通常接触不道&#xff0c;所以没有哪个应届生是一…

国内元宇宙游戏陆续开放,将带来科技娱乐新鲜感

自元宇宙概念兴起至今&#xff0c;国内多家互联网厂商纷纷参与其中&#xff0c;除了在区块链、人工智能、图像处理、云计算等专业技术领域深入布局&#xff0c;也通过大范围投资或收购的方式来扩大自身的元宇宙游戏版图。围绕这一新兴概念&#xff0c;一场产、学、研的实践正在…

高效科研工具(三):高效检索阅读paper-arXiv网站(arXiv使用大全、掌握研究热点、前沿动态)

高效科研工具&#xff08;三&#xff09;&#xff1a;高效检索阅读paper-arXiv网站&#xff08;arXiv使用大全、掌握研究热点、前沿动态&#xff09; 目录 0、前言&#x1f60f; 1、arXiv网站介绍&#x1f9d0; 2、arXiv网站使用&#x1f60e;&#x1f60e; 3、arXiv网站使用…

语义分割结果可视化(原图+语义掩码+图例)

语义分割结果可视化&#xff08;原图语义掩码图例&#xff09; 由于实习工作需要把语义分割结果可视化出来&#xff0c;要使用自定义颜色来区分不同的label&#xff0c;并绘制出图例并插入在图像右端。本文将介绍如何实现这样的语义分割结果图。 文章目录 语义分割结果可视化&a…

Mysql执行计划怎么看

执行计划就是sql的执行查询的顺序&#xff0c;以及如何使用索引查询&#xff0c;返回的结果集的行数 EXPLAIN SELECT * from A where X? and Y? 1.id :是一个有顺序的编号&#xff0c;是查询的顺序号&#xff0c;有几个 select 就显示几行。id的顺序是按 select 出现的顺序增…

13 【代理配置 插槽】

1.Vue脚手架配置代理 本案例需要下载axios库npm install axios 配置参考文档 Vue-Cli devServer.proxy vue.config.js 是一个可选的配置文件&#xff0c;如果项目的 (和 package.json 同级的) 根目录中存在这个文件&#xff0c;那么它会被 vue/cli-service自动加载。你也可以…

老人跌倒检测识别预警算法 yolov7

老人跌倒检测识别预警系统采用yolov7网络模型技术&#xff0c;老人跌倒检测识别预警算法对老人的行为进行实时监测。当老人发生跌倒时&#xff0c;系统将自动发出警报&#xff0c;及时通知现场护理人员进行处理。YOLOv7 的发展方向与当前主流的实时目标检测器不同&#xff0c;研…

MySQL表操作:提高数据处理效率的秘诀(进阶)(1)

&#x1f495;**“生命不在于相信奇迹&#xff0c;而在于创造奇迹。”——朱学恒**&#x1f495; &#x1f43c;作者&#xff1a;不能再留遗憾了&#x1f43c; &#x1f386;专栏&#xff1a;MySQL学习&#x1f386; &#x1f697;本文章主要内容&#xff1a;MySQL对表操作进阶…

Node.js从基础到项目实践

摘要&#xff1a; Node.js是一个基于Chrome V8引擎的JavaScript运行时环境&#xff0c;它允许开发者使用JavaScript构建高性能的服务器端应用程序。本文将介绍Node.js的基础知识&#xff0c;并通过项目实践的方式帮助读者深入理解Node.js的用法和功能。从基础到项目实践&#x…

建造者模式的运用

文章目录 一、建造者模式的运用1.1 介绍1.2 建造者模式结构1.3 建造者模式类图1.4 组装自行车案例1.4.1 组装自行车案例类图1.4.2 代码 1.5 优缺点1.6 使用场景1.7 模式扩展1.7.1 原始代码1.7.2 重构代码 一、建造者模式的运用 1.1 介绍 将一个复杂对象的构建与表示分离&…

Linux系统下SQLite基础使用命令

1.选择数据库 sqlite 数据库.db 当出现sqlite> 表示成功 2.列出数据库中的表 .table 这一步是在上一步成功选择数据库的基础上进行的, 当出现event, 表示event-20230407这个数据库中有且只有一张表, 表名叫event 3.查询表中数据 select * from 表名; (此处注意记得一定…

【假捻发加工生产工单下达】

假捻工单是需要下到工作中心的,比如A01机台或者A02机台。 所以下工单之前要先查询A01机台上的最新工单量。 查询结果如下: 她会按照创建时间进行排序,后下的工单排在最前面 (如果下了个新工单,那么前一个工单的执行状态会自动改为关闭。) 因此查询结果,最上面的工单执…

外贸跨境商城app,多语言,多货币,跨境电商系统开发

外贸跨境商城app是一种在线购物平台&#xff0c;专门为海外买家提供跨境电商服务。用户可以在该app上浏览和购买来自全球各地的商品&#xff0c;以及与卖家进行沟通和交流。这些商品可能包括服装、鞋子、家居用品、电子产品等等&#xff0c;价格也跨越了各个层次。外贸跨境商城…

正确认识糖化学试剂:120173-57-1,Fmoc-Ser(Ac3GalNAcα)-OH的参数和保存方法

&#xff08;文章资料汇总来源于&#xff1a;陕西新研博美生物科技有限公司小编MISSwu&#xff09;​ 【中文名称】N-芴甲氧羰基-O-(2-乙酰氨基-3,4,6-三-O-乙酰基-2-脱氧-α-D-吡喃半乳糖基)-L-丝氨酸 【英文名称】 Fmoc-Ser(Ac3GalNAcα)-OH 【结 构 式】 【CAS号】120173-…

AWTK实现汽车仪表Cluster/DashBoard嵌入式GUI开发(四):拖拽式GUI开发

前言: 如何做出炫酷的嵌入式GUI界面?GUI(Graphical User Interface) :图形化操作界面。新能源汽车对于炫酷GUI的需求也是越来越强烈。 AWTK全称为Toolkit AnyWhere,是ZLG倾心打造的一套基于C语言开发的GUI框架。旨在为用户提供一个功能强大、高效可靠、简单易用、可轻松…

2docker

一、引言 1.1 环境不一致 我本地运行没问题啊&#xff1a;由于环境不一致&#xff0c;导致相同的程序&#xff0c;运行结果却不一致。 1.2 隔离性 哪个哥们又写死循环了&#xff0c;怎么这么卡&#xff1a;在多用户的操作系统下&#xff0c;会因为其他用户的操作失误影响到你自…

基于Java+SpringBoot制作一个校园圈子小程序

制作一个校园圈子小程序,有效连接信息供需双方,用户可获取和发布需求信息、参与互动交流,适用于同校、同城、社区交流、客户互动、同学/老师注册发布信息等场景。 微信小程序实战开发专栏 一、小程序1.1 项目创建1.2 首页轮播图九宫格