CentoOS 7下配置并部署 DataX 3.0与DataX-web

news2024/11/15 10:53:25

数据同步框架 DataX

DataX本身作为离线数据同步框架,采用 Framework+ plugin架构构建。将数据源读取和写入抽象成为Reader/ Writer插件,纳入到整个同步框架中。

Reader: Reader为数据采集模块,负责采集数据源的数据,将数据发送给 Framework。

Writer: Writer为数据写入模块,负责不断向 Framework取数据,并将数据写入到目的端。Framework: Framework用于连接 reader和 writer,作为两者的数据伎输通道,并处理缓冲,流控,并发数据转换等核心技术问题

安装与配置:

1.安装JDK

wget --no-check-certificate --no-cookies --header "Cookie: oraclelicense=accept-securebackup-cookie" http://download.oracle.com/otn-pub/java/jdk/8u131-b11/d54c1d3a095b4ff2b6607d096fa80163/jdk-8u131-linux-x64.rpm

2.解压JDK

rpm -ivh jdk-8u131-linux-x64.rpm

3.查看JDK版本

4.上传dataX文件

文件下载链接: https://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

5.解压dataX

tar zxf datax.tar.gz -C /usr/local/

6.删除隐藏文件

rm -rf /usr/local/datax/plugin/*/._*

7.验证运行

cd /usr/local/datax/bin/

python datax.py ../job/job.json

dataX目录结构简介:

content:配置读和写插件

      reader:配置迹插件

           name:插件名称

           parameter:插件参数

              encoding:字符集编码

     writer:配置写插件

setting:配置任务参数

      speed:配置速度相关参数

         channel:配置线程并发数

         errorLimit:配置脏数据容忍度(记录数或比例

DataX配置文件——CSV

txtfilereader:

  1. 支持且仅支持读取TXT的文件,且要求TXT中 shema为一张二维表
  2. 支持类CSV格式文件,自定义分隔符。
  3. 支持多种类型数据读取(使用 String表示),支持列裁剪,支持列常量
  4. 支持递归读取、支持文件名过滤
  5. 支持文本压缩,现有压缩格式为zip、gzip、bzip2
  6. 多个File可以支持并发读取

txtfilewriter:

  1. 支持且仅支持写入TXT的文件,且要求TXT中 shema为一张二维表·
  2. 支持类CSV格式文件,自定义分隔符。
  3. 支持文本压缩,现有压缩格式为gzip、bzip2
  4. 支持多线程写入,每个线程写入不同子文件。

DataX-web部署

下载地址: 百度网盘 请输入提取码,提取码:cpsk

上传到linux上并解压

mysql建库

执行一键安装脚本:

运行dataX-web:
直接访问网页即可登录系统:
账号密码为admin  123456
网页页面:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2067723.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一种间距可调式在线测宽仪!

关键词:在线测宽仪,测宽仪,板材测宽仪,板材 我们都知道,在板材生产线中,为了应对多方市场需求,生产的板材规格众多,甚至宽度范围相差甚大。而现在应用于产线的在线测宽仪多为光学测量方式,这也就意味着&…

Nginx: 配置项之access模块、auth_basic模块、auth_request模块

access模块 用于限定特定IP或者是网段进行访问的,从而实现Nginx的一个访问权限控制这个模块,它仅能够针对IP或者网段的一个访问 1 )指令集 1.1 allow 语法结构: allow address | CIDR | UNIX | all all 是放行所有address 可以是 ip 地址…

TCP的连接建立及报文段首部格式

粘包问题: 原因:TCP流式套接字;数据与数据之间没有边界;导致可能多次的数据粘到一起。 解决办法: 规定一些数据与数据之间的间隔符,如:"\aa\", "\r\n"。指定要发送的数据…

如何使用ssm实现游戏攻略网站的设计与实现+vue

TOC ssm052游戏攻略网站的设计与实现vue 绪论 1.1 研究背景 当前社会各行业领域竞争压力非常大,随着当前时代的信息化,科学化发展,让社会各行业领域都争相使用新的信息技术,对行业内的各种相关数据进行科学化,规范…

探究短信里的短链接是如何实现的

简介 我们日常在收短信的时候,会经常发现,他们的短信里的跳转链接,都是非常短非常短的,这是为什么呢? 因为现在短信新规出来,是按字数收费的,而不是按条。比如腾讯云短信新规,70字…

原生js中的防抖节流笔记

防抖,单位时间内,频繁触发,只执行最后一次 效果演示 优化前,不断触发,浪费性能 优化后,只在指定时间内触发 演示代码 import debounce from "/node_modules/lodash-es/debounce.js"; const oBox docu…

专业养生调理保健传承者——五指生望京店开业送健康

2024年8月22日,即处暑时节,五指生望京店盛情开业!在这个暑意渐消的美好时节,望京店希冀为更多尊贵生命带来健康。 五指生成立于2001年,作为“全国五星级保健服务机构”,曾先后获得“首都文明单位”“北京市…

Java学习Day34:图书管理小项目

搭建过程 1.根据需求设计数据库 概念设计:使用ER图等工具设计数据库概念模型,明确实体、属性、关系。逻辑设计:将概念模型转换为数据库表结构,确定主键、外键、索引等。物理设计:根据数据库管理系统的特性进行物理存…

【运维】docker搭建portainer

1.拉取镜像 并 启动容器 1.1 拉取镜像 docker pull 6053537/portainer-ce1.2 启动容器 docker run -d --restartalways --name"portainer" -p 9000:9000 -v /var/run/docker.sock:/var/run/docker.sock 6053537/portainer-ce2.访问地址 ip地址9000端口 密码&…

True XML cookbook

打开题目 看到登录口 随便输入admin&#xff0c;123456&#xff0c;然后抓包试一下 先按原来那道题的payload进行测试&#xff0c;payload和结果如下&#xff1a; <?xml version"1.0" ?> <!DOCTYPE llw [ <!ENTITY file SYSTEM "file:///flag&…

Linux驱动入门实验班——DAC模块驱动(附百问网视频链接)

目录 前言 一、 SPI数据结构 1.SPI设备驱动 2.SPI设备数据结构 二 、函数接口 1.spi_sync_transfer 2.spi_register_driver 三、DAC 1.数据格式 2.数据结构 四、源码 驱动 应用 课程链接 前言 在这里主要记录学习韦东山老师Linux驱动人入门实验班的笔记&#xff0…

计算机网络——HTTP与HTTPS协议

HTTP与HTTPS是应用层的协议。 目录 一、HTTP 二、HTTPS 三、HTTP与HTTPs对比 四、HTTP/1.0 HTT/1.1 HTTP/2有什么区别 五、HTTP常用请求方法&#xff1f;get/post区别&#xff1f; 六、HTTP的工作过程 七、HTTPS的工作过程 八、Cookie、Session、Token 一、HTTP 超…

【CAN总线测试】——CAN物理层测试

从0开始学习CANoe使用 从0开始学习车载测试 相信时间的力量 星光不负赶路者&#xff0c;时光不负有心人。 目录 1.最小通讯电压测试 2.最大通讯电压测试 3.显性位/隐性位输出电压测试 4.信号跳变沿测试 5.地偏移 6.终端电阻 1.7. CANH/CANL短路 1.8. CANH /GND短路 …

Verilog刷题笔记58

题目&#xff1a; Exams/2014 q3c 解题&#xff1a; module top_module (input clk,input [2:0] y,input x,output Y0,output z );parameter s03d000,s13d001,s23d010,s33d011,s43d100;always(*)begincase(y)s0:Y0x;s1:Y0~x;s2:Y0x;s3:Y0~x;s4:Y0~x;endcaseendassign z(y3b01…

Kafka运行机制(二):消息确认,消息日志的存储和回收,生产者消息分区

前置知识 Kafka基本概念https://blog.csdn.net/dxh9231028/article/details/141270920?spm1001.2014.3001.5501Kafka运行机制&#xff08;一&#xff09;&#xff1a;Kafka集群启动&#xff0c;controller选举&#xff0c;生产消费流程https://blog.csdn.net/dxh9231028/arti…

Verilog刷题笔记57

题目: Exams/2014 q3bfsm Given the state-assigned table shown below, implement the finite-state machine. Reset should reset the FSM to state 000. 解题&#xff1a; module top_module (input clk,input reset, // Synchronous resetinput x,output z );parameter…

ESP32-IDF 在 Ubuntu 下的配置

目录 一、安装准备二、获取 ESP-IDF三、设置工具四、使用案例 参考资料&#xff1a;官方文档&#xff1a;Linux 和 macOS 平台工具链的标准设置。 一、安装准备 参照官方文档&#xff0c;首先下载编译 ESP-IDF 所需要的软件包&#xff1a; sudo apt-get install git wget fl…

如何使用ssm实现基于Java的共享客栈管理系统

TOC ssm058基于Java的共享客栈管理系统jsp 第1章 绪论 1.1 课题背景 互联网发展至今&#xff0c;无论是其理论还是技术都已经成熟&#xff0c;而且它广泛参与在社会中的方方面面。它让信息都可以通过网络传播&#xff0c;搭配信息管理工具可以很好地为人们提供服务。所以各…

一篇快速搞懂 JavaSE 高级特性(代码块,注解,枚举,异常处理,多线程,集合框架,泛型,反射,IO ......)

JavaSE 高级 一、面向对象&#xff08;高级&#xff09;1、单例模式&#xff08;Singleton&#xff09;2、代码块1&#xff09;静态代码块2&#xff09;非静态代码块 3、关键字 final4、抽象类与抽象方法&#xff08;abstract&#xff09;5、模板方法设计模式&#xff08;Templ…

利用GPT绘制流程图(无需下载任何软件

目录 什么是Flowchart Fun&#xff1f;如何利用GPT绘制流程图&#xff1f;步骤1&#xff1a;确定流程图的目的和内容步骤2&#xff1a;训练GPT编写流程图的文本描述步骤3&#xff1a;转换文本格式为可视化的流程图步骤4&#xff1a;调整和优化 结论小结&#xff1a; 什么是Flow…