文章目录
- 一、DataX安装
- 1、解压datax.tar.gz
- 2、运行自检脚本
- 二、Datax-Web安装
- 1、解压DataXWeb安装包
- 2、执行一键安装脚本
- 3、启动服务
前段时间在项目上使用了阿里的离线数据同步工具datax,在大批量的表同步过程中踩了一些坑,所以详细介绍一下,希望对大家有所帮助。
本文将先介绍dataxhe datax-web的安装及使用,比较简单,但是实际使用过程中还有许多需要改进的地方,后面文章将接着介绍datax及datax-web源码打包、二次开发支持Oracle更新数据等,敬请期待。
datax介绍:https://github.com/alibaba/DataX/blob/master/introduction.md
源码地址:https://github.com/alibaba/DataX
安装包地址:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
插件开发手册:https://github.com/alibaba/DataX/blob/master/dataxPluginDev.md
环境要求: JDK(1.8 以上) + Python(Python2.6.X+)
一、DataX安装
1、解压datax.tar.gz
Windows直接解压,Linux使用如下命令
#解压,目录自己定
tar -zxvf datax.tar.gz -C /opt/module/
2、运行自检脚本
进入解压后的bin目录,执行自检脚本,job.json脚本在job目录下
cd /opt/module/datax/bin/
python datax.py /opt/module/datax/job/job.json
自检成功后如下:
二、Datax-Web安装
DataX Web是在DataX之上开发的分布式数据同步工具,提供简单易用的操作界面。
环境要求:
- MySQL (5.5+) 必选,对应客户端可以选装, Linux服务上若安装mysql的客户端可以通过部署脚本快速初始化数据库
- JDK (1.8.0_xxx) 必选
- Maven (3.6.1+) 必选
- DataX 必选
- Python (2.x) (支持Python3需要修改替换datax/bin下面的三个python文件,替换文件在doc/datax-web/datax-python3下) 必选,主要用于调度执行底层DataX的启动脚本,默认的方式是以Java子进程方式执行DataX,用户可以选择以Python方式来做自定义的改造
下载地址:https://pan.baidu.com/s/13yoqhGpD00I82K4lOYtQhg 提取码:cpsk
源码地址:https://github.com/WeiYe-Jing/datax-web
1、解压DataXWeb安装包
tar -zxvf datax-web-2.1.2.tar.gz
将目录更名为datax-web,方便后续操作
mv datax-web-2.1.2 datax-web
2、执行一键安装脚本
进入解压后的目录,找到bin目录下面的install.sh文件,如果选择交互式的安装,则直接执行
cd datax-web
./bin/install.sh
在交互模式下,对各个模块的package压缩包的解压以及configure配置脚本的调用,都会请求用户确 认,可根据提示查看是否安装成功,如果没有安装成功,可以重复尝试; 如果不想使用交互模式,跳过确认过程,则执行以下命令安装 。
./bin/install.sh --force
这里为了简便,就不使用交互式安装,如果服务上安装有mysql命令,在执行安装脚本的过程中则会出现以下提醒:
填写完后完成安装 。
如果服务上并没有安装mysql命令,则可以取用目录下/bin/db/datax-web.sql脚本去手动执行。
完成后修改相关配置文件,主要包括控制器datax-admin/conf/application.yml和执行器datax-executor/conf/application.yml,这里我就不介绍了,后面我会写到源码打包,和那里配置是一样的。
3、启动服务
./bin/start-all.sh
一键取消所有服务
./bin/stop-all.sh
运行项目
访问: http://ip:9527/index.html ,输入用户名 admin 密码 123456访问系统