异构数据的采集,方案还是比较多样,除了基于大数据平台的一些集成;简单的数据源,可以直接使用阿里开源的datax来实现;datax-web则是datax界面化操作的开源框架,集成了datax异构数据采集和任务调度的功能。关于datax的一些详细介绍大家可以上官方git上看看,这里主要介绍Datax的安装以及datax-web的安装及使用。
基础软件环境:
1、JDK1.8
2、Mysql5.5+
3、Datax
4、Python(本文使用默认2.x)
5、Maven(datax-web如果直接使用git上面下的源码需要编译,本文使用官方提供免编译版tar包,可以不需要maven)
一、datax安装
1、下载datax
# wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
2、直接解压安装到指定目录
# tar -zxvfdatax.tar.gz -C /opt/
3、调试验证
进入相应目录
# cd /opt/datax/bin
# python datax.py../job/job.json
# 这里有reader和writer会显示报错,需要执行删除相应的文件即可(文件没看见,但还是执行一下)
# rm -rf/opt/datax/plugin/reader/._*
接着执行:
# python datax.py../job/job.json
报错后再删除writer的相应目录
# rm -rf/opt/datax/plugin/writer/._*
最后再执行datax验证任务就能成功
# python datax.py../job/job.json
出现以下信息说明datax安装成功
二、datax-web安装配置
1、下载免编译包(在git地址上)
#https://github.com/WeiYe-Jing/datax-web/blob/master/doc/datax-web/datax-web-deploy.md
2、解压到指定目录
# tar -zxfdatax-web-2.1.2.tar.gz -C /opt/
3、进入目录执行安装
# cd /opt/datax-web-2.1.2/bin
# sh install.sh
(一直Y确认,出现以下信息,安装完成)
4、初始化数据库并且配置数据库信息
在客户端或者数据库命令行执行以下相应脚本(可以通过source导入)
# /opt/datax-web-2.1.2/bin/db/datax_web.sql
修改数据库配置文件(与上面执行初始化脚本一致)
# vim /opt/datax-web-2.1.2/modules/datax-admin/conf/bootstrap.properties
5、其他配置
邮件服务配置:
# /opt/datax-web-2.1.2/modules/datax-admin/bin/env.properties
Python执行脚本配置:
# /opt/datax-web-2.1.2/modules/datax-executor/bin/env.properties
配置datax.py运行脚本;
或者修改配置改成绝对路径:
#/opt/datax-web-2.1.2/modules/datax-executor/bin/datax-executor.sh
否则运行脚本的时候会报错:
# 运行报错“/usr/bin/python: can't find'__main__' module in ''” _
6、启动 (出现一下两个进程则启动成功)
# cd /opt/datax-web-2.1.2/bin
# sh start-all.sh
7、登录(admin/123456)
# http://host:9527/index.html
至此,datax及datax-web安装配置完成。这是在同一台机器上的安装,如果任务比较多,则datax需要集群化部署。
===================== datax集群化部署==============================
三、datax集群部署(添加datax-executor节点)
新添加的executor节点,需要安装datax,datax-web(只启动datax-executor即可)
1、解压安装到指定目录
2、bin同级创建modules目录(没有的话创建)
解压datax-executor到modules下
# tar -zxfdatax-executor_2.1.2_1.tar.gz -C ../modules/
3、修改$datax-executor/bin/env.properties执行脚本路径
# vim /opt/datax-web-2.1.2/modules/datax-executor/bin/env.properties
4、修改$datax-executor/conf/ application.yml 指定web地址(这里address指定之前的web地址即可)
# vim /opt/datax-web-2.1.2/modules/datax-executor/conf/ application.yml
5、启动executor
如果没有自动注册,需要手工添加执行器即可(一般没有出错的化都能自动注册上)
到这里,datax完成集群部署,在使用集群executor的时候会根据配置的策略进行多节点运作。