DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步功能。
一、datax需要python环境,需要先安装python
打开官网 https://www.python.org/downloads/windows/ 下载中心
此处下载2.6.5版本安装
安装完成后使用python -V查看是否已安装成功
二、下载datax
方法一、直接下载DataX工具包:DataX下载地址
http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
下载后解压至本地某个目录,进入bin目录,即可运行同步作业:
$ cd {YOUR_DATAX_HOME}/bin
$ python datax.py {YOUR_JOB.json}
方法二、下载DataX源码,自己编译:DataX源码
https://github.com/alibaba/DataX
datax的目录结构
bin目录下是pytho脚本文件,主要用来执行job文件(默认需要依赖Python2的环境,也可以修改为Python3)
conf目录存放一些配置文件
job目录下存放了一个job测试文件(我们通过datax-web生成的临时job文件不会放在这里,而是在data-web里边自己配置存放目录)
lib是依赖的一些jar包
log目录存放job文件的执行日志
plugin目录存放的是对不同数据源读取(Reader)和写入(Writer)的插件支持
如果没有在plugin目录下发现自己需要的Reader或者Writer则需要自己手动安装(比如ES的Reader和Writer)。
使用Datax执行job文件
python datax.py job文件
txt文件传向mysql的Job文件模板如下(Mysql为例):
{
"job": {
"content": [{
"reader": {
"name": "txtfilereader",
"parameter": {
"column": [{
"index": 0,
"type": "long"
},
{
"index": 1,
"type": "string"
},
{
"index": 2,
"type": "string"
},
{
"index": 3,
"type": "string"
},
{
"index": 4,
"type": "string"
},
{
"index": 5,
"type": "string"
},
{
"index": 6,
"type": "string"
},
{
"index": 7,
"type": "string"
},
{
"index": 8,
"type": "string"
},
{
"index": 9,
"type": "date",
"format": "yyyy-MM-dd HH:mm:ss"
},
{
"index": 10,
"type": "string"
},
{
"index": 11,
"type": "date",
"format": "yyyy-MM-dd HH:mm:ss"
},
{
"index": 12,
"type": "long"
}
],
"encoding": "UTF-8",
"fieldDelimiter": ",",
"path": [
"C:/Users/jxk/Desktop/tst.txt"
]
}
},
"writer": {
"name": "mysqlwriter",
"parameter": {
"column": [
"id",
"project_type",
"attach_type",
"attach_name",
"attach_url",
"attach_key",
"attach_hash",
"attach_size",
"created_by",
"created_date",
"last_updated_by",
"last_updated_date",
"version"
],
"connection": [{
"jdbcUrl": "jdbc:mysql://8.68.24.3:3306/testkettle?characterEncoding=utf-8&serverTimezone=Asia/Shanghai",
"table": [
"comm_attachment"
]
}],
"password": "274100",
"preSql": [
"delete from comm_attachment"
],
"session": [
],
"username": "root",
"writeMode": "insert"
}
}
}],
"setting": {
"speed": {
"channel": "5"
}
}
}
}
C:/Users/jxk/Desktop/tst.txt文件内容如下
1,sunnyDay,image/png,ttt.png,http://qyn6nlamm.hd-bkt.clouddn.com/Frv7wnlpCWpjlUq-qWFPrjQdm1A, tst,Frv7wnlpCWpjlUq-qWFPrjQdm1AI,44kb,anonymous,2021-09-16 16:52:38,anonymous,2021-09-16 16:52:38,0
2,sunnyDay,image/png,ttb.png,http://qyn6nlamm.hd-bkt.clouddn.com/Frv7wnlpCWpjlUq-qWFPrjQdm1A, tsb,Frv7wnlpCWpjlUq-qWFPrjQdm1AI,44kb,anonymous,2021-09-16 16:52:38,anonymous,2021-09-16 16:52:38,0
数据库建库脚本如下
CREATE TABLE `comm_attachment` (
`id` int NOT NULL AUTO_INCREMENT COMMENT '主键',
`project_type` varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '项目名-说明该附件是属于哪个项目的',
`attach_type` varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件类型',
`attach_name` varchar(200) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件名',
`attach_url` varchar(500) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件下载地址',
`attach_key` varchar(500) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件key',
`attach_hash` varchar(500) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件hash',
`attach_size` varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件大小',
`created_by` varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '创建人',
`created_date` timestamp NULL DEFAULT NULL COMMENT '创建时间',
`last_updated_by` varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '最后修改人',
`last_updated_date` timestamp NULL DEFAULT NULL COMMENT '最后修改时间',
`version` int DEFAULT NULL COMMENT '乐观锁-版本号',
PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=3 DEFAULT CHARSET=utf8mb3 COLLATE=utf8_unicode_ci COMMENT='附件表'
python执行语句
python datax.py C:\Users\jxk\Desktop\abc.json
执行结果:
在数据库查看数据:
语句执行过程中可能遇到的问题:
问题描述:在使用Datax插件将数据从hive导入mysql时,发现写入MySQL报错 :Could not retrieve transation read-only status server
匹配数据库和应用中数据库驱动版本(mysql驱动版本不一致) ----
-查看MySQL版本:
mysql> select version();
+------------+
| VERSION() |
+------------+
| 8.0.16 |
+------------+
-查看Datax插件MySQL驱动版本:
/datax/plugin/writer/mysqlwriter/libs$ ls mysql-connector*
mysql-connector-java-5.1.34.jar
下载对应的MySQL驱动版本:https://static.runoob.com/download/mysql-connector-java-8.0.16.jar
Illegalunsupported escape sequence near index 3
注意json文件中的路径书写
正确解析:
C:/Users/jxk/Desktop/tst.txt
错误写法:
C:\\Users\\jxk\\Desktop\\tst.txt