DataX使用入门

news2025/1/23 5:55:53

DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步功能。

一、datax需要python环境,需要先安装python
打开官网 https://www.python.org/downloads/windows/ 下载中心
在这里插入图片描述
此处下载2.6.5版本安装
安装完成后使用python -V查看是否已安装成功

在这里插入图片描述

二、下载datax
方法一、直接下载DataX工具包:DataX下载地址
http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

下载后解压至本地某个目录,进入bin目录,即可运行同步作业:

$ cd  {YOUR_DATAX_HOME}/bin
$ python datax.py {YOUR_JOB.json}

方法二、下载DataX源码,自己编译:DataX源码
https://github.com/alibaba/DataX

datax的目录结构
在这里插入图片描述
bin目录下是pytho脚本文件,主要用来执行job文件(默认需要依赖Python2的环境,也可以修改为Python3)

conf目录存放一些配置文件

job目录下存放了一个job测试文件(我们通过datax-web生成的临时job文件不会放在这里,而是在data-web里边自己配置存放目录)

lib是依赖的一些jar包

log目录存放job文件的执行日志

plugin目录存放的是对不同数据源读取(Reader)和写入(Writer)的插件支持

如果没有在plugin目录下发现自己需要的Reader或者Writer则需要自己手动安装(比如ES的Reader和Writer)。

使用Datax执行job文件

python datax.py job文件

txt文件传向mysql的Job文件模板如下(Mysql为例):

{
	"job": {
		"content": [{
			"reader": {
				"name": "txtfilereader",
				"parameter": {
					"column": [{
							"index": 0,
							"type": "long"
						},
						{
							"index": 1,
							"type": "string"
						},
						{
							"index": 2,
							"type": "string"
						},
						{
							"index": 3,
							"type": "string"
						},
						{
							"index": 4,
							"type": "string"
						},
						{
							"index": 5,
							"type": "string"
						},
						{
							"index": 6,
							"type": "string"
						},
						{
							"index": 7,
							"type": "string"
						},
						{
							"index": 8,
							"type": "string"
						},
						{
							"index": 9,
							"type": "date",
							"format": "yyyy-MM-dd HH:mm:ss"
						},
						{
							"index": 10,
							"type": "string"
						},
						{
							"index": 11,
							"type": "date",
							"format": "yyyy-MM-dd HH:mm:ss"
						},
						{
							"index": 12,
							"type": "long"
						}
					],
					"encoding": "UTF-8",
					"fieldDelimiter": ",",
					"path": [
						"C:/Users/jxk/Desktop/tst.txt"
					]
				}
			},
			"writer": {
				"name": "mysqlwriter",
				"parameter": {
					"column": [
						"id",
						"project_type",
						"attach_type",
						"attach_name",
						"attach_url",
						"attach_key",
						"attach_hash",
						"attach_size",
						"created_by",
						"created_date",
						"last_updated_by",
						"last_updated_date",
						"version"
					],
					"connection": [{
						"jdbcUrl": "jdbc:mysql://8.68.24.3:3306/testkettle?characterEncoding=utf-8&serverTimezone=Asia/Shanghai",
						"table": [
							"comm_attachment"
						]
					}],
					"password": "274100",
					"preSql": [
						"delete from comm_attachment"
					],
					"session": [

					],
					"username": "root",
					"writeMode": "insert"
				}
			}
		}],
		"setting": {
			"speed": {
				"channel": "5"
			}
		}
	}
}

C:/Users/jxk/Desktop/tst.txt文件内容如下

1,sunnyDay,image/png,ttt.png,http://qyn6nlamm.hd-bkt.clouddn.com/Frv7wnlpCWpjlUq-qWFPrjQdm1A, tst,Frv7wnlpCWpjlUq-qWFPrjQdm1AI,44kb,anonymous,2021-09-16 16:52:38,anonymous,2021-09-16 16:52:38,0
2,sunnyDay,image/png,ttb.png,http://qyn6nlamm.hd-bkt.clouddn.com/Frv7wnlpCWpjlUq-qWFPrjQdm1A, tsb,Frv7wnlpCWpjlUq-qWFPrjQdm1AI,44kb,anonymous,2021-09-16 16:52:38,anonymous,2021-09-16 16:52:38,0

数据库建库脚本如下

CREATE TABLE `comm_attachment` (
  `id` int NOT NULL AUTO_INCREMENT COMMENT '主键',
  `project_type` varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '项目名-说明该附件是属于哪个项目的',
  `attach_type` varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件类型',
  `attach_name` varchar(200) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件名',
  `attach_url` varchar(500) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件下载地址',
  `attach_key` varchar(500) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件key',
  `attach_hash` varchar(500) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件hash',
  `attach_size` varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '附件大小',
  `created_by` varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '创建人',
  `created_date` timestamp NULL DEFAULT NULL COMMENT '创建时间',
  `last_updated_by` varchar(100) COLLATE utf8_unicode_ci DEFAULT NULL COMMENT '最后修改人',
  `last_updated_date` timestamp NULL DEFAULT NULL COMMENT '最后修改时间',
  `version` int DEFAULT NULL COMMENT '乐观锁-版本号',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=3 DEFAULT CHARSET=utf8mb3 COLLATE=utf8_unicode_ci COMMENT='附件表'

python执行语句
在这里插入图片描述

python datax.py C:\Users\jxk\Desktop\abc.json

执行结果:
在这里插入图片描述
在数据库查看数据:
在这里插入图片描述

语句执行过程中可能遇到的问题:
问题描述:在使用Datax插件将数据从hive导入mysql时,发现写入MySQL报错 :Could not retrieve transation read-only status server
匹配数据库和应用中数据库驱动版本(mysql驱动版本不一致) ----
-查看MySQL版本:

mysql> select version();
+------------+
| VERSION()  |
+------------+
| 8.0.16     |
+------------+

-查看Datax插件MySQL驱动版本:

/datax/plugin/writer/mysqlwriter/libs$ ls mysql-connector*
mysql-connector-java-5.1.34.jar

下载对应的MySQL驱动版本:https://static.runoob.com/download/mysql-connector-java-8.0.16.jar

Illegalunsupported escape sequence near index 3
注意json文件中的路径书写
正确解析:

C:/Users/jxk/Desktop/tst.txt

错误写法:

C:\\Users\\jxk\\Desktop\\tst.txt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/168725.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java 日志框架 Log4J

文章目录引言什么是Log4JLog4J三大组件Log4J日志级别Log4J基本使用自定义配置文件Appender示例FileAppenderDailyRollingFileAppenderRollingFileAppenderJDBCAppender自定义Logger引言 Java 日志框架 JUL 在这篇文章中已经向大家介绍了我们为什么要使用日志文件、常见的日志…

张力调节(精密调节气阀应用)

跳舞轮对应张力调节范围,我们可以通过改变气缸的气压方式间接改变,张力跳舞轮在收放卷闭环控制上的详细应用,可以参看下面的文章链接,这里我们主要讨论精密可调气阀的模拟量编程问题。 PLC张力控制(开环闭环算法分析&…

【实践向】当移除了三级缓存……

本文会手把手带你一起把使用二级缓存替换三级缓存,看下移除了三级缓存,只有二级缓存会出什么问题,用实践回答那个被问了无数次的“为什么要有三级缓存?”以及“二级缓存解决不了循环依赖问题吗?”等类似问题(&#xff…

“Flash配置不当漏洞”详解

危害 可被用来进行跨域访问,可能会导致“跨站点伪造请求”或“跨站点跟踪”(“跨站点脚本编制”的变体)之类的攻击,从而导致其它用户的信息被非法读取。 导致不受信任的第三方域的flash也能访问当前域的资源,绕过同源策…

一、构建自己的图像分类数据集(Datawhale组队学习)

文章目录安装配置环境图像采集采集函数爬取一类图片爬取多类图片一些参考类别的关键词制作图像分类数据集的注意事项删除多余文件删除系统自动生成的多余文件删除gif格式的图像文件删除非三通道的图像统计图像尺寸、比例分布采用的数据集统计数据集的基本信息可视化图像尺寸分布…

Embarcadero Dev-C++第一次使用注意事项

Embarcadero Dev-C第一次使用注意事项 Embarcadero Dev-C简介 2000年左右,Bloodshed software开发了Dev-C ,提供轻量、免费、开源的C/CIDE。Dev-C是最适合初学C语言的IDE之一,但至2015年Dev C5.11,停止了更新维护了。 后来&…

springboot,vue电影院售票系统

开发工具:IDEA服务器:Tomcat9.0, jdk1.8项目构建:maven数据库:mysql5.7系统用户前台和管理后台两部分,项目采用前后端分离前端技术:vue elementUI服务端技术:springbootmybatis项目功…

pom文件中自定义的repository不生效

问题描述 对应的pom中依赖获取失败 pom文件依赖配置如下: <dependencies><dependency><groupId>it.geosolutions</groupId><artifactId>geoserver-manager</artifactId><version>1.7.0</version><exclusions><excl…

verilog学习笔记- 15)动态数码管显示实验

目录 简介&#xff1a; 实验任务&#xff1a; 硬件设计&#xff1a; 程序设计&#xff1a; 下载验证&#xff1a; 简介&#xff1a; 由于一般的静态驱动操作虽然方便&#xff0c;但占用的 I/0 口较多&#xff0c;例如要驱动6 位 8 段数码管&#xff0c;以静态驱动方式让数…

值得收藏的30道Python基础练手题(附详解)

今天给大家分享30道Python练习题&#xff0c;建议大家先独立思考一下解题思路&#xff0c;再查看答案。 1. 已知一个字符串为 “hello_world_JMzz”&#xff0c;如何得到一个队列 [“hello”,”world”,”JMzz”] &#xff1f; 使用 split 函数&#xff0c;分割字符串&…

ESP8266 ArduinoIDE 闪存文件操作系统

一、闪存文件系统基本操作 esp8266 的采用 SPIFFS 嵌入式文件系统&#xff0c;在内部 Flash 为 4M&#xff0c;其中 1M 用于存储程序&#xff0c;其他的空间有一部分用于系统&#xff0c;3M 中剩下的大部分空间可以用来存放文件。 其中这个空间大小是可以自定义的&#xff0c;…

【Node.js实战】一文带你开发博客项目之安全(sql注入、xss攻击、md5加密算法)

个人简介 &#x1f440;个人主页&#xff1a; 前端杂货铺 &#x1f64b;‍♂️学习方向&#xff1a; 主攻前端方向&#xff0c;也会涉及到服务端 &#x1f4c3;个人状态&#xff1a; 在校大学生一枚&#xff0c;已拿多个前端 offer&#xff08;秋招&#xff09; &#x1f680;未…

Netty进阶

三. Netty 进阶 1. 粘包与半包 1.1 粘包现象 服务端代码 public class HelloWorldServer {static final Logger log LoggerFactory.getLogger(HelloWorldServer.class);void start() {NioEventLoopGroup boss new NioEventLoopGroup(1);NioEventLoopGroup worker new Ni…

想要全面了解DevOps,从概念、实现相关工具到如何落地,看这篇就够了

我们总是在提DevOps&#xff0c;敏捷管理&#xff0c;但大家未必真的明白什么是DevOps。本文是将向大家介绍到底什么是DevOps&#xff0c;DevOps的初衷到底是为了解决什么问题&#xff1f;它能够如何实现&#xff1f;能够带来哪些价值&#xff1f;来让大家对DevOps有一个全面的…

Vscode++Opencv+Anaconda+Python安装教程

最近在学习opencv的时候vscode一直报这个错&#xff1a; Import “cv2” could not be resolved Pylance (reportMissingImports) 但是在Jupyter上面可以运行&#xff0c;一直没找到解决方法&#xff0c;无奈只好重装。 一&#xff1a;安装AnacondaPython 进入Anaconda官网 w…

计网必会:封装、协议、解封装

文章目录解释什么是封装什么是协议解封装是啥封装过程拓展知识需要了解解释 什么是封装 封装就是给初始的数据增加“数据”&#xff0c;让原始数据的信息量扩大&#xff0c;方便层与层间的交流&#xff0c;所谓封装&#xff0c;就是包装的意思&#xff0c;中文博大精深哈哈哈…

03.指针的进阶2.练习题(重点)

1.指针和数组笔试题解析 //1. sizeof(数组名)&#xff0c;数组名表示整个数组。计算的是整个数组的大小,单位是字节 //2. &数组名&#xff0c;数组名表示整个数组。取出的是整个数组的地址 //除此之外&#xff0c;所有的数组名都是数组首元素的地址 EG1:整型 int main…

爬虫学习笔记

目录一、Python基础知识回顾1、pip下载源2、pycharm设置作者信息3、python注释4、变量4.1 类型转换二、Urllib使用一、Python基础知识回顾 1、pip下载源 pip install python包默认是从 https://files.pythonhosted.org/ 网站&#xff08;国外网站&#xff09;上下载&#xff…

CV【3】:drop_out drop_path

文章目录前言1. drop_out1.1. 出现的原因1.2. 概念1.3. 工作原理1.4. 尺度匹配问题1.5. 有效缓解过拟合的原因1.6. 代码实现2. drop_path2.1. 与 drop_out 的差异2.2. 工作原理2.3. 在网络中的应用2.4. 代码实现前言 本文主要对比了两种正则化方法&#xff1a;drop_out 和 dro…

Javascript 组合模式

组合模式 简介 组合模式将对象组合成树形结构&#xff0c;以表示“部分-整体”的层次结构。除了用来表示树形结构之外&#xff0c;组合模式的另一个好处是通过对象的多态性表现&#xff0c;使得用户对单个对象和组合对象的使用具有一致性 请求在树中传递的过程 在组合模式中&…