DataX(DataX简介、部署、同步数据)

news2025/3/1 16:50:32

DataX(DataX简介、部署、同步数据)

☀快乐无限 法力无边

目录

DataX(DataX简介、部署、同步数据)

1.DataX简介

1)数据采集模块:

2)数据写入模块:

2.DataX部署

1)DataX下载解压

2)自检 执行以下命令

3)自检报错

4)解决方法

3.hbase2mysql

4.MySQL2Hbase

5.Mysql2Phoenix

6.HDFS2Hbase

1.DataX简介

DataX 是一种用于大数据场景下的数据同步工具,主要用于数据迁移、数据同步等场景。它是阿里巴巴开发的一款开源数据同步工具,支持各种数据源之间的数据同步任务,包括但不限于关系型数据库、NoSQL 数据库、HDFS、Hive 等。DataX 主要包含两部分:

1)数据采集模块:

负责从不同的数据源中读取数据,并将数据传输给下游处理模块。支持的数据源包括 MySQL、Oracle、SQL Server、PostgreSQL、HDFS、Hive 等。

2)数据写入模块:

负责将采集到的数据写入到目标数据源中。同样支持多种目标数据源,包括 MySQL、Oracle、HDFS、Hive 等。

DataX 的设计理念是高效、易用、可扩展。它采用了插件化的设计思路,可以通过配置文件的方式实现各种数据源之间的数据同步任务,并且可以根据实际需求扩展新的数据源和数据处理功能。DataX 提供了丰富的插件库,用户可以根据自己的需求选择合适的插件来完成数据同步任务。

总的来说,DataX 是一个功能强大、灵活性高的数据同步工具,适用于各种大数据场景下的数据同步需求。

2.DataX部署

1)DataX下载解压

下载地址:

http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

解压datax.tar.gz到/usr/local/soft/

2)自检 执行以下命令

python /usr/local/soft/datax/bin/datax.py /usr/local/soft/datax/job/job.json

3)自检报错

当我们执行上面的自检命令时 可能会出现以下报错信息

DataX (DATAX-OPENSOURCE-3.0), From Alibaba !
Copyright (C) 2010-2017, Alibaba Group. All Rights Reserved.


2024-06-06 08:53:29.406 [main] WARN  ConfigParser - 插件[streamreader,streamwriter]加载失败,1s后重试... Exception:Code:[Common-00], Describe:[您提供的配置文件存在错误信息,请检查您的作业配置 .] - 配置信息错误,您提供的配置文件[/usr/local/soft/datax/plugin/reader/._drdsreader/plugin.json]不存在. 请检查您的配置文件.
2024-06-06 08:53:30.410 [main] ERROR Engine -

经DataX智能分析,该任务最可能的错误原因是:
com.alibaba.datax.common.exception.DataXException: Code:[Common-00], Describe:[您提供的配置文件存在错误信息,请检查您的作业配置 .] - 配置信息错误,您提供的配置文件[/usr/local/soft/datax/plugin/reader/._drdsreader/plugin.json]不存在. 请检查您的配置文件.
        at com.alibaba.datax.common.exception.DataXException.asDataXException(DataXException.java:26)
        at com.alibaba.datax.common.util.Configuration.from(Configuration.java:95)
        at com.alibaba.datax.core.util.ConfigParser.parseOnePluginConfig(ConfigParser.java:153)
        at com.alibaba.datax.core.util.ConfigParser.parsePluginConfig(ConfigParser.java:125)
        at com.alibaba.datax.core.util.ConfigParser.parse(ConfigParser.java:63)
        at com.alibaba.datax.core.Engine.entry(Engine.java:137)
        at com.alibaba.datax.core.Engine.main(Engine.java:204)

4)解决方法

删除plugin目录下的reader文件夹和writer文件夹下的 ._xxx 文件

再次执行自检命令

python /usr/local/soft/datax/bin/datax.py /usr/local/soft/datax/job/job.json

自检成功

3.hbase2mysql

4.MySQL2Hbase

5.Mysql2Phoenix

6.HDFS2Hbase

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1814594.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《AI企业级知识库》-rasa爆改中文版本-实战!

阿丹: 之前有同学反应分享的东西有点概念化,表示不看着代码无法更深刻能理解。那么今天直接上代码!!! 有两种方式使用自己训练好的nlu 1、rasa与nul分开启动,就是在rasa中的配置中配置好目标对应的nlu的服…

语法04 C++ 标准输入语句

标准输入 使用格式:cin >> 输入的意思就是把一个值放到变量里面去,也就是变量的赋值,这个值是由我们自己输入的。 (注意:输入变量前要先定义,输入完之后要按Enter键。) 输入多个变量,与输出类似,…

全球知名哲学家思想家教育家颜廷利:清明节的教育意义

在21世纪全球公认十大思想家的行列中,颜廷利大师以其独到的见解和深刻的哲学思考而备受推崇。随着清明节的临近,人们纷纷前往先人的墓地进行祭奠,其中烧纸钱是一项重要仪式。然而,亚洲十大顶级杰出人物、当代易学泰斗三大人物颜廷…

Python 围棋游戏【含Python源码 MX_008期】

简介: 围棋,源自中国,是一种两人对弈的策略棋类游戏。它被认为是世界上最复杂的棋类游戏之一,因为它的规则简单,但变化复杂多样。围棋的游戏目标是在棋盘上占领更多的地盘,并用自己的棋子围住对手的棋子&am…

禁用PS/Photoshop等一系列Adobe旗下软件联网外传用户数据操作

方案一: 下载火绒杀毒,在联网请求上禁用Adobe软件的联网请求,甚至还可以额外发现哪些是它要想要偷偷摸摸干的。 方案二: 最后注意: 用盗版软件只是获得了使用权!

Mcgs 屏幕Modbus RTU通讯调试

目录 1. 设备窗口1.1 添加设备构件1.2 设备配置1.2.1 通用串口父设备配置1.2.2 设备0--ModbusRTU配置2. 设计用户窗口2.1 关联设备通道与实时数据库2.3 用户窗口3. 通信测试本文想要实现通过Modbus协议与Mcgs屏幕进行通信收发数据。在使用Mcgs屏幕进行Modbus通信时,一般Mcgs屏…

个股期权103call是什么意思?

个股期权103call是什么意思? 在金融市场中,个股期权作为一种金融衍生工具,为投资者提供了多样化的投资策略。其中,“103call”这一术语,特指一种特定的期权交易策略,它涉及到看涨期权与虚值状态。 文章来…

ROS——publisher、subscriber的实现

发布、订阅关系架构 创建发布者代码 通过CMakeList设置代码编译规则 add_executable(velocity_publisher src/velocity_publisher.cpp)target_link_libraries(velocity_publisher ${catkin_LIBRARIES}) Velocity Velocity这个词有多重含义,具体意思根据上下文有所…

eNSP学习——配置高级的访问控制列表

目录 主要命令 原理概述 实验目的 实验内容 实验拓扑 实验编址 实验步骤 1、基本配置 2、搭建OSPF网络 3、配置Telnet 4、配置高级ACL控制访问 需要eNSP各种配置命令的点击链接自取:华为eNSP各种设备配置命令大全PDF版_ensp配置命令大全资源-…

有哪些ai聊天推荐?简单分享三款

有哪些ai聊天推荐?在当今数字化时代,人工智能(AI)聊天软件已经成为我们日常生活中不可或缺的一部分。无论是与朋友、家人还是同事交流,这些智能聊天软件都能为我们提供极大的便利。那么,市面上有哪些值得推…

ghost备份系统/恢复系统

准备工作 准备一个微PE镜像或者一个微PE启动U盘 操作步骤 我们这里用虚拟机(win10)进行模拟。首先进入到镜像微PE中(微PE镜像制作请参考微PE工具箱制作成ISO镜像-CSDN博客) 进入微PE 我们先进行微PE镜像的挂载。先右键虚拟机…

Leetcode 刷题第三天|链表

链表理论 什么是链表 链表是一种通过指针串联在一起的线性结构,每个节点有两个部分组成: 数据域和指针域。最后一个节点的指针域指向null 链表的入口节点为链表的头结点也就是head。 链表的类型 单链表 如上图就是单链表 双链表 单链表的指针域只…

【个人博客搭建】(22)申请QQ开发者

这里我们要引入的一个概念是OAuth - OAuth 2.0是一个行业标准的授权协议,用于处理用户数据访问和分享的安全问题。它允许用户将他们对某些服务的访问权限授权给第三方应用,而无需分享他们的用户名和密码。以下是对OAuth 2.0的介绍: 基本概念 …

2024年数据中心能源十大趋势白皮书(免费下载)

数据中心能源是确保数据中心正常运行的关键组成部分,涉及为数据中心提供电、水、油、气等多种能源的相关设备。以下是关于数据中心能源的详细概述: 一、数据中心能源的重要性 数据中心作为信息存储、处理和传输的核心设施,对能源的需求极高…

基于深度学习的电池健康状态预测(Python)

电池的故障预测和健康管理PHM是为了保障设备或系统的稳定运行,提供参考的电池健康管理信息,从而提醒决策者及时更换电源设备。不难发现,PHM的核心问题就是确定电池的健康状态,并预测电池剩余使用寿命。但是锂电池的退化过程影响因…

Golang——gRPC认证

一. OpenSSL 1.1 介绍 OpenSSL是一个开放源代码的软件库包,用于支持网络通讯过程中的加密。这个库提供的功能包含了SSL和TLS协议的实现,并可用于生成密钥、证书、进行密码运算等。 其组成主要包括一下三个组件: openssl:多用途的命…

智能售货机的成功关键点

智能售货机的成功关键点 智能售货机的盈利水平是众多投资者关注的焦点。尽管常有人认为该行业利润丰厚,但实际上,智能售货机的利润率通常维持在一个相对适中的范围,大约在5%至15%之间。这一数据背后,涵盖了包括物流配送、日常运维…

Java---BigInteger和BigDecimal和枚举

1.简介 1.BigInteger可以支持任意长度的整数 2.BigDecimal可以支持任意精度的浮点数 3.用来做精确计算 2.创建方式 new BigInteger(); new BigInteger(参数1,进制):可以将不同进制转成10进制显示 new BigDecimal(); BigInteger.valueOf(); BigDecimal.valueOf();…

transformers之text generation解码策略

目录 参数TemperatureTop-p and Top-k1. 选择最上面的token:贪婪解码2. 从最上面的tokens中选择:top-k3. 从概率加起来为15%的top token中选择:top-pFrequency and Presence Penaltiestransformers库中的解码策略贪婪搜索对比搜索多项式采样beam搜索解码beam搜索多项式采样多样…

中国大模型站起来了!甚至被美国团队反向抄袭

一直以来,美国是公认的AI领域强者,我国AI技术虽然差不多,但始终落人一步。然而,近日斯坦福团队的AI模型却被指控抄袭中国AI模型,这下许多人都坐不住了。 被实锤抄袭的,是斯坦福大学AI团队,他们…