linux上datax 安装以及使用

news2024/9/20 9:45:27

前言

DataX 是一款由阿里巴巴开源的数据同步工具,旨在帮助用户实现不同数据源之间的高效数据迁移和同步。无论是从传统的关系型数据库、NoSQL 数据库,还是到大数据存储系统,DataX 都能够轻松应对各种数据同步需求。通过简单的配置和灵活的插件机制,用户可以快速构建数据同步任务,实现数据的可靠传输和处理。DataX 的设计理念注重性能和可扩展性,同时保证数据同步过程的稳定性和数据一致性。

安装部署

安装部署主要有两种方式

  • 源码构建 (java环境(git jdk maven等))

    # git clone 源码下载  
    # 或者 通过DataX项目的release 页面下载最新的源码包 https://github.com/alibaba/DataX/releases
    git clone git@github.com:alibaba/DataX.git
    # 推荐jdk版本为1.8 jdk 版本大于16 是需要改动下源码 
    # 将项目中的引入到Record 的类 手动添加导包路径  不然可能被识别为jdk里的Record
    # import com.alibaba.datax.common.element.Record;
    # maven构建
    mvn -U clean package assembly:assembly -Dmaven.test.skip=true 
    # 打包成功后的DataX包位于 target/datax/datax/
    # {DataX_source_code_home}/target/datax/datax/ ,结构如下:
    
    

    在这里插入图片描述

  • 直接下载工具包 链接 https://datax-opensource.oss-cn-hangzhou.aliyuncs.com/202309/datax.tar.gz

第二种 下载完成需要进行解压

tar -zxvf ./datax.tar.gz

使用

使用过程也比较简单

  • 编写job
  • 启动job执行
    # 需要python环境  我这里是 python3 命令
    python3 ./bin/datax.py ./job/job.json
    

例如说 我想从一个mysql 同步单张表的数据到另一个mysql中 那我可以编写如下job配置

{
    "job": {
        "setting": {
            "speed": {
                "channel": 1
            },
            "errorLimit": {
                "record": 0,
                "percentage": 0.02
            }
        },
        "content": [
            {
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "username": "数据库连接账号",
                        "password": "数据库连接密码",
                        "splitPk": "id",
                        "column":["需要同步的列数据 多个列 ,分割"],
                        "connection": [
                            {
                                "table": [
                                    "待同步的表名"
                                ],
                                "jdbcUrl": [
                                    "jdbc:mysql://数据库连接地址:3306/数据库名称?characterEncoding=utf8&useSSL=false"
                                ]
                            }
                        ]
                    }
                },
                "writer": {
                    "name": "mysqlwriter",
                    "parameter": {
                        "writeMode": "insert",
                        "username": "写入的数据库账号",
                        "password": "写入数据库密码",
                        "column":["写的数据表列明 多个,分割"],
                        "preSql": [
                            "前置执行语句例如先删除写入数据库的表数据 从头导入 delete from us_login_log"
                        ],
                        "connection": [
                            {
                                "jdbcUrl": "jdbc:mysql://数据库连接得治:3306/数据库名称?characterEncoding=utf8&useSSL=false",
                                "table": [
                                     "同步的表名"
                                ]
                            }
                        ]
                    }
                }
            }
        ]
    }
}

执行job

python3 ./bin/datax.py ./job/job.json

同步的过程中可以看到 传输的速度 以及条数
在这里插入图片描述
gc 日志

在这里插入图片描述

迁移完成

在这里插入图片描述

问题

启动job时 遇到 mac上datax启动 报错 配置信息错误,您提供的配置文件[/xx/datax/plugin/reader/.DS_Store/plugin.json]不存在

参数文章: https://blog.csdn.net/a15835774652/article/details/141398721


good day !!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2070460.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【解压即玩】最终幻想7 重制版中文+预购特典+全DLC,难忘的一作

数年前,一家名为神罗的公司(起初称为神罗工程所)发现了一种深埋于地底的神秘生物遗骸(被称为杰诺瓦)以及一种名为“魔晄”的能源。这家公司通过将这种生物遗骸浸泡在魔晄中来生产电力,从而迅速崛起成为全球…

一套在线工具管理服务器+DB+Redis+Mongo等

Team IDE是一个基于Web的、集成了多种开发工具和服务(MySql、Oracle、金仓、达梦、神通等数据库、SSH、FTP、Redis、Zookeeper、Kafka、Elasticsearch、Mongodb)的一体化开发环境,它不仅为开发者提供了便捷的开发体验,还支持团队协…

【文本 >>> 语音】⭐️SpringBoot 结合 jacob 简单实现一个文本朗读功能

目录 🍸前言 🍻一、环境准备 🍺二、依赖引入 💞️三、简单启动 🍹四、接口改造 4.1 封装为一个工具类 4.2 暴露一个接口 4.3 测试 🌱五、扩展 🍸前言 小伙伴们大家好,上次…

初学Python如何快速入门(内附详细攻略),一文讲清

目前python可以说是一门非常火爆的编程语言,应用范围也非常的广泛,工资也挺高,未来发展也极好。 Python究竟应该怎么学呢,我自己最初也是从零基础开始学习Python的,给大家分享Python的学习思路和方法。一味的买书看书…

AI指挥细胞大变身,脑瘤生存率跃升75%?

“ 胶质母细胞瘤(GBM),一种凶险的脑癌,曾让无数家庭陷入绝望。然而南加州大学凯克医学院的一项突破性研究,利用AI技术将脑癌细胞转化为免疫细胞,为GBM患者带来了前所未有的生存希望。 ” AI识别与重编程…

Windows系统注册表

一、修改文件图标 电脑程序怎么更换python文件的图标_mob64ca12d12b68的技术博客_51CTO博客 二、 1.打开注册的命令: 按winR快捷键,在弹出的窗口中输入:regedit 2.注册表样式 已学习至:0:47:32 课堂链…

OpenAI Sora:视频生成领域的创新力量

一、Sora 的诞生与技术原理 Sora 模型由 OpenAI 推出,其诞生背景与人工智能技术在多模态领域的不断探索和发展紧密相关。在视频数据日益丰富和重要的时代,对视频生成模型的需求愈发迫切,Sora 应运而生。 Sora 独特的技术原理使其在众多模型…

验证码短信怎么实现Java接口对接

在当今数字化时代,商家和企业对于用户身份验证的需求日益增强,这不仅是出于保护用户数据安稳的考虑,也是维护业务正常运营、防止欺诈行为的重要一环。在众多身份验证手段中,文字验证码短信因其便捷性和低成本特性,成为…

面向对象03:创建对象内存分析

本节内容视频链接:面向对象06:创建对象内存分析_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV12J41137hu?p65&vd_sourceb5775c3a4ea16a5306db9c7c1c1486b5 创建对象时的内存分析涉及到理解对象如何在内存中分配和管理。‌这个过程在…

Python酷库之旅-第三方库Pandas(096)

目录 一、用法精讲 411、pandas.DataFrame.values属性 411-1、语法 411-2、参数 411-3、功能 411-4、返回值 411-5、说明 411-6、用法 411-6-1、数据准备 411-6-2、代码示例 411-6-3、结果输出 412、pandas.DataFrame.axes属性 412-1、语法 412-2、参数 412-3、…

2024年【山东省安全员B证】最新解析及山东省安全员B证找解析

题库来源:安全生产模拟考试一点通公众号小程序 2024年山东省安全员B证最新解析为正在备考山东省安全员B证操作证的学员准备的理论考试专题,每个月更新的山东省安全员B证找解析祝您顺利通过山东省安全员B证考试。 1、【多选题】《建设工程安全生产管理条…

dompdf导出pdf中文乱码显示问号?、换行问题、设置图片大小

环境:PHP 8.0 框架:ThinkPHP 8 软件包:phpoffice/phpword 、dompdf/dompdf 看了很多教程(包括GitHub的issue、stackoverflow)都没有解决、最终找到解决问题的根本! 背景:用Word模板做转PDF…

ES6笔记总结(Xmind格式):第四天

Xmind鸟瞰图: 简单文字总结: node的模块化: 1.CommonJS 规范:Node.js 遵循 CommonJS 模块规范,该规范定义了如何在服务器环境中实现模块化,包括如何定义模块、如何引入和使用模块。 2.模块的定义&…

百度文心一言API批量多线程【改写伪原创文章软件】-key免费无限写

百度文心大模型的两款主力模型ENIRE Speed、ENIRE Lite全面免费,即刻生效。 百度文心大模型的两款主力模型 这意味着,大模型已进入免费时代! 据了解,这两款大模型发布于今年 3 月,支持 8K 和 128k 上下文长度。 ER…

[MRCTF2020]Hello_ misc

解压得一个png图片和一个flag.rar 图片拖入010editor 选择带zip头的这段蓝色全部复制,file-new-new Hex File,黏贴到新文件,另存为为1.zip 要密码,线索中断(当然try to restore it.png,隐藏了zip压缩包,可…

git提交本地项目到远程仓库

1、查看项目目录,是否存在.git文件夹(若存在则删除) 2、登录git并新建一个空白项目 3、idea创建本地git仓库(选择本地项目) 4、添加要提交的项目(项目右键) 5、提交代码到本地仓库 6、配置远程…

代码随想录算法训练营第十一天| 150. 逆波兰表达式求值 239. 滑动窗口最大值 347.前 K 个高频元素

目录 一、LeetCode 150. 逆波兰表达式求值思路:C代码 二、LeetCode 239. 滑动窗口最大值思路C代码 三、LeetCode 347.前 K 个高频元素思路C代码 总结 一、LeetCode 150. 逆波兰表达式求值 题目链接:LeetCode 150. 逆波兰表达式求值 文章讲解&#xff1a…

D - Pedometer AtCoder Beginner Contest 367

题意: 一个长度为n的数组a首尾相接&#xff0c;求满足a[i]~a[j]的和是m的倍数的[i,j]对数 思路&#xff1a; 由于首位相接&#xff0c;那么区间i-->j的所有数有两种情况&#xff1a;第一种是i<j的情况&#xff0c;第二种是i>j的情况 为了简化处理&#xff0c;我们可…

信息学奥赛初赛天天练-74-NOIP2016普及组-基础题5-树、父节点、根节点、叶子节点、非叶节点、组合、组合排除法

NOIP 2016 普及组 基础题5 21 从一个 44的棋盘&#xff08;不可旋转&#xff09;中选取不在同一行也不在同一列上的两个方格&#xff0c;共有( )种方法。 22 约定二叉树的根节点高度为 1。一棵结点数为 2016 的二叉树最少有( )个叶子结点&#xff1b;一棵结点数为 2016 的二叉…