如何读取MySQL中的数据存放到HDFS_大数据培训

news2025/1/12 20:59:10

大数据培训读取MySQL中的数据存放到HDFS

1 查看官方模板

[atguigu@hadoop102 ~]$ python /opt/module/datax/bin/datax.py -r mysqlreader -w hdfswriter

{

    “job”: {

        “content”: [

            {

                “reader”: {

                    “name”: “mysqlreader”,

                    “parameter”: {

                        “column”: [],

                        “connection”: [

                            {

                                “jdbcUrl”: [],

                                “table”: []

                            }

                        ],

                        “password”: “”,

                        “username”: “”,

                        “where”: “”

                    }

                },

                “writer”: {

                    “name”: “hdfswriter”,

                    “parameter”: {

                        “column”: [],

                        “compress”: “”,

                        “defaultFS”: “”,

                        “fieldDelimiter”: “”,

                        “fileName”: “”,

                        “fileType”: “”,

                        “path”: “”,

                        “writeMode”: “”

                    }

                }

            }

        ],

        “setting”: {

            “speed”: {

                “channel”: “”

            }

        }

    }

}

mysqlreader参数解析:

hdfswriter参数解析:

大数据培训读取MySQL中的数据存放到HDFS

2 准备数据

1)创建student表

mysql> create database datax;

mysql> use datax;

mysql> create table student(id int,name varchar(20));

2)插入数据

mysql> insert into student values(1001,’zhangsan’),(1002,’lisi’),(1003,’wangwu’);

大数据培训读取MySQL中的数据存放到HDFS

3 编写配置文件

[atguigu@hadoop102 datax]$ vim /opt/module/datax/job/mysql2hdfs.json

{

    “job”: {

        “content”: [

            {

                “reader”: {

                    “name”: “mysqlreader”,

                    “parameter”: {

                        “column”: [

                            “id”,

                            “name”

                        ],

                        “connection”: [

                            {

                                “jdbcUrl”: [

                                    “jdbc:mysql://hadoop102:3306/datax”

                                ],

                                “table”: [

                                    “student”

                                ]

                            }

                        ],

                        “username”: “root”,

                        “password”: “000000”

                    }

                },

                “writer”: {

                    “name”: “hdfswriter”,

                    “parameter”: {

                        “column”: [

                            {

                                “name”: “id”,

                                “type”: “INT”

                            },

                            {

                                “name”: “name”,

                                “type”: “STRING”

                            }

                        ], 

                        “defaultFS”: “hdfs://hadoop102:9000”,

                        “fieldDelimiter”: “\t”,

                        “fileName”: “student.txt”,

                        “fileType”: “text”,

                        “path”: “/”,

                        “writeMode”: “append”

                    }

                }

            }

        ],

        “setting”: {

            “speed”: {

                “channel”: “2”

            }

        }

    }

}

大数据培训读取MySQL中的数据存放到HDFS

4 执行任务

[atguigu@hadoop102 datax]$ bin/datax.py job/mysql2hdfs.json

2019-05-17 16:02:16.581 [job-0] INFO  JobContainer –

任务启动时刻                    : 2019-05-17 16:02:04

任务结束时刻                    : 2019-05-17 16:02:16

任务总计耗时                    :                 12s

任务平均流量                    :                3B/s

记录写入速度                    :              0rec/s

读出记录总数                    :                   3

读写失败总数                    :                   0

5 查看hdfs

注意:HdfsWriter实际执行时会在该文件名后添加随机的后缀作为每个线程写入实际文件名。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/72774.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ROS2初学者2022教程

ROS2初学者2022教程 掌握 ROS2 基础知识并成为机器人操作系统开发人员 – 一步一步 课程英文名:ROS2 For Beginners (ROS Foxy, Humble - 2022) 此视频教程共15.0小时,中英双语字幕,画质清晰无水印,源码附件全 下载地址 课程编…

手机视频如何修改封面?推荐这些修改方法

大家在社交平台上发布视频的时候会发现,一个好看的视频封面可以吸引很多的网友进行浏览和观赏。所以视频封面一直是视频创作者们不可忽略的一部分。那么你们知道手机视频怎么修改封面吗?如果你们想知道的话,那就接着往下看看吧,下…

Java_笔记_多态_包_final_权限修饰符_代码块

封装:对象代表什么,就得封装对应的数据,并提供数据对应的行为。 一、多态:对象的多种形态。同类型的对象,表现出的不同形态。 1.多态的表现形式:父类类型 对象名称 子类对象; 学生形态 对象 Student s …

Java异常(比较全)

前言:想要学好异常,需要了解JVM虚拟机知识,这里涉及面试常问的内存溢出错误解决办法 一、异常是什么? 定义 程序运行过程中,由于某些原因导致程序出错,从而结束程序运行,这就称为异常 java异常…

C++经典题目

目录 P62 3.6 求圆周长面积 P80 3 华氏转摄氏 P80 10 分段函数 P81 21 数列求和 P82 24 打印图形 P229 6 长方体体积 P384 4 printArea 题目来源于C程序设计(第4版) P62 3.6 求圆周长面积 设圆半径r1.5,圆柱高h3,求圆周长…

React生命周期中有哪些坑?如何避免?

在讨论React 的生命周期的时候,一定是在讨论类组件,因为函数组件并没有生命周期的概念,它本身就是一个函数,只会从头执行到尾巴 其实生命周期只是一个抽象的概念,大部分人看到生命周期想到的往往都componentDidMount&…

CMMI2.0配置管理工作及访谈学习笔记

1. 配置管理概述 1.1. 关于配置管理 配置管理是通过技术或其他手段对软件产品及其开发过程和生命周期进行控制、规范的一系列措施,通过配置标识、版本控制、版本管理、基线管理和配置审计来管理工作产品的完整性。 配置管理的主要目的是进行工作产品管理&#xf…

JavaScript -- 12. jQuery

文章目录jQuery1 jQuery简介2 使用jQuery2.1 下载jQuery2.2 引用jQuery3 jQuery的核心函数3.1 作为工具类使用3.2 作为函数使用3.2.1 将一个函数作为$的参数3.2.2 将选择器字符串作为参数3.2.3 将DOM对象作为参数3.2.4 将html代码作为参数4 jQuery对象4.1 获取DOM对象4.2 隐式迭…

Python——基础知识

前面主要讲解了javaEE的基础知识,基本上可以用servlet写一些简单的网页程序,后续的博客将围绕spring进行讲解,并且其中穿插一些python的知识 变量 命名 和其他的编程语言一样,java的变量命名需要遵循下面几个原则 由数字&…

世界杯竞猜项目Dapp-第二章(hardhat部署合约)

创建 hardhat 项目 # 创建 npm 空项目 npm init # 安装 npm install --save-dev hardhat2.11.1 # 创建工程 npx hardhat -> 选择高级ts项目运行测试 # 编译合约 npx hardhat compile # 单元测试 npx hardhat test添加合约 将 Worldcup.sol(上节编写的合约&am…

【Flink】自定义keyBy的KeySelector

我们通常在写Flink程序的时候都会遇到keyBy,比如按照某条数据的某个字段进行分类计算,或者计算pv,还有需要用到Flink定时器的高级功能。 下面我们根据keyby的源码,看下keyBy的用法(本博客基于Flink1.13) 源码有5种方式定义keyBy, 但是其中的2种已经不用了,如果用户想…

PC的ARM的安全启动

其实还是很不习惯将PC和ARM联系起来,当然主要是因为我刚刚接触嵌入式没有多久,更别说服务器、PC端了。 脑子里固化了的X86。 于是这一篇学习一下,基于ARM的PC,是怎么利用这个ATF框架,进行安全启动的。 文章内容来自…

9个做好动效设计的好方法

动态效果意味着充满生命和兴奋,为静态事物增添生命。然而,在软件方面,动态效果不仅是为了获得乐趣,也是为了解决问题。 作为人类,我们习惯于看到世界在我们周围移动。如果任何软件有连贯的动画,它都会感到…

【Python游戏】Python基于第三方库pygame实现一个魂斗罗小游戏,毕业设计必备 | 附源码

前言 halo,包子们下午好 今天给打击整一个魂斗罗小游戏 很多小伙伴接触魂斗罗应该是在小时候的一个手柄游戏上面吧 我记得作为90后的我,玩这一款游戏是在小学的时候 废话不多说,直接上才艺 今天给大家直接安排 相关文件 关注小编&#xff…

30分钟了解linux操作系统内核总结

【推荐阅读】 概述Linux内核驱动之GPIO子系统API接口 一篇长文叙述Linux内核虚拟地址空间的基本概括 轻松学会linux下查看内存频率,内核函数,cpu频率 纯干货,linux内存管理——内存管理架构(建议收藏) Linux 内核性能优化的全景指南&#xff…

中学语文杂志中学语文杂志社中学语文编辑部2022年第30期目录

理论_视点《中学语文》投稿:cn7kantougao163.com 追求服务于学的“智慧语文”教育 陈维贤; 3-5 教学_阅读教学 高中古诗词群文阅读教学特点新探 张红娟; 6-8 导读需导思 领读方领悟 罗艳兰; 9-10 学习任务群背景下的群文阅读教学研究 丁雪云; 11-12…

守门员VS软件测试

虽然刚刚为世界杯贡献了点彩票钱,但我依然热爱着足球这项赛事。最近熬夜看球,突然发现我们软件开发团队里,守门员这个职位就像我们公司的那个测试倒霉蛋儿一样。 1、球队配比VS开发团队人员配比 △ 不管你的球队是443,还是552&am…

如何自定义SpringBoot中的starter,并且使用它

目录 1 简介 2 规范 2.1 命名 2.2 模块划分 3 示例 1 简介 SpringBoot中的starter是一种非常重要的机制,能够抛弃以前繁琐的配置,将其统一集成进starter,应用者只需要在maven中引入starter依赖,SpringBoot就自动扫描到要加载…

PyTorch笔记 - A ConvNet for the 2020s (ConvNeXt) 网络

欢迎关注我的CSDN:https://blog.csdn.net/caroline_wendy 本文地址:https://blog.csdn.net/caroline_wendy/article/details/128236899 Paper:A ConvNet for the 2020s,FAIR,Berkeley Code:https://github.com/facebookresearch/ConvNeXt 网络结构: stem layer:骨干层…

【k8s宝典】2022年12月份Kubernetes 认证管理员CKA轻松通过攻坚克难技巧

目标:攻克三大难点 提示:本人是12月近期通过的cka考试,所以总结的技巧是当前最新的,后面如果有稍许变化,这些技巧照样适用,题目请以实际为主 复制键不能用怎么办? 新版考试系统使用Ctrl c不…