简单了解Sqoop

news2025/1/10 3:02:49

文章目录

  • 概述
  • 数据导入
    • MySQL到HDFS
    • MySQL到Hive
    • 增量数据导入
  • 数据导出


概述

sqoop是一款开源工具,主要运用在Hadoop(Hive)与传统的数据库(mysql\postgresql等)间进行数据的传递;
它最早是作为hadoop的一个第三方模块存在,后来为了让使用者能快速部署以及迭代开发,最后独立成为Apache项目;
依赖于hadoop,数据并行写入;

传递类型分为两种:
1)import——MySQL导入到HDFS中;
2)export——将HDFS的数据导出到关系型数据库中;

在这里插入图片描述

我们可以将导入或导命令翻译成MapReduce程序来实现,并且不需要reducetask,在其中主要针对inputformat和outformat进行定制。

数据导入

在这里插入图片描述

  • sqoop会通过jdbc来获取需要的数据库的元数据信息,例如:导入的表的列名,数据类型。
  • 这些数据库的数据类型会被映射成为java的数据类型,根据这些信息,sqoop会生成一个与表名相同的类用来完成序列化工作,保存表中的每一行记录。
  • sqoop开启MapReduce作业 。
  • 启动的作业在input的过程中,会通过jdbc读取数据表中的内容,这时,会使用sqoop生成的类进行序列化。
  • 最后将这些记录写到hdfs上,在写入hdfs的过程中,同样会使用sqoop生成的类进行反序列化。

MySQL到HDFS

简单举例导入数据
基础思路:

  • 需要指明是导入import;
  • 之后必须指定所连接的数据库,其用户名和密码;
  • 指定数据库表,最终目标路径,同时注意如果这个目录已经存在,先删除或者使用append参数,表示追加;
  • 指定启动的maptask的个数;
  • hdfs文件数据的分隔符。

在shell命令行实现

sqoop import \ 
--connect jdbc:mysql://hadoop102:3306/sqoop \
--username root \ 
--password 123456 \ 
--table goodtbl \
--target-dir /root/sqoop_hdfs \
--delete-target-dir \
-m 1 \
--fields-terminated-by "\t"

//如果需要导入查询数据 
//两种方式
//1.使用query 不需要指定数据库表,sql语句中有
--query 'select col_name... from tbk_name where 筛选条件 and ¥CONDITIONS'
//查询语句中的where子句中必须包含'$CONDITIONS',也是为了数据分区使用,即使只有1个MapTask;
//若query后使用的是双引号,则$CONDITIONS前必须加转义符,也就是\$CONDITIONS,防止shell识别为自己的变量

//2.使用关键字where
--where "条件"

//需要导入指定列
--columns coln1,clon2...
//如果涉及多列,用逗号分隔,不能添加空格

//数据量很多的情况下,启动多个MapTask导入数据
//这时sqoop要对每个Task的数据进行分区
//1.MySQL中的表有主键 指定maptask的个数

//2.mysql中的表没有主键,使用split-by指定分区字段
--split-by col_name
//如果分区字段是字符类型,使用 sqoop 命令的时候要添加
//-Dorg.apache.sqoop.splitter.allow_text_splitter=true
sqoop import -
Dorg.apache.sqoop.splitter.allow_text_splitter=true \
--connect jdbc:mysql://hadoop102:3306/sqoop \

MySQL到Hive

举例理解
同样是指定和数据库连接的相关信息

sqoop import \ 
--connect jdbc:mysql://hadoop102:3306/sqoop \
--username root \ 
--password 123456 \ 
--table goodtbl \
-m 1 \
--fields-terminated-by "\t" //Hive字段分隔符
//在此基础上,添加hive相关参数

--hive-import //必须参数,指定导入hive

--hive-database //Hive库名 默认值default

--hive-table //hive表名

--hive-overwrite //覆盖已经存在的数据

--create-hive-table 
//创建好hive表,但表可能存在错误,不建议使用该参数,可提前建好表

增量数据导入

前面都是执行的全量数据导入。如果数据量很小,则采取完全源数据抽取;如果源数据量很大,则需要抽取发生变化的数据,这种数据抽取模式叫做变化数据捕获,简称CDC(Change Data Capture)。

CDC分为两种方式
1.侵入式

指CDC操作会给源系统带来性能影响,只要CDC操作以任何一种方式对源数据库执行了SQL操作,就认为是侵入式的,反之就是非侵入式;

  • 基于时间戳的CDC

抽取过程根据某些属性列来判断哪些数据是增量的

常见属性列2种

  • 时间戳
    一个插入时间戳,表示何时创建的;
    一个更新时间戳,表示最后一次更新的时间;

  • 序列
    大多数数据库都提供自增功能,表中的列定义成自增的,易根据该列识别新插入的数据;

简单常用,但是有缺点
不能记录删除记录的操作
无法识别多次更新
不具有实时能力

  • 基于触发器的CDC
    当执行INSERT、UPDATE、DELETE这些SQL语句时,激活数据库里的触发器,使用触发器捕获变更数据,并把数据保存在中间临时表里。然后这些变更数据再从临时表取出;
    大多数场合下,不允许向操作型数据库里添加触发器,且这种方法会降低系统性能,基本不会被采用。

  • 基于快照的CDC

可以通过比较源表和快照(数据存储的某一时刻的状态记录)表来获得数据变化

优点:基于快照的CDC可以检测到插入、更新和删除的数据,相对于基于时间戳的CDC的优点;

缺点:需要大量存储空间来保存快照;

2.非侵入式

  • 基于日志的CDC
    复杂的和没有侵入性的CDC方法是基于日志的方式;
    数据库会把每个插入、更新、删除操作记录到日志里。解析日志文件,就可以获取相关信息;
    每个关系型数据库日志格式不一致,没有通用的产品。
    阿里巴巴的canal可以完成MySQL日志文件解析。

sqoop实现时间戳CDC的方式有两种
1)Append (基于递增列的增量数据导入)
2)LastModified方式(基于时间列的数据增量导入)

这里简单介绍append方式
准备好初始数据开始导入到hive

//参考上述导入到hive的基本格式
//因为需要指定列区判断数据是否作为增量数据进行导入

--incremental append \ //增量导入

--check-column serialNumber \ 
//被指定的列的类型不能使任意字符类型,如char、varchar等类型都不可以

--last-value 0 \ 
//给定上次导入索引的最后值,在导入新数据的时候从最后值的下一个记录开始导入

这里每次都需要手动配置last-value,为了方便我们可以给定job,定时任务每天定时调度;

步骤如下

//创建口令文件
echo -n "12345678" > sqoopPWD.pwd
hdfs dfs -mkdir -p /sqoop/pwd
hdfs dfs -put sqoopPWD.pwd /sqoop/pwd
hdfs dfs -chmod 400 /sqoop/pwd/sqoopPWD.pwd
# 可以在 sqoop 的 job 中增加:
--password-file /sqoop/pwd/sqoopPWD.pwd

//创建 sqoop job
sqoop job --create myjob1 -- import \
--connect jdbc:mysql://linux123:3306/sqoop?useSSL=false \
--username hive \
--password-file /sqoop/pwd/sqoopPWD.pwd \
--table goodtbl \
--incremental append \
--hive-import \
--hive-table mydb.goodtbl \
--check-column serialNucmber \
--last-value 0 \
-m 1

//查看已创建的job
sqoop job --list

//查看job详细运行是参数
sqoop job --show myjob1

//执行job
sqoop job --exec myjob1

//删除job
sqoop job --delete myjob1

//最后查看数据对比

实现原理是因为job执行完成后,会把当前check-column的最大值记录到meta中,下次再调起时把此值赋给last-value;

//缺省情况下元数据保存在 ~/.sqoop/
//其中,metastore.db.script 文件记录了对last-value的更新操作
cat metastore.db.script |grep incremental.last.value

数据导出

在这里插入图片描述

  • 首先sqoop通过jdbc访问关系型数据库,得到需要导出的数据的元数据信息。
  • 根据获取的元数据信息,sqoop生成一个java类,用来进行数据的传输载体,该类必须实现序列化。
  • 启动MapReduce程序。
  • sqoop利用生成的这个java类,并行的从hdfs中读取数据。
  • 每一个map作业都会根据读取到的导出表的元数据信息和读取到的数据,生成一批的insert语句然后多个 map 作业会并行的向数据库 mysql 中插入数据。

  • Hive/HDFS到RDBMS
    注意:MySQL表需要提前创建
    执行导出
sqoop export \
--connect jdbc:mysql://hadoop102:3306/sqoop \
--username root \
--password 123456 \
--table goodtbl2 \
--num-mappers 1 \

//到数据库的默认路径
--export-dir 
/user/hive/warehouse/mydb.db/goodtbl \

//和import不同,export字段之间的分隔符命令如下
--input-fields-terminated-by "\t"

参考:
1.Sqoop的介绍(导入导出原理)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/970114.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java八股文面试[java基础]——字节码的组成

什么是字节码? 因为JVM针对各种操作系统和平台都进行了定制,无论在什么平台,都可以通过javac命令将一个.java文件编译成固定格式的字节码(.class文件)供JVM使用。之所以被称为字节码,是因为.class文件是由…

《人生苦短——我学Python》if条件判断->单向选择

今天我们来看看python中的条件判断。和C语言一样,python中条件判断的关键字也是if,并且判断的逻辑也是相同的,下面就让我们来详细看看吧! 关键词:if,代码块,缩进 文章目录 一、要点先知&#x…

CSS中如何隐藏元素但保留其占位空间(display:nonevsvisibility:hidden)?

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ 隐藏元素但保留占位空间⭐ display: none;⭐ visibility: hidden;⭐ 总结⭐ 写在最后 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 记得点击上方或者右侧链接订阅本专栏哦 几何带你启航前端之旅 欢迎来到前端入门之旅&a…

@CacheEvict自动删redis缓存的注意事项

一、前言 今天遇到了一个问题,就是关于CacheEvict,这个相信大家都很熟悉了,是Spring整合一些缓存的专用注解,它和Cacheable是一对。一个是新增缓存一个是删除缓存,搭配使用,不用自己手动删除! …

小白开始学习C++

第一节&#xff1a;控制台输出hello word&#xff01; #include<iostream> //引入库文件 int main() { //控制台输出 hello word! 之后回车 std::cout << "hello word!\n"; #include<iostream> //引入库文件int main() {//控制台输出…

国内首例 AIGC 作品纠纷,暂未宣判!

北京互联网法院近日依法公开开庭审理了一起 “AI 文生图” 著作权案。案件并未当庭宣判。 本案中&#xff0c;原告李先生是一名网络自媒体创作者&#xff0c;其通过某网络开源软件生成涉案图片&#xff0c;并以《春风送来的温柔》为题&#xff0c;发表在网络上。随后李先生发现…

基于Linux并结合socket网络编程的ftp服务器的实现

项目需求 客户端能够通过调用“get”指令&#xff0c;来获取服务器的文件客户端能通过“server_ls”指令&#xff0c;来获取服务器路径下的文件列表客户端能通过“server_cd”指令&#xff0c;进入服务器路径下的某文件夹客户端可以通过“upload”指令&#xff0c;上传自己的本…

SMB协议详解之-SMB/CIFS/SMB2/NFS/Samba/Netbios/NTLM/Kerberos关系和区别

SMB协议是在windows环境中非常常见的一中协议&#xff0c;在学习SMB协议的过程中经常出现SMB2&#xff0c;CIFS&#xff0c;Samba&#xff0c;Netbios&#xff0c;NTLM&#xff0c;kerberos等概念&#xff0c;如下下图1&#xff0c;那么SMB和这些观念之间的关系是什么呢。 在详…

linux入门到精通-第二章-常用命令和工具

目录 概述命令格式帮助文档内建命令外部命令&#xff08;--help&#xff09;帮助文档查看man查看谁登陆过电脑 文件目录命令创建目录显示目录结构删除目录 文件相关命令ls命令touchcprm删除mv移动命令 文件查看命令cat 文件内容查看命令less 查看文件内容head 从文件头部查看ta…

Spark大数据分析与实战笔记(第一章 Scala语言基础-3)

文章目录 1.3 Scala的数据结构1.3.1 数组数组的遍历数组转换 1.3.2 元组创建元组获取元组中的值拉链操作 1.3.3 集合ListSetMap 1.3 Scala的数据结构 对于每一门编程语言来说&#xff0c;数组&#xff08;Array&#xff09;都是重要的数据结构之一&#xff0c;主要用来存储数据…

C# OpenCvSharp 通道分离

效果 项目 代码 using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Windows.Forms; using OpenCvSharp; using OpenCvSharp.Extensions;namespac…

栅栏状蚀刻铜箔上的掺氟碳量子点界面层

引言 由于其卓越的能量密度和长寿命&#xff0c;锂离子电池(LIBs)广泛用于电动设备&#xff0c;如军用无人机、电动车辆和动力辅助服&#xff0c;这些设备需要高重量或体积能量密度。然而&#xff0c;尽管在各种电动装置中使用&#xff0c;它们仍然具有关键的问题&#xff0c;…

达观RPA实战-自定义控件基础

一、应用背景 当标准控件和实际需求相差较大时,可以设计自定义控件。 或者有些通用功能,也可以做成自定义控件调用,如EXCEL文件表头填充 或者是有些标准控件实际运行会出错,无法解决,如FTP下载控件。 二、知识介绍 在开始开发自定义控件前,先简要介绍几个相关知识: …

C#,数值计算——Midsqu的计算方法与源程序

1 文本格式 using System; namespace Legalsoft.Truffer { public class Midsqu : Midpnt { private double borig { get; set; } 0.0; public new double func(double x) { return 2.0 * x * funk.funk(borig - x * x); } pub…

Mybatis 动态SQL – 使用if,set标签动态生成更新语句

上一篇我们介绍了使用Mybatis提供的if,where标签动态生成条件语句&#xff1b;本篇我们在上一篇的基础上介绍如何使用Mybatis提供的if,set标签动态生成更新语句。 如果您对if,where标签动态生成条件语句不太了解&#xff0c;建议您先进行了解后再阅读本篇&#xff0c;可以参考…

前端实现动态路由(后端返回权限路由)

实现思路 1、前端定义静态路由&#xff08;login登录页这种不需要权限的默认路由&#xff09; 2、用户登陆时调接口获取用户信息&#xff0c;然后登录到首页 3、前后端定义好路由返回的格式 4、在路由导航钩子beforeEach中去调接口获取动态路由&#xff0c;递归处理该数据为前…

AtCoder Beginner Contest 315 Ex. Typical Convolution Problem(分治NTT/全在线卷积)

题目 给定长为n(n<2e5)的序列a&#xff0c;第i个数ai(0<ai<998244353) 求序列f&#xff0c;满足式子如下&#xff1a; 思路来源 jiangly代码/力扣群友tdzl2003/propane/自己的乱搞 题解 分治NTT&#xff0c;考虑[l,mid]对[mid1,r]的贡献&#xff0c; 但是&#x…

RT-Thread I/O设备模型(二)

访问I/O设备 应用程序通过I/O设备管理接口来访问硬件设备&#xff0c;当设备驱动程序实现后&#xff0c;应用程序就可以访问该硬件。I/O设备管理接口与I/O设备的操作方法映射关系如下&#xff1a; 查找设备 应用程序根据设备名称获取设备句柄&#xff0c;进而操作设备。 rt_…

MybatisPlus基本配置查询操作

无侵入&#xff1a;只做增强不做改变&#xff0c;引入它不会对现有工程产生影响&#xff0c;如丝般顺滑损耗小&#xff1a;启动即会自动注入基本 CURD&#xff0c;性能基本无损耗&#xff0c;直接面向对象操作强大的 CRUD 操作&#xff1a;内置通用 Mapper、通用 Service&#…

手把手教你用Vite构建第一个Vue3项目

写在前面 在之前的文章中写过“如何创建第一个vue项目”&#xff0c;但那篇文章写的是创建vue2的 项目。 传送门如何创建第一个vue项目 打开Vue.js官网:https://cn.vuejs.org/&#xff0c;我们会发现Vue 2 将于 2023 年 12 月 31 日停止维护 虽然Vue2的项目还不少&#xff0…