【数据采集工具】Sqoop从入门到面试学习总结

news2024/10/19 6:26:02

国科大学习生活(期末复习资料、课程大作业解析、大厂实习经验心得等): 文章专栏(点击跳转)
大数据开发学习文档(分布式文件系统的实现,大数据生态圈学习文档等): 文章专栏(点击跳转)

【数据采集工具】Sqoop从入门到面试学习总结

  • 一、什么是Sqoop?
    • 1.1 Sqoop简介
    • 1.2 Sqoop的主要特点
    • 1.3 Sqoop的基本命令格式
  • 二、Sqoop的简单使用案例
    • 2.1 导入数据
      • 2.1.1 RDBMS 到 HDFS
      • 2.1.2 RDBMS 到 Hive
      • 2.1.3 RDBMS 到 Hbase
    • 2.2 导出数据
      • 2.2.1 Hive/HDFS到RDBMS
  • 三、脚本打包
  • 四、Sqoop一些常用命令及参数
    • 4.1 导入数据命令选项
    • 4.2 导出数据命令选项
    • 4.3 通用命令选项
  • 参考文献

一、什么是Sqoop?

1.1 Sqoop简介

在这里插入图片描述
Apache Sqoop(SQL-to-Hadoop Optimized Import/Export)是一个用于在关系型数据库管理系统(RDBMS)和Apache Hadoop之间的数据传输的工具。它旨在使大量数据的导入导出操作变得简单和高效。

Sqoop原理架构图

在这里插入图片描述

1.2 Sqoop的主要特点

  1. 批量数据传输:Sqoop可以高效地将大量数据从关系型数据库批量导入到Hadoop的HDFS中,或者将数据从HDFS批量导出到关系型数据库。

  2. 自动代码生成:Sqoop能够自动生成用于导入导出数据的代码,这使得开发者无需深入了解底层的复杂性。

    • Sqoop原理:将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。
  3. 数据类型映射:Sqoop支持自动转换关系型数据库和Hadoop之间不同的数据类型

  4. 增量数据导入:Sqoop支持增量导入,这意味着它可以只导入自上次导入后发生变化的数据。

  5. 并行数据传输:Sqoop可以并行地从多个数据库表中导入数据,以提高数据传输效率。

  6. 数据压缩:为了减少网络传输的数据量,Sqoop支持数据压缩

  7. 错误处理:Sqoop提供了错误处理机制,例如在数据导入过程中遇到错误时,可以选择跳过错误记录或停止操作。

  8. 集成:Sqoop可以与Hadoop生态系统中的其他组件(如Hive和HBase)集成,以支持更复杂的数据处理任务。

1.3 Sqoop的基本命令格式

  • 导入数据
sqoop import \
--connect <JDBC连接字符串> \
--username <用户名> \
--password <密码> \
--table <表名> \
--target-dir <目标目录> \
--fields-terminated-by <字段分隔符> \
--lines-terminated-by <行分隔符> \
--columns <列名列表>
  • 导出数据
sqoop export \
--connect <JDBC连接字符串> \
--username <用户名> \
--password <密码> \
--table <表名> \
--input-null-string <输入中表示NULL值的字符串> \
--input-null-non-string <输入中表示NULL值的非字符串值> \
--export-dir <导出数据的源目录> \
--input-fields-terminated-by <输入字段的分隔符> \
--input-lines-terminated-by <输入行的分隔符> \
--columns <列名列表>
  • 增量导入数据语法示例
sqoop import \
--connect <JDBC连接字符串> \
--username <用户名> \
--password <密码> \
--table <表名> \
--target-dir <目标目录> \
--incremental <模式> \
--check-column <检查列> \
--last-value <上次导入的值>
  • 列出数据库语法示例:
sqoop list-databases 
--connect jdbc:mysql://hadoop102:3306/ 
--username root 
--password root
  • 查看表的结构语法示例:
sqoop eval \
--connect <JDBC连接字符串> \
--username <用户名> \
--password <密码> \
--query "DESCRIBE <表名>"

Sqoop是Hadoop生态系统中重要的数据迁移工具,它简化了传统数据库与大数据平台之间的数据交换过程

二、Sqoop的简单使用案例

2.1 导入数据

在Sqoop中,“导入”概念指:从非大数据集群(RDBMS)向大数据集群(HDFS,HIVE,HBASE)中传输数据,叫做:导入,即使用import关键字。

2.1.1 RDBMS 到 HDFS

  1. 确定Mysql服务开启正常

  2. 在Mysql中新建一张表并插入一些数据

    $ mysql -uroot -p000000 
    mysql> create database company; 
    mysql> create table company.staff(id int(4) primary key not null auto_increment, name varchar(255), sex varchar(255)); 
    mysql> insert into company.staff(name, sex) values('Stan', 'Male'); 
    mysql> insert into company.staff(name, sex) values('Catalina', 'FeMale'); 
    
  3. 导入数据

  • 全部导入

    $ bin/sqoop import \ 
    --connect jdbc:mysql://hadoop102:3306/company \ 
    --username root \ 
    --password 000000 \ 
    --table staff \ 
    --target-dir /user/company \ 
    --delete-target-dir \ 
    --num-mappers 1 \ 
    --fields-terminated-by "\t" 
    
  • 查询导入

    $ bin/sqoop import \ 
    --connect jdbc:mysql://hadoop102:3306/company \ 
    --username root \ 
    --password 000000 \ 
    --target-dir /user/company \ 
    --delete-target-dir \ 
    --num-mappers 1 \ 
    --fields-terminated-by "\t" \ 
    --query 'select name,sex from staff where id <=1 and $CONDITIONS;' 
    

    提示:must contain ‘$CONDITIONS’ in WHERE clause.
    如果query后使用的是双引号,则$CONDITIONS前必须加转移符,防止shell识别为自己的变量。

  • 导入指定列

    $ bin/sqoop import \ 
    --connect jdbc:mysql://hadoop102:3306/company \
    --username root \ 
    --password 000000 \ 
    --target-dir /user/company \ 
    --delete-target-dir \ 
    --num-mappers 1 \ 
    --fields-terminated-by "\t" \ 
    --columns id,sex \ 
    --table staff
    

    提示:columns中如果涉及到多列,用逗号分隔,分隔时不要添加空格。

  • 使用sqoop关键字筛选查询导入数据

    $ bin/sqoop import \ 
    --connect jdbc:mysql://hadoop102:3306/company \ 
    --username root \ 
    --password 000000 \ 
    --target-dir /user/company \ 
    --delete-target-dir \ 
    --num-mappers 1 \ 
    --fields-terminated-by "\t" \ 
    --table staff \ 
    --where "id=1"
    

2.1.2 RDBMS 到 Hive

$ bin/sqoop import \ 
--connect jdbc:mysql://hadoop102:3306/company \ 
--username root \ 
--password 000000 \ 
--table staff \ 
--num-mappers 1 \ 
--hive-import \ 
--fields-terminated-by "\t" \ 
--hive-overwrite \ 
--hive-table staff_hive

提示:该过程分为两步,第一步将数据导入到HDFS,第二步将导入到HDFS的数据迁移到 Hive仓库(默认还是存储到HDFS上)。

2.1.3 RDBMS 到 Hbase

$ bin/sqoop import \ 
--connect jdbc:mysql://hadoop102:3306/company \ 
--username root \ 
--password 000000 \ 
--table company \ 
--columns "id,name,sex" \ 
--column-family "info" \ 
--hbase-create-table \ 
--hbase-row-key "id" \ 
--hbase-table "hbase_company" \ 
--num-mappers 1 \ 
--split-by id

提示:sqoop1.4.6只支持HBase1.0.1之前的版本的自动创建HBase表的功能.
解决方案:手动创建HBase表

hbase> create 'hbase_company,'info'

2.2 导出数据

在Sqoop中,“导出”概念指:从大数据集群(HDFS,HIVE,HBASE)向非大数据集群 (RDBMS)中传输数据,叫做:导出,即使用export关键字。

2.2.1 Hive/HDFS到RDBMS

$ bin/sqoop export \ 
--connect jdbc:mysql://hadoop102:3306/company \ 
--username root \ 
--password 000000 \ 
--table staff \ 
--num-mappers 1 \ 
--export-dir /user/hive/warehouse/staff_hive \ 
--input-fields-terminated-by "\t"

提示:Mysql中如果表不存在,不会自动创建。

三、脚本打包

使用opt格式的文件打包sqoop命令,然后执行。

  1. 创建一个.opt文件
$ mkdir opt 
$ touch opt/job_HDFS2RDBMS.opt 
  1. 编写sqoop脚本
$ vi opt/job_HDFS2RDBMS.opt 
export --connect jdbc:mysql://hadoop102:3306/company 
--username root 
--password 000000 
--table staff 
--num-mappers 1 
--export-dir /user/hive/warehouse/staff_hive 
--input-fields-terminated-by "\t" 
  1. 执行该脚本
$ bin/sqoop --options-file opt/job_HDFS2RDBMS.opt

四、Sqoop一些常用命令及参数

4.1 导入数据命令选项

参数描述
--connect指定数据库 连接URL
--username指定数据库 用户名
--password指定数据库 密码
--table指定要导入的数据库表名
--columns指定要导入的列
--target-dir指定导入数据的目标目录
--where指定导入数据的条件
--split-by指定用于拆分数据的列
--num-mappers指定并行导入的Mapper数量
--null-string指定数据库中表示NULL值的字符串
--null-non-string指定数据库中表示NULL值的非字符串值

4.2 导出数据命令选项

参数描述
--connect指定数据库连接URL
--username指定数据库用户名
--password指定数据库密码
--table指定要导出的数据库表名
--export-dir指定导出数据的源目录
--columns指定要导出的列
--input-fields-terminated-by指定输入字段的分隔符
--input-lines-terminated-by指定输入行的分隔符
--input-null-string指定输入中表示NULL值的字符串
--input-null-non-string指定输入中表示NULL值的非字符串值

4.3 通用命令选项

参数描述
--verbose显示详细的调试信息
--compress启用压缩
--direct使用直接模式进行导入/导出
--as-avrodatafile将数据导入/导出为Avro文件
--as-parquetfile将数据导入/导出为Parquet文件
--as-textfile将数据导入/导出为文本文件
--delete-target-dir在导入之前删除目标目录
--fields-terminated-by指定字段的分隔符
--lines-terminated-by指定行的分隔符
--null-string指定输出中表示NULL值的字符串
--null-non-string指定输出中表示NULL值的非字符串值

这只是Sqoop的一些常见命令选项,还有其他更多选项可用于满足特定的需求。你可以通过运行sqoop help命令来获取完整的命令选项列表和详细的帮助信息。

参考文献

Sqoop基础理论与常用命令详解(超详细)
Sqoop User Guide (v1.4.7) (apache.org)
大数据视频_Sqoop视频教程_哔哩哔哩_bilibili


2024年10月14日 14点56分
数据采集工具——Sqoop内容学习整理,如有错误,欢迎评论区交流指出。
不积跬步无以至千里!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2217531.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数控机械制造工厂ERP适用范围有哪些

在当今制造业高速发展的背景下&#xff0c;企业资源计划(ERP)系统已成为提升工厂管理效率、实现生产自动化与信息化的关键工具。特别是对于数控机械制造工厂而言&#xff0c;一个合适的ERP系统能够帮助其优化生产流程、提高产品质量、降低生产成本并增强市场竞争力。 1. 生产计…

React 项目热更新失效问题的解决方案和产生的原因

背景和意义 在修复React项目热更新失效的问题时&#xff0c;经过一系列问题排查和依赖升级&#xff0c;最终成功修复了问题并为后续开发规避了类似的问题。 依赖升级 Vite版本升级 原React项目Vite版本升级到^4.4.5 Vite 4 在构建和开发服务器的性能上进行了优化&#xff…

Java--集合之vectorlinkedlisthashset结构

文章目录 0.架构图1.vector解析2.LinkedList分析2.1源码分析2.2迭代器遍历的三种方式 3.set接口的使用方法3.1基本使用说明3.2基本遍历方式3.3HashSet引入3.4数组链表模拟3.5hashset扩容机制3.6hashset源码解读3.7扩容*转成红黑树机制**我的理解 0.架构图 1.vector解析 和之前介…

15分钟学Go 第4天:Go的基本语法

第4天&#xff1a;基本语法 在这一部分&#xff0c;将讨论Go语言的基本语法&#xff0c;了解其程序结构和基础语句。这将为我们后续的学习打下坚实的基础。 1. Go语言程序结构 Go语言程序的结构相对简单&#xff0c;主要包括&#xff1a; 包声明导入语句函数语句 1.1 包声…

物联网协议:MQTT、CoAP 和 LwM2M 的比较与应用

目录标题 1.引言 &#x1f4d8;2. 物联网协议概述 &#x1f4da;3. MQTT 协议详解 &#x1f4e1;&#x1f4e1;&#x1f4e1;&#x1f4e1;3.1 协议特点3.2 工作原理3.3 应用场景 4. CoAP 协议详解 &#x1f517;4.1 协议特点4.2 工作原理4.3 应用场景 5. LwM2M 协议详解 ⚙️5…

LeetCode刷题日记之贪心算法(一)

目录 前言分发饼干摆动序列最大子数组和总结 前言 作为LeetCode刷题的过程中&#xff0c;贪心算法一直是一个经典的算法思路。在这篇文章中&#xff0c;我将记录自己刷LeetCode贪心算法题的过程&#xff0c;并逐步梳理该算法的核心逻辑&#xff0c;包括如何选择最优解、判断局…

PS证件照换底色

ps工具&#xff1a;Adobe Photoshop 2021 文章目录 1. 扣取人物2. 更换底色 1. 扣取人物 2. 更换底色

SpringSecurity使用介绍

1、SpringSecurity 1.1 SpringSecurity简介 Spring Security是基于Spring的安全框架,提供了包含认证和授权的落地方案&#xff1b;Spring Security底层充分利用了Spring IOC和AOP功能&#xff0c;为企业应用系统提供了声明式安全访问控制解决方案&#xff1b;SpringSecurity可…

数据字典是什么?和数据库、数据仓库有什么关系?

一、数据字典的定义及作用 数据字典是一种对数据的定义和描述的集合&#xff0c;它包含了数据的名称、类型、长度、取值范围、业务含义、数据来源等详细信息。 数据字典的主要作用如下&#xff1a; 1. 对于数据开发者来说&#xff0c;数据字典包含了关于数据结构和内容的清晰…

3. 单例模式唯一性问题—构造函数

1. 构造函数带来的唯一性问题指什么&#xff1f; 对于不继承MonoBehaviour的单例模式基类 我们要避免在外部 new 单例模式类对象 例如 &#xff08;完整单例模式定义在上一节&#xff09; public class Main : MonoBehaviour {void Start(){// 破坏单例模式的唯一性&#xf…

跨越距离:2024四大远程控制软件体验!

在多元化的现代生活中&#xff0c;远程控制软件已经成为我们不可或缺的助手。它们可以帮助我们实现远程办公、远程协助、远程游戏等多种功能。今天&#xff0c;我们就来为大家盘点几款热门的远程控制软件&#xff0c;包括向日葵远程控制、RayLink远程控制、Parsec和AirDroid&am…

C++笔记之静态多态和动态多态

C++笔记之静态多态和动态多态 code review! 在C++中,多态(Polymorphism)是面向对象编程的一个核心概念,允许对象以多种形式存在。多态性主要分为静态多态(Static Polymorphism)和动态多态(Dynamic Polymorphism)。下面将详细解释这两种多态及其在C++中的实现方式、优缺…

Stable Diffusion Web UI 大白话术语解释 (二)

归纳整理&#xff0c;Stable Diffusion Web UI 使用过程中&#xff0c;相关术语 ControlNet ControlNet 说简单点&#xff0c;就是你可以给 AI 一些“规则”&#xff0c;比如让它根据某些线条、结构或者骨架去画图。 这样能让 AI 画出更符合你要求的图片&#xff0c;特别适合画…

QT 实现按钮多样化

1.界面实现效果 以下是具体的项目需要用到的效果展示&#xff0c;可以根据需要&#xff0c;实例化想要的按钮。 2.简介 原理&#xff1a;使用Qt的QPropertyAnimation动画类&#xff0c;这里简单来说就是切换两个按钮样式。 请看以下结构体&#xff1a; #define MAX_LINE_C…

为什么Java中1==1为真,而128==128为假?基于享元模式的整数缓存原理分析

❃博主首页 &#xff1a; 「码到三十五」 &#xff0c;同名公众号 :「码到三十五」&#xff0c;wx号 : 「liwu0213」 ☠博主专栏 &#xff1a; <mysql高手> <elasticsearch高手> <源码解读> <java核心> <面试攻关> ♝博主的话 &#xff1a…

从零开始搭建你的DolphinScheduler分布式任务调度平台实战指南

文章目录 前言1. 安装部署DolphinScheduler1.1 启动服务 2. 登录DolphinScheduler界面3. 安装内网穿透工具4. 配置Dolphin Scheduler公网地址5. 固定DolphinScheduler公网地址 前言 本篇教程和大家分享一下DolphinScheduler的安装部署及如何实现公网远程访问&#xff0c;结合内…

React速成

useRef获取DOM 组件通讯 子传父 function Son({ onGetMsg }){const sonMsg this is son msgreturn (<div>{/* 在子组件中执行父组件传递过来的函数 */}<button onClick{()>onGetMsg(sonMsg)}>send</button></div>) }function App(){const getMsg…

厨房老鼠数据集:掀起餐饮卫生监测的科技浪潮

厨房老鼠数据集&#xff1a;掀起餐饮卫生监测的科技浪潮 摘要&#xff1a;本文深入探讨了厨房老鼠数据集在餐饮行业卫生管理中的重要性及其相关技术应用。厨房老鼠数据集通过收集夜间厨房图像、老鼠标注信息以及环境数据&#xff0c;为深度学习模型提供了丰富的训练样本。基于…

两个案例全面阐述全链路测试怎么做

首先我们先针对全链路功能测试部分进行一下讲解。去年的时候&#xff0c;有一家电商公司可能知道我一直在帮银行做相关的测试&#xff0c;就请我帮他们去做一些规划。这个平台有虚拟订单&#xff0c;也有实体订单&#xff0c;方式不太一样。 还涉及到分账分佣以及跟银行的对接…

基于SpringBoot+Vue+uniapp的涪陵区特色农产品交易系统的详细设计和实现(源码+lw+部署文档+讲解等)

详细视频演示 请联系我获取更详细的视频演示 项目运行截图 技术框架 后端采用SpringBoot框架 Spring Boot 是一个用于快速开发基于 Spring 框架的应用程序的开源框架。它采用约定大于配置的理念&#xff0c;提供了一套默认的配置&#xff0c;让开发者可以更专注于业务逻辑而不…