本地Oracle数据库复制数据到Apache Hive的Linux服务器集群的分步流程

news2025/2/25 6:34:25

我们已经有安装Apache Hive的Linux服务器集群,它可以连接到一个Oracle RDS数据库,需要在该Linux服务器上安装配置sqoop,然后将Oracle RDS数据库中所有的表数据复制到Hive。

为了将本地Oracle数据库中的所有表数据复制到Apache Hive Linux服务器集群中,您可以遵循以下详细步骤:

第一步:安装和配置Sqoop

1. 下载并安装Sqoop

您可以从Apache Sqoop官方网站下载最新版本的Sqoop。


wget https://downloads.apache.org/sqoop/1.4.8/sqoop-1.4.8.bin__hadoop-2.6.0-cdh5.7.0.tar.gz

2. 解压Sqoop包


tar -xzvf sqoop-1.4.8.bin__hadoop-2.6.0-cdh5.7.0.tar.gz -C /opt/

sudo mv /opt/sqoop-1.4.8.bin__hadoop-2.6.0-cdh5.7.0 /usr/local/sqoop

3. 配置Sqoop环境变量

编辑~/.bashrc或者/etc/profile.d/sqoop.sh文件,添加Sqoop路径:


echo 'export SQOOP_HOME=/usr/local/sqoop' >> ~/.bashrc

echo 'export PATH=$PATH:$SQOOP_HOME/bin' >> ~/.bashrc

source ~/.bashrc

4. 下载Oracle JDBC驱动

由于Sqoop需要通过JDBC连接Oracle数据库,因此请确保已下载适用于Oracle数据库的JDBC驱动(通常是从Oracle官方提供的ojdbc*.jar)。将其放置在Sqoop的lib目录下:


cp ojdbc8.jar $SQOOP_HOME/lib/

第二步:测试Sqoop是否能成功连接到Oracle及Hive

测试与Oracle的连接性

尝试列出Oracle数据库的所有表名以确认Sqoop能否正常连接到Oracle数据库。


sqoop list-tables \

--connect jdbc:oracle:thin:@//your_oracle_host:port/service_name \

--username your_username \

--password-file file:///path/to/password_file.txt # 使用密码文件存储敏感信息更安全

测试与Hive的连接性

同样地,检查Sqoop是否能够写入Hive。可以创建一个小规模的示例表来进行初步验证。


sqoop import \

--connect jdbc:oracle:thin:@//your_oracle_host:port/service_name \

--table example_table \

--target-dir hdfs_path_for_example_data \

--create-hive-table \

--hive-import \

--m 1 \ 

--null-string '\\N' \

--null-non-string '\\N'

第三步:批量导入Oracle数据库中的所有表到Hive

虽然Sqoop没有提供一键式导入整个数据库的功能,但我们可以通过Shell脚本来遍历Oracle数据库中的每一个表,并逐个调用上述导入命令来实现这一目的。

注意: 批量导入前,请务必备份重要数据以防万一出现问题导致数据损坏或丢失!

以下是简单的shell脚本模板供参考:


#!/bin/bash

ORACLE_HOST=your_oracle_host

PORT=port_number

SERVICE_NAME=service_name

USERNAME=username

PASSWORD_FILE=file:///path/to/orapasswordfile.txt

DATABASE_SCHEMA=schema_to_import_from_having_tables_in_it

TABLES=$(sqoop eval \

--connect "jdbc:oracle:thin:@//$ORACLE_HOST:$PORT/$SERVICE_NAME" \

--query "SELECT table_name FROM all_tab_columns WHERE owner='$DATABASE_SCHEMA'" \

--columns-only)

for TABLE in ${TABLES[@]}; do

echo "Importing Table : "$TABLE""

sqoop import \

--connect "jdbc:oracle:thin:@//$ORACLE_HOST:$PORT/$SERVICE_NAME" \

--username $USERNAME \

--password-file $PASSWORD_FILE \

--table $TABLE \

--split-by id_column_if_applicable_else_remove_this_option \

--num-mappers m_value_based_on_your_cluster_capacity_and_network_speed \

--compress \

--compression-codec org.apache.hadoop.io.compress.SnappyCodec \

--as-parquetfile \

--warehouse-dir "/user/hive/warehouse/" \

--hive-database default \

--hive-overwrite \

--hive-drop-partition-if-exists \

--hive-import

done;

说明:

  • id_column_if_applicable: 如果存在合适的主键或其他唯一标识符,则利用其加速MapReduce作业的速度;否则删除此选项。

  • -m value: 根据您的集群容量和网络速度调整Mapper的数量。

  • --as-parquetfile, --compress, 和 --compression-codec: 提升性能的同时减少磁盘空间占用率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2304751.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

架构——Nginx功能、职责、原理、配置示例、应用场景

以下是关于 Nginx 的功能、职责、原理、配置示例、应用场景及其高性能原因的详细说明: 一、Nginx 的核心功能 1. 静态资源服务 功能:直接返回静态文件(如 HTML、CSS、JS、图片、视频等)。配置示例:server {listen 80…

涉密载体管控系统革新:RFID技术引领,信息安全新境界

行业背景 文件载体管控系统DW-S402是用于对各种SM载体进行有效管理的智能柜(智能管理系统),实现对载体的智能化、规范化、标准化管理,广泛应用于保密、机要单位以及企事业单位等有载体保管需求的行业。 随着信息化技术发展&…

基于 SpringBoot 的 “电影交流平台小程序” 系统的设计与实现

大家好,今天要和大家聊的是一款基于 SpringBoot 的 “电影交流平台小程序” 系统的设计与实现。项目源码以及部署相关事宜请联系我,文末附上联系方式。 项目简介 基于 SpringBoot 的 “电影交流平台小程序” 系统设计与实现的主要使用者分为 管理员 和…

【Rust中级教程】2.9. API设计原则之显然性(obvious) :文档与类型系统、语义化类型、使用“零大小”类型

喜欢的话别忘了点赞、收藏加关注哦(加关注即可阅读全文),对接下来的教程有兴趣的可以关注专栏。谢谢喵!(・ω・) 2.9.1. 文档与类型系统 用户可能不会完全理解API的所有规则和限制。所以你写的API应该让你…

【网络编程】广播和组播

数据包发送方式只有一个接受方,称为单播。如果同时发给局域网中的所有主机,称为广播。只有用户数据报(使用UDP协议)套接字才能广播: 广播地址以192.168.1.0 (255.255.255.0) 网段为例,最大的主机地址192.168.1.255代表该网段的广…

Lecture 1 - AI Systems (Overview)

一、Machine Learning Approach标准机器学习流程 • Train ML algorithm(训练机器学习算法):基于收集的数据训练机器学习模型。 二、Machine Learning for Adaptation(适应性机器学习) 加入了数据更新和自动化的部分…

Ansible 学习笔记

这里写自定义目录标题 基本架构文件结构安装查看版本 Ansible 配置相关文件主机清单写法 基本架构 Ansible 是基于Python实现的,默认使用22端口, 文件结构 安装 查看用什么语言写的用一下命令 查看版本 Ansible 配置相关文件 主机清单写法

springboot005学生心理咨询评估系统(源码+数据库+文档)

源码地址:学生心理咨询评估系统 文章目录 1.项目简介2.部分数据库结构与测试用例3.系统功能结构4.包含的文件列表(含论文)后台运行截图 1.项目简介 ​ 使用旧方法对学生心理咨询评估信息进行系统化管理已经不再让人们信赖了,把现…

Apache Doris:一款高性能的实时数据仓库

Apache Doris 是一款基于 MPP 架构的高性能、实时分析型数据库。它以高效、简单和统一的特性著称,能够在亚秒级的时间内返回海量数据的查询结果。Doris 既能支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。 Apache Doris 最初是百度广告报表业务…

轻量级日志管理平台Grafana Loki

文章目录 轻量级日志管理平台Grafana Loki背景什么是Loki为什么使用 Grafana Loki?架构Log Storage Grafana部署使用基于 Docker Compose 安装 LokiMinIO K8s集群部署Loki采集Helm 部署方式和案例 参考 轻量级日志管理平台Grafana Loki 背景 在微服务以及云原生时…

《跟李沐学 AI》AlexNet论文逐段精读学习心得 | PyTorch 深度学习实战

前一篇文章,使用 AlexNet 实现图片分类 | PyTorch 深度学习实战 本系列文章 GitHub Repo: https://github.com/hailiang-wang/pytorch-get-started 本篇文章内容来自于学习 9年后重读深度学习奠基作之一:AlexNet【下】【论文精读】】的心得。 《跟李沐…

【电机控制器】FU6832S——持续更新

【电机控制器】FU6832S——持续更新 文章目录 [TOC](文章目录) 前言一、ADC二、UART三、PWM四、参考资料总结 前言 使用工具: 提示:以下是本篇文章正文内容,下面案例可供参考 一、ADC 二、UART 三、PWM 四、参考资料 总结 本文仅仅简…

计算机视觉算法实战——产品分拣(主页有源码)

✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ ​ 1. 领域简介✨✨ 产品分拣是工业自动化和物流领域的核心技术,旨在通过机器视觉系统对传送带上的物品进行快速识别、定位和分类&a…

基于模块联邦的微前端架构:重构大型前端应用的模块化边界

引言:企业级前端的模块化困境 字节跳动广告系统采用Webpack 5模块联邦后,主应用构建时间从14分钟降至38秒,微应用独立发布频率提升至每天50次。在动态加载机制下,首屏资源加载体积减少79%,跨团队组件复用率达到92%。其…

Android之图片保存相册及分享图片

文章目录 前言一、效果图二、实现步骤1.引入依赖库2.二维码生成3.布局转图片保存或者分享 总结 前言 其实现在很多分享都是我们自定义的,更多的是在界面加了很多东西,然后把整个界面转成图片保存相册和分享,而且现在分享都不需要第三方&…

Linux放行端口

8080这个端口测试看telnet是不通的,您服务器内是否有对应的业务监听了这个端口呢?您到服务器内执行下: netstat -nltp |grep 8080 同时服务器内执行下: systemctl status firewalld iptables -nL 截图反馈下,我看下防火…

Spring Boot延迟执行实现

说明&#xff1a;本文介绍如何在Spring Boot项目中&#xff0c;延迟执行某方法&#xff0c;及讨论延迟执行方法的是事务问题。 搭建Demo 首先&#xff0c;创建一个Spring Boot项目&#xff0c;pom.xml如下&#xff1a; <?xml version"1.0" encoding"UTF-…

npm i 失败权限问题

安装完node之后, 测试全局安装一个最常用的 express 模块进行测试 失败&#xff0c;但是用管理员权限打开cmd 安装就成功。 报错如下&#xff1a; npm ERR! If you believe this might be a permissions issue, please double-check the npm ERR! permissions of the file and …

uniapp 微信小程序打包之后vendor.js 主包体积太大,解决办法,“subPackages“:true设置不生效

现在是打包的时候&#xff0c;vendor.js 的内容全部打到了主包里面&#xff0c; 说一下我的方法&#xff1a; 1. 通过发行 小程序打包 这样打包的体积是最小的&#xff0c;打包之后打开微信开发工具&#xff0c;然后再上传 2.manifest.json,在“mp-weixin”里添加代码 "…

23.2、云计算安全机制与案例分析

目录 云计算安全保护机制与技术方案云计算安全保护机制与技术方案常见云计算网络安全机制云计算安全管理与运维云计算安全综合应用案例分析 - 阿里云云计算安全综合应用案例分析 - 腾讯云云计算安全综合应用案例分析 - 华为云 云计算安全保护机制与技术方案 首先针对云计算&am…