sqoop系列:sqoop(离线数据同步)采集节点安装

news2024/11/29 13:51:08

目录

1:安装包准备

2:添加环境变量

3:配置部署

3.1) 修改sqoop-env.sh

3.2) 验证安装是否成功

3.3) 测试Sqoop是否能够成功连接数据库

报错:Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/lang/StringUtils

报错2:与hive交互报错 hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly

报错3:在命令中使用localhost问题

报错4:从hive导入到mysql数据包含表情包问题


说明:Sqoop1.4.7,和HBase2.3.6 兼容性有些问题。将HBase的版本更换成HBase1.3.1

本文所有文件:

链接:https://pan.baidu.com/s/16woOtqv8H8wATgu00iR5fA?pwd=yyds
提取码:yyds

1:安装包准备

http://archive.apache.org/dist/sqoop/ 这里选用的是1.4.7

cd /tmp
# 下载安装包
$ wget http://archive.apache.org/dist/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz
# 解压
sudo tar -zxvf /tmp/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /usr/local
sudo mv /usr/local/sqoop-1.4.7.bin__hadoop-2.6.0 /usr/local/sqoop-1.4.7

配置Mysql JDBC驱动包到 Sqoop的lib目录下

Java Mysql驱动 mysql-connector-java-5.1.40.jar
cd /tmp
sudo wget https://repo1.maven.org/maven2/mysql/mysql-connector-java/5.1.40/mysql-connector-java-5.1.40.jar

# 拷贝到sql依赖库
# cp /tmp/mysql-connector-java-5.1.40.jar /usr/local/sqoop-1.4.7/lib/
cp /tmp/mysql-connector-java-8.0.27.jar /usr/local/sqoop-1.4.7/lib/
注意:mysql-connector-java-8.0.27.jar可以解决表情存储问题

2:添加环境变量

sudo vim /etc/profile.d/sqoop.sh

export SQOOP_HOME=/usr/local/sqoop-1.4.7
export PATH=.:$PATH:$SQOOP_HOME/bin


source让环境变量生效
source /etc/profile

3:配置部署

3.1) 修改sqoop-env.sh

[sqoop-1.4.7]$ cp /usr/local/sqoop-1.4.7/conf/sqoop-env-template.sh /usr/local/sqoop-1.4.7/conf/sqoop-env.sh
vim /usr/local/sqoop-1.4.7/conf/sqoop-env.sh

export HADOOP_COMMON_HOME=/usr/local/hadoop-3.2.2
export HADOOP_MAPRED_HOME=/usr/local/hadoop-3.2.2
export HIVE_HOME=/usr/local/hive-3.1.2
 

-- 下面看需要
export HBASE_HOME=/usr/local/hbase-2.3.6
export ZOOKEEPER_HOME=/usr/local/zookeeper-3.5.7
export ZOOCFGDIR=/usr/local/zookeeper-3.5.7/conf

3.2) 验证安装是否成功

[root@worker213 ~]$ sqoop help
[root@worker213 ~]$ sqoop-version
出现一些Warning警告(警告信息已省略),并伴随着帮助命令的输出:

3.3) 测试Sqoop是否能够成功连接数据库

sqoop list-databases \
--connect jdbc:mysql://192.168.5.114:3306/ \
--username hive \
--password hive_pw

报错:Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/lang/StringUtils

把commons-lang-2.6.jar上传到/usr/local/sqoop-1.4.7/lib目录

文件在文章顶部网盘

报错2:与hive交互报错 hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly

cd $HIVE_HOME/lib
cp $HIVE_HOME/lib/hive-common-3.1.2.jar /usr/local/sqoop-1.4.7/lib/   -- 这一个也行
cp $HIVE_HOME/lib/hive-exec-3.1.2.jar /usr/local/sqoop-1.4.7/lib/

报错3:在命令中使用localhost问题

mysql使用localhost连接
com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications 
link failure

改成ip地址连接

报错4:从hive导入到mysql数据包含表情包问题

java.sql.SQLException: Incorrect string value: '\xF0\x9F\x92\x8BMo...' for column 'title' at row 4
如果mysql里有表情,5.1.40版本无法存储,这里使用mysql-connector-java-8.0.27.jar解决问题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/626254.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【023】C/C++数据结构之链表及其实战应用

C 链表及其实战应用 引言一、链表的概述二、利用链表设计一个学生管理系统2.1、设计主函数main()2.2、实现插入节点2.3、实现链表的遍历2.4、实现链表的查找2.5、实现删除某个节点2.6、实现释放链表2.7、完整代码 总结 引言 💡 作者简介:专注于C/C高性能…

纠删码技术在vivo存储系统的演进【上篇】

作者:vivo 互联网服务器团队- Gong Bing 本文将学术界和工业界的纠删码技术的核心研究成果进行了相应的梳理,然后针对公司线上存储系统的纠删码进行分析,结合互联网企业通用的IDC资源、服务器资源、网络资源、业务特性进行分析对原有纠删码技…

连杆滑块伸缩模组的制作

1. 运动功能说明 连杆滑块伸缩模组的主要运动方式为舵机带动滑块沿着光轴平行方向做伸缩运动。 2. 结构说明 本模组主要是由舵机、滑块、光轴、连杆等组成。 3. 电子硬件 在这个示例中,我们采用了以下硬件,请大家参考: 主控板 Basra主控板&…

耗时5个月,我做了一块高性能的开发板

本文项目工程选自:https://oshwhub.com/logicworld/h6_board 原作者 logicworld 本项目开源主要目的是帮助想学ARM高速电路的小伙伴们,学会自己做一个ARM开发板。教程从最初的“需求分析”一直到成功实现“软硬件联调”,就算是0基础的硬件小…

Vue中的指令与自定义指令

目录 Vue中的指令 v-xxx指令汇总 v-text v-html v-cloak v-once v-pre 自定义指令 函数式 对象式 Vue中的指令 v-xxx指令汇总 之前学过的指定: v-bind :单向绑定解析表达式,可简写为:xxx v-model :双向数据绑定 v-for …

【Python】Python进阶系列教程-- Python3 CGI编程(二)

文章目录 前言什么是CGI网页浏览CGI架构图Web服务器支持及配置第一个CGI程序HTTP头部CGI环境变量GET和POST方法使用GET方法传输数据简单的表单实例:GET方法使用POST方法传递数据通过CGI程序传递checkbox数据通过CGI程序传递Radio数据通过CGI程序传递 Textarea 数据通…

展会ING丨计讯物联在中国水博览会大放异彩,现场人气持续狂飙

6月7日,由中国水利学会和中国水利工程协会联合打造的的2023中国水博览会暨第十八届中国(国际)水务高峰论坛于江苏南京国际展览中心盛大举行,超过40多个国家和地区的2450余家展商如约而至,超24万人次的专业观众齐聚一堂…

PLC与IO模块之间搭建1主多从网口无线通讯

想实现西门子PLC通过网口无线采集多处分散IO信号,实际上就是,在Profinet通讯协议下,通过RJ45口,搭建一个西门子PLC与IO模块之间1主多从的无线以太网通讯网络。我们就需要以下几种设备来搭建无线网络: 1.西门子PLC&…

线程池源码解读及原理

前言 大龄程序员老王 老王是一个已经北漂十多年的程序员,岁数大了,加班加不过年轻人,升迁也无望,于是拿着手里的一些积蓄,回老家转行创业。他选择了洗浴行业,开一家洗浴中心,没错,一…

手把手教你突破 GPT-4.0 3小时25次的限速!

很多人很郁闷 ,ChatGPT Plus账号在浏览器上使用GPT4.0模型的时候,会受到官方的限制,每3小时只能对话25次,是真的不够用。 但是在手机上使用GPT4.0模型则不会有限制,既然这样,那我们是否也可以在浏览器上无限…

gitlab安装脚本

[rootVM-4-4-centos ~]# cat install_gitlab.sh #!/bin/bash# #说明:安装GitLab 服务器内存建议至少4G,root密码至少8位 GITLAB_VERSION12.0.2#GITLAB_VERSION14.1.7#GITLAB_VERSION12.3.5. /etc/os-release UBUNTU_URL"https://mirrors.tuna.tsinghua.edu.cn/gitlab-ce/u…

分子生成工具 TargetDiff 评测

TargetDiff是来源于ICLR2023文章:3D Equivariant Diffusion for Target-Aware Molecule Generation and Affinity Prediction。该文章基于 SE(3)-equivariant network,开发了非自回归的,具有旋转和平移不变性的,口袋为条件的分子扩…

CRM系统排行榜TOP10——2023年度

在当今竞争激烈的市场环境中,CRM客户系统是企业必备的管理工具,它可以帮助企业管理客户数据,优化业务流程,实现业绩增长。那么有哪些优秀的CRM系统呢?下面请看全球2023年CRM管理系统十大排行榜。 全球2023年CRM管理系…

驱动开发:内核文件读写系列函数

在应用层下的文件操作只需要调用微软应用层下的API函数及C库标准函数即可,而如果在内核中读写文件则应用层的API显然是无法被使用的,内核层需要使用内核专有API,某些应用层下的API只需要增加Zw开头即可在内核中使用,例如本章要讲解…

2023/06/05 软件项目生存期和传统生存期模型

视频参考地址: B站闫波软件项目管理视频学习. 视频资源:video P4-P6 本篇重点:项目生存期 简书日更计划同步记录🏃… 项目生命周期 软件项目生命周期 ∗ \color{red}{*} ∗ 项目生命周期的阶段 C概念/启动阶段:确立项…

VRay 版本之间的差异,为什么最新版本的 VRay 渲染不同?

如果您是 V-Ray 的长期用户,您可能已经注意到,您使用早期版本的 V-Ray 构建的一些项目与更高版本的渲染方式不同。有时差异不明显,有时则非常明显。您可能还会注意到渲染时间、内存消耗等方面的差异。 为什么最新版本的 V-Ray 渲染不同&…

SQL注入防御-WAF Bypass技巧(5)

0x00前言 X-WAF是一款适用中、小企业的云WAF系统,让中、小企业也可以非常方便地拥有自己的免费云WAF. 本文从代码出发,一步步理解WAF的工作原理,多姿势进行WAF Bypass。 0x01 环境搭建 官网: https://waf.xsec.io github源码: https://github.com/xsec-lab/x-waf X-WAF下载安…

电子器件系列40:高压放电电阻(绕线电阻)

高压电阻器工作原理 高压电阻器是指在1000〜35000伏的高压下工作的电阻,其电阻值最高为1011欧姆。为了能够承受很高的电压,高压电阻器必须具有较高的电阻值和较大的功耗。为了防止电击穿,必须选择具有高抗压强度的细长基板,电阻膜…

可商用!全球首个基于Falcon架构的中文大语言模型OpenBuddy开源了!

在人工智能领域,大语言模型正以前所未有的速度发展,它们已经成为众多企业、研究机构和个人开发者的新宠。今天,OpenBuddy,这个由业界的开源爱好者和学术研究者组成的研究团队,正式宣布研发出全球首个基于 Falcon 架构、…

php开发中大数据量优化的问题总结(1):smarty循环优化、API掉包丢失数据排查、负载平衡配置

php开发中大数据量优化的问题总结 一、smarty模版引擎遍历优化1.项目需求2.解决方案 二、对接第三方API掉包丢失数据1.丢包和掉包2.解决和排查3.配置负载均衡命令行宝塔配置 一、smarty模版引擎遍历优化 模版引擎smarty中不规则遍历循环的解决方案(遍历数组、第一个元素单独处…