一百六十、Kettle——Linux上安装的Kettle9.2.0连接Hive3.1.2

news2024/9/28 3:29:35

一、目标

Kettle9.2.0在Linux上安装好后,需要与Hive3.1.2数据库建立连接

之前已经在本地上用kettle9.2.0连上Hive3.1.2

二、各工具版本

(一)kettle9.2.0   

kettle9.2.0安装包网盘链接

链接:https://pan.baidu.com/s/15Zq9wNDwyMnc3qFVxYOMXw?pwd=zwae 
提取码:zwae

(二)Hive3.1.2 

(三)Hadoop3.1.3

三、前提准备

(一)Kettle9.2.0已在Linux上安装好

(二)注意Kettle9.2里MySQL驱动包的版本以及Hive312里MySQL驱动包的版本

1、Hive312的lib里面MySQL驱动包的版本是mysql-connector-java-5.1.37.jar

2、Kettle9.2里MySQL驱动包的版本

mysql-connector-java-5.1.37.jar       ;   mysql-connector-java-8.0.30.jar

 四、安装步骤

(一)根据Hadoop版本在选择对应的文件(千万不要随便选!)

 1、文件路径

/opt/install/kettle9.2/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations

2、Hadoop版本与文件夹对应规则  

3、选择文件,复制文件名(Hadoop版本与文件夹一定要匹配!)

因为我的Hadoop版本是Hadoop3.1.3,所以我选择的文件夹是hdp30

(二)修改kettle里pentaho-big-data-plugin文件夹里的源文件plugin.properties

 1、文件路径

/opt/install/kettle9.2/data-integration/plugins/pentaho-big-data-plugin

 2、  只要设置       active.hadoop.configuration=hdp30

 (三)从我们安装的Hadoop、Hive里拉取需要的文件复制到hdp30的文件夹下(如需要HBase则拉取HBase的 hbase-site.xml)

1、文件路径

/opt/install/kettle9.2/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/hdp30

2、主要替换5个文件

Hadoop4个文件:    yarn-site.xml、mapred-site.xml、hdfs-site.xml、core-site.xml

Hive1个文件:         hive-site.xml

结果如下所示

 (四)复制需要的jar包

1、从Hive安装路径的lib目录复制以hive开头的jar包,复制到hdp30\lib文件夹

文件路径:/opt/install/kettle9.2/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/hdp30/lib

 2、复制Hadoop安装目录下的 hadoop-common-3.1.3.jar到hdp30\lib里

文件路径:/opt/install/kettle9.2/data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/hdp30/lib

3、把hive的安装路径hive312/jdbc里的驱动包复制到 kettle9.2的data-integration\lib文件下

(1)hive312/jdbc里的驱动包文件路径

 (2)目标文件路径:/opt/install/kettle9.2/data-integration/lib

 

(五)启动Hadoop和Hive服务,打开kettle9.2,连接Hive数据库

kettle9.2连接hive312,连接成功! 

(六)执行从Hive到ClickHouse的kettle任务,测试一下

kettle任务运行成功! 

(七)注意Hive数据库的中文乱码问题 

解决方法:kettle9.2在配置Hive数据库时在高级模块添加set names utf8;           配置好后测试一下

 

到这里,Linux上安装的Kettle9.2.0连接Hive3.1.2数据库就结束了!

乐于奉献共享,帮助你我他!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/889317.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PHP使用phpmailer及SMTP服务实现邮件发送

博客升级中,把之前没有想到的功能一点点的完善。 这篇日志记录一下,使用phpmailer实现邮件发送的这样一个操作。 博客偶尔会有留言和评论,我也会及时回复,但是有一个问题,我回复了,给我留言的人如果不再次…

基于Java的ssm图书管理系统源码和论文

基于Java的ssm图书管理系统036 开发工具:idea 数据库mysql5.7 数据库链接工具:navcat,小海豚等 技术:ssm 当今时代是飞速发展的信息时代。在各行各业中离不开信息处理,计算机被广泛应用于信息管理系统的环境。计算机的最大好…

linux鲁班猫代码初尝试[编译镜像][修改根文件系统重编译][修改设备树改屏幕为MIPI][修改屏幕和TP方向]

编译镜像 官方百度云盘资料:https://doc.embedfire.com/linux/rk356x/quick_start/zh/latest/quick_start/baidu_cloud/baidu_cloud.html 解压虚拟机压缩包:"鲁班猫\8-SDK源码压缩包\开发环境虚拟机镜像\ubuntu20.04.7z"后既可以用VMware打开,打开后可以看到已经有…

python+django+mysql高校校园外卖点餐系统--计算机毕设项目

本文的研究目标是以高校校园外卖点餐为对象,使其高校校园外卖点餐为目标,使得高校校园外卖点餐的信息化体系发展水平提高。论文的研究内容包括对个人中心、美食分类管理、用户管理、商家管理、美食信息管理、工作人员管理、安全检查管理、系统管理、订单…

什么是B+树?

B树 B树是B树的一种变体,也属于平衡多路查找树,大体结构与B树相同,包含根节点、内部节点和叶子节点。多用于数据库和操作系统的文件系统中,由于B树内部节点不保存数据,所以能在内存中存放更多索引,增加缓存…

【学会动态规划】等差数列划分(22)

目录 动态规划怎么学? 1. 题目解析 2. 算法原理 1. 状态表示 2. 状态转移方程 3. 初始化 4. 填表顺序 5. 返回值 3. 代码编写 写在最后: 动态规划怎么学? 学习一个算法没有捷径,更何况是学习动态规划, 跟我…

基于Kubernetes云原生技术的低代码PaaS平台,快速构建企业级应用程序

低代码PaaS平台 低代码PaaS平台可以在云端开发、部署、运行低代码应用程序。使用独立数据库模型,基于Kubernetes云原生技术,每个租户均可拥有一套独立的存储、数据库、代码和命名空间,实现了100%的租户数据隔离,并可以随时迁移到…

在本地搭建WAMP服务器并通过端口实现局域网访问(无需公网IP)

文章目录 前言1.Wamp服务器搭建1.1 Wamp下载和安装1.2 Wamp网页测试 2. Cpolar内网穿透的安装和注册2.1 本地网页发布2.2 Cpolar云端设置2.3 Cpolar本地设置 3. 公网访问测试4. 结语 前言 软件技术的发展日新月异,各种能方便我们生活、工作和娱乐的新软件层出不穷&a…

iPhone 15受益:骁龙8 Gen 3可能缺席部分安卓旗舰机

明年一批领先的安卓手机的性能可能与今年的机型非常相似。硅成本的上涨可能是原因。 你可以想象,2024年许多最好的手机都会在Snapdragon 8 Gen 3上运行,这是高通公司针对移动设备的顶级芯片系统的更新,尚未宣布。然而,来自中国的…

Python Web开发 Django 简介

今天来为大家介绍 Python 另一个 Web 开发框架 Django,它是一个基于 Python 定制的开源 Web 应用框架,最早源于一个在线新闻 Web 网站,后于2005年开源。Django 的功能大而全,它提供的一站式解决的思路,能让开发者不用在…

在思科(Cisco)路由器中使用 SNMP

什么是SNMP SNMP,称为简单网络管理协议,被发现可以解决具有复杂网络设备的复杂网络环境,SNMP 使用标准化协议来查询网络上的设备,为网络管理员提供保持网络环境稳定和远离停机所需的重要信息。 为什么要在思科设备中启用SNMP S…

如何在出差期间远程访问企业ERP系统?内网穿透解决您的难题!

文章目录 概述1.查看象过河服务端端口2.内网穿透3. 异地公网连接4. 固定公网地址4.1 保留一个固定TCP地址4.2 配置固定TCP地址 5. 使用固定地址连接 概述 ERP系统对于企业来说重要性不言而喻,不管是财务、生产、销售还是采购,都需要用到ERP系统来协助。…

【hive】简单介绍hive的几种join

文章目录 前言1. Common Join2. Map Join介绍:使用方法:限制: 3. Bucket Map Join介绍:好处:使用条件:使用方法: 4. Sort Merge Bucket Map Join介绍:如何使用: 5. Skew …

银河麒麟服务器v10 sp1 .Net6.0 Serilog 运行时不创建日志文件

上一篇:银河麒麟服务器v10 sp1 .Net Core 上传文件错误_csdn_aspnet的博客-CSDN博客 在代码中常用的日志记录相关重要或错误日志等,如Serilog、Log4net等,本文使用Serilog,在Program.cs的main方法中,代码如下图&#…

【GitLab私有仓库】如何在Linux上用Gitlab搭建自己的私有库并配置cpolar内网穿透?

文章目录 前言1. 下载Gitlab2. 安装Gitlab3. 启动Gitlab4. 安装cpolar5. 创建隧道配置访问地址6. 固定GitLab访问地址6.1 保留二级子域名6.2 配置二级子域名 7. 测试访问二级子域名 前言 GitLab 是一个用于仓库管理系统的开源项目,使用Git作为代码管理工具&#xf…

K8S核心组件etcd详解(下)

1 k8s如何使用etcd 在k8s中所有对象的manifest都需要保存到某个地方,这样他们的manifest在api server重启和失败的时候才不会丢失。 只有api server能访问etcd,其它组件只能间接访问etcd的好处是 增强乐观锁系统及验证系统的健壮性 方便后续存储的替换…

pyqt5 窗口居中、退出按钮、状态栏、窗口标题、水平布局、程序图标、

import sys# QT的基类 from PyQt5.QtWidgets import QApplication# 说明创建的是主窗体 QMainWindow from PyQt5.QtWidgets import QMainWindow# 添加控件:按钮、主控件(窗口) from PyQt5.QtWidgets import QPushButton, QWidget# 添加布局&a…

ssm单位人事管理系统源码和文档

ssm单位人事管理系统源码和文档033 开发工具:idea 数据库mysql5.7 数据库链接工具:navcat,小海豚等 技术:ssm 摘 要 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳…

进程|详解~什么是进程 以及 进程创建原理和过程

1.什么是进程 进程是正在运行的程序。 UNIX标准将进程定义为:其中运行着一个或者多个线程的地址空间和这些线程所需要的系统资源(分配给线程线程共享系统资源)。 组成:进程由程序代码、数据、变量(占用着系统内存)、打开的文件(文件描述符)、环境组成…

经典文献阅读之--LIW-OAM(LiDAR-IMU-编码器融合SLAM)

0. 简介 我们之前经常接触的是使用激光雷达和惯性测量单元(IMU)的互补信息,但是实际使用的过程中IMU如果发生剧烈的颠簸,有可能会导致IMU失效。在广泛使用的迭代最近点(ICP)算法只能为姿态提供约束,而速度只能由IMU预…