大数据培训kettle安装部署

news2025/12/24 11:24:14

kettle安装部署和使用

2.1 kettle安装地址

官网地址

https://community.hitachivantara.com/docs/DOC-1009855

下载地址

https://sourceforge.net/projects/pentaho/files/Data%20Integration/

2.2 Windows下安装使用

2.2.1 概述

在实际企业开发中，都是在本地环境下进行kettle的job和Transformation开发的，可以在本地运行，也可以连接远程机器运行

2.2.2 安装

1) 安装jdk

2) 下载kettle压缩包，因kettle为绿色软件，解压缩到任意本地路径即可

3) 双击Spoon.bat，启动图形化界面工具，就可以直接使用了

2.2.3 案例

1) 案例一把stu1的数据按id同步到stu2，stu2有相同id则更新数据

(1)在mysql中创建两张表

mysql> create database kettle;

mysql> use kettle;

mysql> create table stu1(id int,name varchar(20),age int);

mysql> create table stu2(id int,name varchar(20));

(2)往两张表中插入一些数据

mysql> insert into stu1 values(1001,’zhangsan’,20),(1002,’lisi’,18), (1003,’wangwu’,23);

mysql> insert into stu2 values(1001,’wukong’);

(3)在kettle中新建转换

(4)分别在输入和输出中拉出表输入和插入/更新

(5)双击表输入对象，填写相关配置，测试是否成功

(6)双击更新/插入对象，填写相关配置

(7)保存转换，启动运行，去mysql表查看结果

注意：如果需要连接mysql数据库，需要要先将mysql的连接驱动包复制到kettle的根目录下的lib目录中，否则会报错找不到驱动。

2) 案例2：使用作业执行上述转换，并且额外在表student2中添加一条数据

(1)新建一个作业

(2) 按图示拉取组件

(3)双击Start编辑Start

(4)双击转换，选择案例1保存的文件

(5)双击SQL，编辑SQL语句

(6)保存执行

3）案例3：将hive表的数据输出到hdfs

(1)因为涉及到hive和hbase的读写，需要修改相关配置文件。

修改解压目录下的data-integration\plugins\pentaho-big-data-plugin下的plugin.properties，设置active.hadoop.configuration=hdp26，并将如下配置文件拷贝到data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp26下

(2)启动hdfs，yarn，hbase集群的所有进程，启动hiveserver2服务

[atguigu@hadoop102 ~]$ /opt/module/hadoop-2.7.2/sbin/start-all.sh

开启HBase前启动Zookeeper

[atguigu@hadoop102 ~]$ /opt/module/hbase-1.3.1/bin/start-hbase.sh

[atguigu@hadoop102 ~]$ /opt/module/hive/bin/hiveserver2

(3)进入beeline，查看10000端口开启情况

[atguigu@hadoop102 ~]$ /opt/module/hive/bin/beeline

Beeline version 1.2.1 by Apache Hive

beeline> !connect jdbc:hive2://hadoop102:10000（回车）

Connecting to jdbc:hive2://hadoop102:10000

Enter username for jdbc:hive2://hadoop102:10000: atguigu（输入atguigu）

Enter password for jdbc:hive2://hadoop102:10000:（直接回车）

Connected to: Apache Hive (version 1.2.1)

Driver: Hive JDBC (version 1.2.1)

Transaction isolation: TRANSACTION_REPEATABLE_READ

0: jdbc:hive2://hadoop102:10000>（到了这里说明成功开启10000端口）

(4)创建两张表dept和emp

CREATE TABLE dept(deptno int, dname string,loc string)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY ‘\t’;

CREATE TABLE emp(

empno int,

ename string,

job string,

mgr int,

hiredate string,

sal double,

comm int,

deptno int)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY ‘\t’;

(5)插入数据

insert into dept values(10,’accounting’,’NEW YORK’),(20,’RESEARCH’,’DALLAS’),(30,’SALES’,’CHICAGO’),(40,’OPERATIONS’,’BOSTON’);

insert into emp values

(7369,’SMITH’,’CLERK’,7902,’1980-12-17′,800,NULL,20),

(7499,’ALLEN’,’SALESMAN’,7698,’1980-12-17′,1600,300,30),

(7521,’WARD’,’SALESMAN’,7698,’1980-12-17′,1250,500,30),

(6)按下图建立流程图

(7566,’JONES’,’MANAGER’,7839,’1980-12-17′,2975,NULL,20);

(7)设置表输入，连接hive

(8)设置排序属性

(9)设置连接属性

(10)设置字段选择

(11)设置文件输出

(12)保存并运行查看hdfs

4)案例4：读取hdfs文件并将sal大于1000的数据保存到hbase中

(1) 在HBase中创建一张表用于存放数据

[atguigu@hadoop102 ~]$ /opt/module/hbase-1.3.1/bin/hbase shell

hbase(main):004:0> create ‘people’,’info’

(2)按下图建立流程图

(3)设置文件输入，连接hdfs

(4)设置过滤记录

(5)设置HBase output

注意：若报错没有权限往hdfs写文件，在Spoon.bat中第119行添加参数

“-DHADOOP_USER_NAME=atguigu” “-Dfile.encoding=UTF-8”

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/95083.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Html 小功能总结二

Html 小功能总结二

文章目录一、Html 实现弹窗的实例二、Html 实现流程图三、制作一个简单的菜单功能一、Html 实现弹窗的实例 <!DOCTYPE html> <html> <head><meta charset"utf-8" /><title></title><style type"text/css">body…

阅读更多...

C++ Reference: Standard C++ Library reference: Containers: map: map: crbegin

C++ Reference: Standard C++ Library reference: Containers: map: map: crbegin

C官网参考链接：https://cplusplus.com/reference/map/map/crbegin/ 公有成员函数 <map> std::map::crbegin const_reverse_iterator crbegin() const noexcept;返回指向反向开始的const_reverse_iterator 返回一个指向容器中最后一个元素的const_reverse_ite…

阅读更多...

Nacos 消息通知系统源码讲解

Nacos 消息通知系统源码讲解

目录 1. 介绍 2. Nacos 中的生产者 3. Nacos 中的消费者 4. Nacos 中的事件 5. 统一事件通知中心 NotifyCenter 6. 总结 1. 介绍 Nacos 节点内部使用了大量的事件机制进行通信，这样各种操作进行了解耦，提高了性能。接下来就介绍。所谓事件机制…

阅读更多...

virtualenv系列 (5) · 打通virtualenvwrapper和PyCharm/IntelliJ IDEA的虚拟环境

virtualenv系列 (5) · 打通virtualenvwrapper和PyCharm/IntelliJ IDEA的虚拟环境

PyCharm/IntelliJ IDEA已经内置了对virtualenv的支持，当我们为一个项目创建一个新的Python SDK时，就会进入到Add Python Interpreter对话框，选择Virtualenv Environment -> New environment就将创建一套新的virtualenv环境。这里&#xff…

阅读更多...

关于长三角某高校能效管理平台应用成效探讨

关于长三角某高校能效管理平台应用成效探讨

更多请关注：安科瑞电气网摘要： 随着现代科学技术的发展，在高校中开始广泛应用智能化技术，改善学生宿舍的用电管理模式，提高宿舍的管理水平，有利于实现高校宿舍用电管理的科学化。本文主要阐述传统高校宿…

阅读更多...

D2. Seating Arrangements (hard version)(贪心+排序)

D2. Seating Arrangements (hard version)(贪心+排序)

Problem - 1566D2 - Codeforces 这是该问题的困难版本。唯一的区别是，在这个版本中，1≤n≤300。电影院的座位可以表示为有n行和m列的表格。每行的座位都用1到n的整数编号，从左到右连续编号：在第k行，从m(k-1)1到mk&am…

阅读更多...

前端的视角聊聊如何快速入门Python

前端的视角聊聊如何快速入门Python

对于 NodeJs 开发的小伙伴，使用 node-gyp 将 C 模块转换成 NodeJs 的 addon 插件时会依赖 Python 的安装环境（针对使用了 nvm 等版本管理工具的情况）。对于前端小伙伴来说，Python 本身确实不是一个必须学习的语言，但也…

阅读更多...

提前做好网络安全分析，运维真轻松（一）

提前做好网络安全分析，运维真轻松（一）

背景某汽车总部已部署NetInside流量分析系统，使用流量分析系统提供实时和历史原始流量。汽车配件电子图册系统是某汽车集团的重要业务系统。本次分析重点针对汽车配件电子图册系统进行预见性分析，以供安全取证、性能分析、网络质量监测以及深层网络分析…

阅读更多...

SQL基础——聚合与排序

SQL基础——聚合与排序

聚合与排序前言思维导图聚合函数示例表3-1![在这里插入图片描述](https://img-blog.csdnimg.cn/9c286053f87a4ae882bece8128bdcab5.png)计算表中数据的行数 COUNT函数示例代码3.1 计算全部数据的行数执行结果计算NULL之外的数据的行数代码示例3.2 计算NULL之外的数据行数执行结…

阅读更多...

【DevOps实战系列】第五章：基于Gitlab/Maven/Jenkins/Docker实战案例详解

【DevOps实战系列】第五章：基于Gitlab/Maven/Jenkins/Docker实战案例详解

个人亲自录制全套DevOps系列实战教程 ：手把手教你玩转DevOps全栈技术从创建Jenkins的job开始 1.gitlab设置： 我们从新建一个jenkins任务开始，建一个自由风格项目，我们暂时只让他能拉取git的代码。路径：从gitlab上新…

阅读更多...

【ML笔记】5、支持向量机（SVM）

【ML笔记】5、支持向量机（SVM）

支持向量机（SVM）是一个强大的和通用的ML模型，能够执行分类，回归，甚至异常值检测，特别适合于复杂的中小型数据集。 1、线性SVM分类我们可以看到，这两个类可以很容易地用一条直线(线性可分)分开…

阅读更多...

GAN入门知识

GAN入门知识

GAN入门知识结构正式说 GAN 之前我们先说一下判别式模型和生成式模型。判别器判别式模型判别式模型，即 Discriminative Model，又被称为条件概率模型，它估计的是条件概率分布(conditional distribution)， p(class|context) 。…

阅读更多...

图书网上商店

图书网上商店

开发工具(eclipse/idea/vscode等)： 数据库(sqlite/mysql/sqlserver等)： 功能模块(请用文字描述，至少200字)： 1

阅读更多...

docker-compose安装部署kafka

docker-compose安装部署kafka

文章目录前言一、环境信息二、准备部署1.准备路径2.安装docker-compse，下载镜像3.生成yml文件2.执行部署三、登陆页面前言记录一下使用docker-compose部署kafka平台的过程参考：https://blog.csdn.net/QQ83512272/article/details/126368978 一、环境信…

阅读更多...

Socket Websocket 客户端和服务端实现

Socket Websocket 客户端和服务端实现

最近在写一个上位机，用到了Websocket，这里就整理一下，顺便把Socket的东西也整理的了，方便以后查阅。 Socket Websocket 客户端和服务端实现Socket客户端和服务端实现Socket客户端Socket服务端实现效果Websocket 客户端和服务端实现…

阅读更多...

QT Linux环境搭建——VM虚拟机和Ubuntu的安装

QT Linux环境搭建——VM虚拟机和Ubuntu的安装

1、从ubuntu官网上下载iso镜像文件，该镜像文件用于安装linux操作系统，以下微官网链接 Enterprise Open Source and Linux | Ubuntu 选择一个最新的稳定版本下载即可（好处是，不需要像一些别的网站，必须要注册&#xff…

阅读更多...

基于java+springmvc+mybatis+vue+mysql的远程家庭健康监测管理系统小程序

基于java+springmvc+mybatis+vue+mysql的远程家庭健康监测管理系统小程序

项目介绍本系统采用java语言开发，后端采用ssm框架，前端采用vue技术，数据库采用mysql进行数据存储。前台： 登录注册、查看个人信息、留言反馈、查看健康信息、查看百科、社区交流后台： 首页、个人中心、用户管理、…

阅读更多...

陈天老师的Rust培训(2)学习笔记

陈天老师的Rust培训(2)学习笔记

所有权： Rust中的每一个值都有一个被称为其所有者（owner）的变量值在任一时刻有且只有一个所有者。当所有者(变量)离开作用域的时候，这个值将被丢弃。 Copy的类型： 所有整数类型，比如u32。布尔类型所有浮…

阅读更多...

本地springboot jar 部署到云服务器linux [安装jdk 安装msyql]

本地springboot jar 部署到云服务器linux [安装jdk 安装msyql]

A). 安装jdk 参考博客CentOS 8 安装 JAVA 三种方式(yum / rpm / tar.gz) [rootiZt4ned91xzjstx1s6ftjvZ local]# rpm -qa |grep java [rootiZt4ned91xzjstx1s6ftjvZ local]# rpm -qa |grep jdk [rootiZt4ned91xzjstx1s6ftjvZ local]# rpm -qa |grep jre [rootiZt4ned91xzjstx…

阅读更多...

bug:解决java.security.InvalidKeyException: Illegal key size or default parameters

bug:解决java.security.InvalidKeyException: Illegal key size or default parameters

bug:解决java.security.InvalidKeyException: Illegal key size or default parameters 1 复现今天对接外链需要使用AES加密的时候，对方使用的是AES：AES/ECB/PKCS7Padding，但是在加密过程中，发现报错报错信息：java.…

阅读更多...

推荐文章

最新文章