10分钟数仓实战之kettle整合Hadoop

news2024/10/7 10:21:04

1.写在前面

很多朋友在做数仓的ETL的动作的时候,还是喜欢比较易上手的kettle

前面章节有介绍过安装kettle,可以参考

ETL工具--安装kettle_老码试途的博客-CSDN博客_spoon.bat 安装

kettle在Windows系统中对数据的转换、表和文件的转换等,都相对简单,而在对大数据平台进行操作的时候,需要先配置相关参数,本节进行kettle整合Hadoop

2.设置环境变量

因为涉及到权限问题,所以把每个节点的Hadoop的用户名设置为root,

本次教程有三个节点,分别为node1、node2、node3,依次改一下

##进入配置文件
vim /etc/profile

 保存退出,记得三个节点都要操作。

小知识点:

1)先按ESC,然后 shift + : 然后 wp 或者x保存并退出

2)先按Esc   然后shift + zz 也可以

3.核心文件配置

将Hadoop配置文件hdfs-site.xml和core-site.xml下载到Windows的kettle安装目录中

注意:下面是本教程中路径,cdh集成版有所不同

/export/server/hadoop-3.3.2/etc/hadoop/hdfs-site.xml
/export/server/hadoop-3.3.2/etc/hadoop/core-site.xml

 用Finalshell下载很方便

##放入kettle的安装目录:
pdi-ce-8.2.0.0-342\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations

目前试验的Hadoop版本是3.3.2,放入hdp30,替换文件。如果cdh版本的放入cdh514文件夹

 4.修改plugin.properties文件

data-integration\plugins\pentaho-big-data-plugin\plugin.properties

 重启Hadoop及kettle,记得启动zookeeper,下面要测试联通

5.配置kettle的Hadoop clusters

左侧主对象树----Hadoop clusters右击----new cluster

 关于hdfs的端口号,我最初配置8020,后改为9000了,自己测试连通性,Oozie未配置,不用管

下面可以操作Hadoop组件了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/83967.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Blender 3D环境场景创建教程

Blender 3D环境场景创建教程 学习 Blender 3.2,探索几何节点并创建美妙的 3D 环境 课程英文名:Creating 3D Environments in Blender 2.81 by Rob Tuytel (2019) 此视频教程共8.0小时,中英双语字幕,画质清晰无水印,…

腾讯云从业者基础认证完整笔记

腾讯云从业者基础认证完整笔记 就考这些,干就完事儿了!不要介意图多哟,ppt能更好的表达意思呀 一、云计算基础 1.1 数据中心 一般企业要么自建数据中心EDC,EDC分层如下: 要么租用或者托管也就是IDC如下&#xff…

ZYNQ之FPGA学习----EEPROM读写测试实验

1 EEPROM简介 EEPROM (Electrically Erasable Progammable Read Only Memory,E2PROM)即电可擦除可编程只读存储器,是一种常用的非易失性存储器(掉电数据不丢失)。ZYNQ开发板上使用的是AT24C64,通过IIC协议实现读写操作。IIC通信协议基础知识…

Oracle 11g---基于CentOS7

Oracle 11g安装教程 以下步骤基于网络配置完成,并且能连接xshell和xftp工具 文章目录Oracle 11g安装教程1.将oracle压缩包拷贝到安装机器,指定目录中2.安装依赖包3.验证依赖包4.创建oracle用户5.创建oradata目录,解压oracle安装6.修改系统配置参数7.创建…

2023年开始当年授权或转让的知识产权申报高新将不再认可。

前段时间,由国家科技部火炬中心组织全国高新技术企业管理机构召开会议,会议宣导要求加强企业知识产权管理,强调对当年授权或转让的专利,用来申报当年高新将不再认可。 、从多省市反馈的消息显示部分省市执行了该政策。虽然广东暂…

Java 2022圣诞树+2023元旦倒计时打包一起领走

2022最后一个月充满了期待,平安夜、圣诞节、元旦节;2023年也是一个早年,因此关于程序方面的浪漫,大家应该趁早准备。下面我将分享一个元旦的倒计时和圣诞树的绘制核心代码。大家可以依据自身的需求,稍微调整即可用。 …

振弦渗压计怎样安装?振弦式渗压计工作原理

振弦渗压计是一种长期测量混凝土或地基内的孔隙(渗透)水压力,并可同步测量埋设点温度。适用于大坝工程安全监测、尾矿库工程安全监测、各类公路、桥梁、隧洞安全监测、土工建筑物基坑安全监测等。    1、设备介绍 通过不断的生产工艺技术的积累,采用…

vscode给docker内部的的ros工程代码打断点

背景 打断点debug虽然不能直观看到变量在时间轴上的整体变化曲线,但是其针对某一帧问题数据,暂停后一步步单步执行监视每个变量的变化,方便直观的判断每一步逻辑的正确性,即使这个变量结构再复杂也能直接监视,可以准确…

推荐5款压箱底的小工具软件

今天要给大家推荐5款压箱底的宝贝软件了,百度搜索一下就能找到下载链接了。 1.阅读笔记——BookxNote BookxNote 是一款 PDF 和 EPUB 阅读笔记软件,集阅读、笔记、批注、思维导图、划词翻译等于一体,可以边读边记。它的标注功能非常全&…

惊 GitHub首次开源,在国内外都被称为分布式理论+实践的巅峰之作

前言 蓦然回首自己做开发已经十年了,这十年中我获得了很多,技术能力、培训、出国、大公司的经历,还有很多很好的朋友。但再仔细一想,这十年中我至少浪费了五年时间,这五年可以足够让自己成长为一个优秀的程序员&#…

自有服务器(2台)被 kthreaddk木马挖矿解决过程(实操)不重启服务器

第一台服务器: #查看进程和CPU使用情况 top #查找相关联的进程 systemctl status 326858 #查看下所的 端口号和进程,发现有异常端口和进程 netstat -ntpl #杀死关联进程(异常进程), kill -9 2900707 #杀死主进程&a…

Redis高可用之主从复制架构(第一部分)

引言 之前的文章 Redis持久化策略AOF、RDB详解及源码分析,我们介绍了Redis中的数据持久化技术,包括 RDB快照 和 AOF日志以及混合持久化 。有了持久化技术,我们就不用担心因Redis所在服务机器宕机,导致数据丢失。但是,…

四阶龙格库塔法求解一次常微分方程组(python实现)

四阶龙格库塔法求解一次常微分方程组一、前言二、RK4求解方程组的要点1. 将方程组转化为RK4求解要求的标准形式2. 注意区分每个方程的独立性三、python实现RK4求解一次常微分方程组1. 使用的方程组2. python代码3. 运行结果一、前言 之前在博客发布了关于使用四阶龙格库塔方法…

字节测试开发最牛教程,全栈Jmeter_性能测试(总结)

Jmeter_性能测试(4): 性能测试脚本的优化 以PHP论坛为例:http://47.107.178.45/phpwind/ 根据上一篇的性能测试(3)的脚本进行优化;见下图: 如上图中,把发帖和回帖的事务添加到随机控制器中,登…

一例cobalt Strike 反射式注入payload的分析

一例cobalt Strike payload 反射式dll注入的分析 QakBot(Qbot)与cobalt Strike恶意流量样本分析 | Demon (ggsec.cn)这篇博客中末尾提到了一个cobastrick的payload,这是一段shellcode,主要功能是的解密出一个dll,采用反射式注入的方式启动这…

EC 中的Keyboard Controller

Keyboard Controller简称KBC,它是EC芯片中一个用于处理Keyboard、Mouse的模块,也可以说,它只是一个通道,因为最后处理数据的还是交给EC 8032处理器去处理。KBC只处理挂在EC PS/2接口上的设备,假如接了个usb键盘或鼠标,那可不关它的事。PS/2设备只有两种,即Keyboard和Mou…

React 的设计理念(React 哲学)

文章目录React 的设计理念 的理解解决 CPU 瓶颈解决 IO 瓶颈React 的设计理念 的理解 从 React 官网中的 React 哲学文档中,可以看出 React 目的是实现快速响应 影响快速响应的因素:计算能力和网络延迟,即 CPU 和 IO 的瓶颈 解决 CPU 瓶颈 …

再见 ETH India 2022 建设者们 让我们一起回顾这个美好的建设周

很难超越的1700名黑客马拉松比赛,但是以太坊社区出现并打破了ETH India 2022 的新记录。来自321个城市的2000名与会者在短短的一个周内构建并部署了多达459个项目到以太坊生态系统中。你可能错过了过去一周发生的一切,但幸运的是,我们收集了所…

智能设备带来全新体验,打造未来智能生活

随着科技的快速发展,我们的生活变得越来越智能化,近年来智能设备已经遍布我们生活的各个领域,推动了生产能力和质量,给人们的生活带来了极大的便利。智能设备的出现和发展是时代进步的必然产物,高效、安全、准确性高&a…

【蓝桥杯选拔赛真题50】Scratch小猫跑步 少儿编程scratch图形化编程 蓝桥杯选拔赛真题讲解

目录 scratch小猫跑步 一、题目要求 编程实现 二、案例分析 1、角色分析