ETL工具-pentaho企业实战部署

news2024/10/7 16:21:16

📢📢📢📣📣📣
哈喽!大家好,我是【IT邦德】,江湖人称jeames007,10余年DBA及大数据工作经验
一位上进心十足的【大数据领域博主】!😜😜😜
中国DBA联盟(ACDU)成员,目前服务于工业互联网
擅长主流Oracle、MySQL、PG、高斯及GP 运维开发,备份恢复,安装迁移,性能优化、故障应急处理等。
✨ 如果有对【数据库】感兴趣的【小可爱】,欢迎关注【IT邦德】💞💞💞
❤️❤️❤️感谢各位大可爱小可爱!❤️❤️❤️

文章目录

  • 前言
    • 📣 1.pentaho介绍
    • 📣 2.工具包
    • 3.pentaho Server安装
      • 3.1 JDk的安装
      • 3.2 DB部署
      • 3.3 Server安装
    • 4.客户端部署

前言

pentaho在复杂ETL场景、数据中台、数据湖、物联网及AI平台构建中获得企业客户广泛青睐。

📣 1.pentaho介绍

Kettle是一个颇受认可的开源ETL工具,2006年被Pentaho收购,2015年又被Hitachi Vantara收购,正
式命名为PDI。 PDI EE(企业商用版)改进了PDI CE(开源社区版)在作业调度监控、系统安全机制、高可
用性架构、对接SAP、对接Hadoop、对接AI/ML、 自助式DI/BI等方面之不足,尤其是凭借着原厂兜底的专业
技术支持服务保障,近年来Pentaho EE作为日立数据Lumada战略的核心产品组件, 在复杂ETL场景、数据中台、数据湖、物联网及AI平台构建中获得企业客户广泛青睐。

官网:https://www.hitachivantara.com/en-us/home.html
GitHub:https://github.com/pentaho

在这里插入图片描述

📣 2.工具包

下载地址
https://www.hitachivantara.com/en-us/products/dataops-software/data-integration-
analytics/pentaho-community-edition.html
工具包:
Server端:pentaho-server-ce-9.4.0.0-343.zip
客户端:pdi-ce-9.4.0.0-343.zip
驱动包:ojdbc8.jar

3.pentaho Server安装

3.1 JDk的安装

1.JDK下载
https://www.oracle.com/java/technologies/downloads/#java8-windows
2.JDK压缩包解压
tar -xvf jdk-8u361-linux-x64.tar.gz
3.环境变量导入
用vi /etc/profile进入编辑状态,加入下边这段配置
export JAVA_HOME=/mnt/jdk1.8.0_361
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
##环境变量生效
source /etc/profile
##确认安装是否成功
[root@test /root]# java -version
openjdk version "1.8.0_181"
OpenJDK Runtime Environment (build 1.8.0_181-b13)
OpenJDK 64-Bit Server VM (build 25.181-b13, mixed mode)

3.2 DB部署

1.Oracle部署
参考博客:https://jeames.blog.csdn.net/article/details/118666634
2.PG的部署
参考博客:https://jeames.blog.csdn.net/article/details/120052749

3.3 Server安装

1.Server安装包
pentaho-server-ce-9.4.0.0-343.zip

2.新增用户
[root@test ~]# useradd pentaho -d /home/pentaho
[root@test ~]# cd /mnt
[root@test /mnt]#ll
总用量 1402672
-rw-r--r-- 1 root 1436332475 211 17:30 pentaho-server-ce-9.4.0.0-343.zip
[root@test /mnt]# cp pentaho-server-ce-9.4.0.0-343.zip /home/pentaho

3.解压安装包
[root@test ~]# passwd pentaho
[pentaho@test ~]# su - pentaho
[pentaho@pentaho /home/pentaho]# unzip pentaho-server-ce-9.4.0.0-343.zip
[pentaho@pentaho /home/pentaho]# ll
总用量 1402676
drwxr-xr-x 7 pentaho pentaho 4096 119 00:52 pentaho-server
-rw-r--r-- 1 root root 1436332475 211 17:30 pentaho-server-ce-9.4.0.0-
343.zip

4.导入元数据
4.1 Oracle数据源
[root@pentaho /home/pentaho]# cd /home/pentaho/pentaho-server/data/oracle12c
[root@pentaho /home/pentaho/pentaho-server/data/oracle12c]# ll
总用量 20
-rw-rw-r-- 1 pentaho pentaho 840 118 19:06 alter_number_columns.sql
-rw-rw-r-- 1 pentaho pentaho 793 118 19:06 create_jcr_ora.sql
-rw-rw-r-- 1 pentaho pentaho 6112 118 19:06 create_quartz_ora.sql
-rw-rw-r-- 1 pentaho pentaho 715 118 19:06 create_repository_ora.sql
[root@test /root]# cd /home/pentaho/pentaho-server/data/oracle12c
[root@test /home/pentaho/pentaho-server/data/oracle12c]# cp -rf * /home/oracle
[root@test /root]# cd /home/oracle
[root@test /home/oracle]# chown oracle:oinstall *.sql
[root@test /home/oracle]# chmod 775 *.sql
[root@test /root]# su - oracle
[oracle@test /home/oracle]# sqlplus / as sysdba
SQL*Plus: Release 19.0.0.0.0 - Production on Sun Feb 12 20:19:26 2023
Version 19.3.0.0.0
Copyright (c) 1982, 2019, Oracle. All rights reserved.
Connected to:
Oracle Database 19c Enterprise Edition Release 19.0.0.0.0 - Production
Version 19.3.0.0.0
SQL> show pdbs
CON_ID CON_NAME OPEN MODE RESTRICTED
---------- ------------------------------ ---------- ----------
2 PDB$SEED READ ONLY NO
3 ORCLPDB1 READ WRITE NO
## 开PDB库
SQL> alter pluggable database all open;
## 关闭PDB库
SQL> alter pluggable database all close;
SQL> select name,cdb from v$database;
## CDB切到PDB
SQL> alter session set container = ORCLPDB1;
## PDB切到CDB
SQL> conn / as sysdba
--导入源数据
注意:导入的时候记的要按顺序来哈,每个脚本执行后记得推退出重新进入,如果是19C的PDB数据库记得加 @
标识符
SQL> @create_jcr_ora.sql
SQL> @create_quartz_ora.sql
SQL> @create_repository_ora.sql
SQL> @alter_number_columns.sql

5.配置文件修改
--修改配置上传到服务器即可,可参考官网
https://help.hitachivantara.com/Documentation/Pentaho/9.4/Setup/Use_Oracle_as_Your
_Repository_Database_(Archive_installation)
Step 1: Set up Quartz on Oracle
pentaho-server/pentaho-solutions/system/quartz/quartz.properties
Step 2: Set Hibernate settings for Oracle
pentaho-server/pentaho-solutions/system/hibernate/hibernate-settings.xml
Step 3: Replace default version of audit log file with Oracle version
1.Locate the pentaho-server/pentaho-
solutions/system/dialects/oracle10g/audit_sql.xml file.
2.Copy it into the pentaho-server/pentaho-solutions/system directory.
Step 4: Modify Jackrabbit repository information for Oracle

6.Tomcat配置
--JDBC下载链接
https://help.hitachivantara.com/Documentation/Pentaho/9.4/Setup/JDBC_drivers_refer
ence
Step 1: Download driver and apply to the Pentaho Server
1.Download a JDBC Driver JAR from your database vendor or a third-party driver
developer.
2.Copy the JDBC driver JAR you just downloaded to the pentaho-server/tomcat/lib
folder.
3.Copy the hsqldb-2.3.2.jar file to pentaho-server/tomcat/lib if you want to
retain the sample provided by Pentaho.
Step 2: Modify JDBC Connection Information in the Tomcat XML file
1.Consult your database documentation to determine the JDBC class name and the
connection string for your Pentaho Repository database.
2.Navigate to the pentaho-server/tomcat/webapps/pentaho/META-INF directory and
open the context.xml file with any text editor.
3.Add the following code to the file if it does not already exist and replace XE
in the URL setting to reflect the name of your schema.

7.Server启动
[root@test ~]# su - pentaho
[pentaho@pentaho /home/pentaho]# cd pentaho-server
[pentaho@pentaho /home/pentaho/pentaho-server]# ll
总用量 64
drwxr-xr-x 10 pentaho pentaho 303 119 00:52 data
-rw-rw-r-- 1 pentaho pentaho 1276 118 19:06 Encr.bat
-rwxr-xr-x 1 pentaho pentaho 1233 118 19:06 encr.sh
-rw-rw-r-- 1 pentaho pentaho 2252 118 19:06 import-export.bat
-rwxr-xr-x 1 pentaho pentaho 2160 118 19:06 import-export.sh
drwxrwxrwx 2 pentaho pentaho 45 119 00:52 licenses
drwxr-xr-x 5 pentaho pentaho 57 119 00:52 pentaho-solutions
-rw-rw-r-- 1 pentaho pentaho 1714 118 19:06 promptuser.js
-rwxr-xr-x 1 pentaho pentaho 1856 118 19:06 promptuser.sh
-rw-rw-r-- 1 pentaho pentaho 5092 118 19:06 set-pentaho-env.bat
-rwxr-xr-x 1 pentaho pentaho 4634 118 19:06 set-pentaho-env.sh
-rw-rw-r-- 1 pentaho pentaho 2906 118 19:06 start-pentaho.bat
-rw-rw-r-- 1 pentaho pentaho 2100 118 19:06 start-pentaho-debug.bat
-rwxr-xr-x 1 pentaho pentaho 2346 118 19:06 start-pentaho-debug.sh
-rwxr-xr-x 1 pentaho pentaho 3174 118 19:06 start-pentaho.sh
-rw-rw-r-- 1 pentaho pentaho 1633 118 19:06 stop-pentaho.bat
-rwxr-xr-x 1 pentaho pentaho 1546 118 19:06 stop-pentaho.sh
drwxr-xr-x 3 pentaho pentaho 27 119 00:54 third-party-tools
drwxrwxrwx 10 pentaho pentaho 234 118 19:06 tomcat
--启动体制脚本
[pentaho@pentaho /home/pentaho/pentaho-server]# ./start-pentaho.sh
[pentaho@pentaho /home/pentaho/pentaho-server]# ./stop-pentaho.sh
--日志目录
/home/pentaho/pentaho-server/tomcat/logs
tail -f /home/pentaho/pentaho-server/tomcat/logs catalina.out
--网页用于管控任务调度
http://10.128.111.32:8080/pentaho/

8.首次登录后修改密码
用户名:admin 密码;password(初始密码)

在这里插入图片描述
在这里插入图片描述

4.客户端部署

1.解压客户端即可使用
2.配置连接信息
Connect-Repository Manager-Add
http://**.**.**:8080/pentaho
此处记得Display name不能用中文,不然登录后,Connect会看不到
3.用户信息清楚
C:\Users\30112691\.kettle,删除即可
4.数据库连接配置
注意:需要放ojdbc8.jar驱动到 pentaho\pdi-ce-9.4.0.0-343\data-integration\lib目录中。
(DESCRIPTION = (ADDRESS = (PROTOCOL = TCP)(HOST = 10.168.11.10)(PORT = 1521))
(CONNECT_DATA =(SERVER = DEDICATED)(SERVICE_NAME = ORCLPDB1)))
注意:如果保存job有报错,记得Spoon.bat中添加如下的字符集配置
"-Dfile.encoding=UTF-8"

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/415941.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++二叉搜索树与KV模型

二叉搜索树与KV模型二叉搜索树概念与操作性能分析实现KV模型二叉搜索树 本章是为了C的map和set做铺垫 概念与操作 二叉搜索树又称二叉排序树,它或者是一棵空树,或者是具有以下性质的二叉树: 若它的左子树不为空,则左子树上所有节点的值都小…

面试题之vue的响应式

文章目录前言一、响应式是什么?二、Object.defineProperty二、简单模拟vue三、深度监听四、监听数组总结前言 为了应对面试而进行的学习记录,可能不够有深度甚至有错误,还请各位谅解,并不吝赐教,共同进步。 一、响应式…

如何做好 IT 项目管理?做好项目管理常用的9大项目管理平台、7大管理方法

一个好的管理,是70%在流程、规范、工具,剩下的30%自由发挥。一个不好的管理,只有地板,每个人都要自己想办法,够到天花板。一个好的工具,就是帮助团队够到天花板的台阶。——刘润 项目管理是一门复杂的艺术&…

统一的文件管理,团队轻松协作

目前IT行业大都采用项目经理制的管理方式,这种管理方式下各个部门间相互独立,同时各部门间也缺乏沟通协作。因此IT行业在文件管理上主要面临以下几个问题: 文档缺乏集中管理:企业在管理过程中产生的大量文件分散在各个部门中&…

Python升级 pip : python -m pip install --upgrade pip,socket.timeout加入超时处理方法

人生苦短,我用python 最近又遇到了一个小的报错问题, 趁现在我还没有忘记, 赶紧来写一写… python 安装包资料报错交流:点击此处跳转文末名片获取 WARNING: You are using pip version 19.3.1; however, version 20.0.2 is available. You…

系统学习Numpy(一)——numpy的安装与基础入门[向量、矩阵]

系列文章目录 numpy的安装与基础入门[向量、矩阵与维度] numpy的安装与基础入门[向量、矩阵与维度]系列文章目录前言numpy安装向量与矩阵生成向量生成矩阵向量类型前言 numpy是科学计算以及机器学习深度学习的基础必备工具,本文将介绍numpy的安装,以及…

C语言课设项目-51单片机-中断系统

(创作不易,感谢有你,你的支持,就是我前行的最大动力,如果看完对你有帮助,请留下您的足迹) 目录 51单片机的中断系统 一、中断的概念 二、51单片机的中断系统结构 三、中断允许控制 四、中断…

C#,初学琼林(06)——组合数的算法、数据溢出问题的解决方法及相关C#源代码

1 排列permutation 排列,一般地,从n个不同元素中取出m(m≤n)个元素,按照一定的顺序排成一列,叫做从n个元素中取出m个元素的一个排列(permutation)。特别地,当mn时,这个排列被称作全…

vs code c语言断点调试window版解决方案

序: 1、这一步不懂劝退多少人,博主搜到了多少博文都是mac的,结果发现都对不上! 先看最终效果演示 接下去我每个步骤,你都仔细看,漏看一个环境都对不上! 正文 1、先去看博主的c/c运行环境配置图…

10-vue3动画

文章目录1.vue的transition动画1.1transition的基本使用1.2transition组件的原理1.3过渡动画的class1.4class的命名规则和添加时机1.5显示的指定过渡时间1.6过渡的模式mode1.7动态组件的切换1.8.appear初次渲染2、animation动画2.1同时设置animation和transition3.结合第三方库…

【Bard】来自谷歌的“吟游诗人”

个人主页:【😊个人主页】 文章目录前言Bard与相关产品的对比Bard VS 弱智吧来自对手的评论ChatGPT文心一言总结:前言 相比较ChatGPT的话题不断,谷歌的“Bard”显然低调了许多,在“画大饼”失败一个多月后&#xff0c…

【Python开发手册】深入剖析Google Python开发规范:规范Python注释写作

💖 作者简介:大家好,我是Zeeland,全栈领域优质创作者。📝 CSDN主页:Zeeland🔥📣 我的博客:Zeeland📚 Github主页: Undertone0809 (Zeeland) (github.com)&…

高通开发系列 - linux kernel内核升级msm-4.9升级至msm-4.19(2)

By: fulinux E-mail: fulinux@sina.com Blog: https://blog.csdn.net/fulinus 喜欢的盆友欢迎点赞和订阅! 你的喜欢就是我写作的动力! 目录 MDSS PLL驱动问题msm-4.19内核适配nand flashMDSS PLL驱动问题 | /home/peeta/sc262R_private_rl/build-msm8909/tmp/work-shared/ms…

第01章_Java语言概述

第01章_Java语言概述 讲师:尚硅谷-宋红康(江湖人称:康师傅) 官网:http://www.atguigu.com 1. Java知识脉络图 1.1 Java基础全程脉络图 1.2 本章专题与脉络 2. 抽丝剥茧话Java 2.1 当前大学生就业形势 麦可思研究院…

C++之红黑树

文章目录前言一、概念二、性质三、结点的定义四、红黑树的结构五、插入操作1.插入代码2.左单旋3.右单旋4.插入新结点的情况分析与总结第一步、按照搜索二叉树的规则插入新结点第二步、分析插入结点后红黑树的性质是否被破坏动态演示:六、验证红黑树1.检测是否满足二…

口令暴力破解--Telnet协议暴力破解、数据库暴力破解与远程桌面暴力破解

Telnet协议暴力破解 Telnet Telnet协议是TCP/IP协议族中的一员,是Internet远程登陆服务的标准协议和主要方式。它为用户提供了在本地计算机上完成远程主机工作的能力。要开始一个telnet会话,必须输入用户名和密码来登录服务器。而一般服务器不会对用户名…

【数据结构】6.4 AVL树(C++)

【数据结构】——6.4 AVL树 没有学过二叉搜索树(也叫二叉排序树或二叉查找树)的小伙伴们建议先学习一下,这样阅读会更轻松哦 点我学习二叉搜索树 目录一、AVL树的概念1. 二叉搜索树的问题2. AVL树的性质二、AVL树实现平衡的方法1. 更新平衡因…

【音视频第11天】GCC论文阅读(2)

A Google Congestion Control Algorithm for Real-Time Communication draft-alvestrand-rmcat-congestion-03论文理解 看中文的GCC算法一脸懵。看一看英文版的,找一找感觉。 目录Abstract1. Introduction1.1 Mathematical notation conventions2. System model3.Fe…

Shader 海面/水面

首先用Terrain在场景中随便做个地形,当作海底 上面加个Plane作为海面 实现海水效果要考虑海水深度对颜色的影响,法线移动形成波浪,菲涅尔,高光等效果 深度 海水深的地方颜色深,浅的地方颜色浅,所以海边和…

fastDFS文件管理系统在linux下部署

1.概述 fastDFS分布式文件系统包括三个中要部分:追踪器、存储节点、客户端,可以使用文件存储,文件同步,文件访问等功能,用来存储大容量数据 存储节点集群: 横向扩容:增加存储容量 纵向扩容&…