使用 Kettle 完成数据 ETL

news2025/1/16 18:08:28

文章目录

  • 使用 Kettle 完成数据 ETL
  • 数据清洗
  • 数据处理

使用 Kettle 完成数据 ETL

现在我们有一份网站的日志数据集,准备使用Kettle进行数据ETL。先将数据集加载到Hadoop集群中,然后对数据进行清洗,最后加载到Hive中。

在本地新建一个数据集文件weblogdata.txt,文件内容如下所示:

2018-10-01 10:00:00,"http://www.example.com/path/to/page1.html",192.168.1.1,"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
2018-10-01 10:00:01,"http://www.example.com/path/to/page2.html",192.168.1.2,"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
2018-10-01 10:00:02,"http://www.example.com/path/to/page3.html",192.168.1.3,"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
2018-10-01 10:00:03,"http://www.example.com/path/to/page4.html",192.168.1.4,"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
2018-10-01 10:00:04,"http://www.example.com/path/to/page1.html",192.168.1.1,"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
2018-10-01 10:00:05,"http://www.example.com/path/to/page1.html",192.168.1.2,"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
2018-10-01 10:00:06,"http://www.example.com/path/to/page2.html",192.168.1.3,"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
2018-10-01 10:00:07,"http://www.example.com/path/to/page3.html",192.168.1.1,"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"

字段说明如下:

  • timestamp:时间戳,格式为“yyyy-MM-dd HH:mm:ss”。
  • url:网页 URL。
  • ip:访问该网页的 IP 地址。
  • useragent:访问该网页的用户代理(即浏览器)

在之前创建的作业中,点击“核心对象”标签,选择“通用”下面的“START”,拖曳1个“START”控件到右侧的设计区域。

在左侧项目栏的核心对象中,选择“Big Data”下面的“Hadoop Copy Files”控件,拖曳1个“Hadoop Copy Files”控件到右侧的设计区域。然后,单击“START”控件,在弹出的下拉选项中,选择最右侧的按钮,将箭头拖拽至“Hadoop Copy Files”控件,使得“Hadoop Copy Files”与“START”控件之间建立连接。

在设计区域的“Hadoop Copy Files”控件图标上双击,将会弹出属性设置对话框。编辑属性如下:

  • Source Environment:选择“Local”。

  • 源文件/目录:选择本地文件路径。

  • 通配符:空。

  • Destination Environment:选择“Hadoop local”,这是我们之前已经建立好的Hadoop Clusters 对象。

  • Destination File/Folder:选择 HDFS 上的目录,本例为/input。如果不存才该目录,使用命令“hdfs dfs -mkdir /input”进行创建。

点击“确定”,保存设置后,单击设计区域顶部快捷图标栏的三角形“运行”按钮,开始运行作业。

单击运行按钮以后,会弹出图所示的“执行作业”窗口,单击界面底部的“执行”按钮即可。

执行后,在作业设计区域底部可以看到执行的日志信息和作业度量信息。

如果是没有权限操作 HDFS中的“/input”目录。这也与之前在配置 Hadoop 集群连接的时候,产生“User Home Directory Access”和“Root Directory Access”这两条错误信息的原因一致。我们可以通过配置“/input”目录的权限,来解决此处报错。具体命令如下所示。

[user@hadoop102 ~]$ hdfs dfs -chmod 777 /input

修改完目录权限后,我们再次点击“运行”即可。

运行成功后我们可以在Linux终端中使用如下命令进行查看。

[user@hadoop102 ~]$ hdfs dfs -ls /input

-rw-r--r--   3  LZ  supergroup	 1472	 2023-05-07 17:05 	/input/weblogdata.txt

可以看到数据已经成功加载到HDFS中。

数据清洗

在之前的操作中,我们将数据集文件导入到 HDFS 的过程中,没有进行任何处理。现在我们想对输入的文件进行一个初步的清洗,将时间戳中的时分秒删除,只保留年月日,然后再加载到HDFS中。

先删除上一节中导入的数据。

[user@hadoop102 ~]$ hdfs dfs -rm /input/weblogdata.txt

在 Spoon 主界面的操作菜单中,依次选择“文件”→“新建”→“转换”,创建一个新的转换并保存,可以保存名称为“deleteTime”。

​在左侧项目栏的“核心对象”中,选择“输入”→“文本文件输入”,拖曳该控件到右侧的设计区域。

在“文本文件输入”控件图标上双击鼠标,然后单击“增加”按钮,单击“文件或目录”右侧的“浏览”按钮,选择weblogdata.txt文件。

​单击 “内容”,将分隔符改成“,”,即改成英文逗号,并把“头部”复选框的勾号去掉,不要选中,否则第一行的信息可能会丢失。

单击“字段”选项卡,单击“获取字段”按钮,将所有字段的字段类型都设置为“String”,再单击“确定”按钮。

在 Spoon 主界面的左侧项目栏的“核心对象”中,选择“转换”→“剪切字符串”,拖曳该控件到右侧的设计区域,并与“文本文件输入”控件进行连接。

双击鼠标打开“剪切字符串”控件属性设置对话框,将“输入流字段”设置为“Field1”, “输出流字段”不用改变,“起始位置”设置为 0,“结束位置”设置为10,单击“确定”按钮。

​在 Spoon 主界面的左侧项目栏的“核心对象”中,选择“Big Data”→“Hadoop File Output”, 拖拽该控件到右侧的设计区域,并与“剪切字符串”控件进行连接,连接时会出现两个选项,即“主输入步骤”和“错误处理步骤”,这里需要选择“主输入步骤”。

双击鼠标打开“Hadoop File Output”控件属性设置对话框,将“Hadoop cluster”设置为“Hadoop”,也就是直接使用已经配置好的 Hadoop 集群名称。在“文件”选项卡中,单击“Folder/File”右侧的“浏览(B)…”按钮,找到 HDFS 中的目录“input”(这个目录在之前的步骤中已经创建),单击“OK”按钮。在 input 后输入/logs。

在“内容”选项卡中,将“分隔符”里的符号改为英文逗号“,”,然后将“头部”复选框的勾号去掉,不要选中。

在“字段”选项卡中,依次单击下面的“获取字段”按钮和“最小宽度”按钮,然后单击“确定”按钮。

执行转换单击 Spoon 主界面的顶部菜单的运行按钮,进入执行转换界面,单击“启动”按钮开始执行转换。如果转换过程成功执行,所有控件右上角都会显示“勾号”。

在这里插入图片描述

转换完毕后,就可以在 Linux 终端中使用 HDFS Shell 命令查看刚才传输到 HDFS 中的各个文件。可以使用如下命令查看数据。

[user@hadoop102 opt]$ hdfs dfs -cat /input/logs.txt

结果如图所示。可以看出原来时间戳里面时分秒信息,已经被成功删除。

在这里插入图片描述

数据处理

在之前的示例中,我们已经演示完毕如何用 Kettle 将本地文件初步清洗后导入到 HDFS中,接下来我们尝试使用 Kettl 执行 Hive 的 HiveQL 语句,尝试统计每个页面的访问量,按由高到底排序。

在Hive中建表语句如下所示。表中数据如图所示。

CREATE EXTERNAL TABLE weblogs (
datetime STRING,
url STRING,
ip STRING,
user_agent STRING
)ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION '/input';

在这里插入图片描述

新建一个 Kettle 作业,只有“START”和“SQL”两个作业项,可以保存名称为“visits”。参考之前的步骤,拖拽“START”和“SQL”(在“脚本”下面)这两个控件,并进行连接。

在“SQL”控件图标上双击鼠标,打开属性设置对话框,在 SQL 脚本文本框中输入 SQL语句如下所示。

CREATE TABLE weblogs_visits as
SELECT url, COUNT(*) AS visit_count
FROM weblogs
GROUP BY url
ORDER BY visit_count DESC;

在确认已经启动 HiveServer2 服务后,单击“启动”按钮开始执行作业。执行完毕后,查询 weblogs_visits 表内容。

在这里插入图片描述

从图中可以看到url已经按照访问量倒序排列,page1是被访问次数最多的页面。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1280989.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Active Stereo Without Pattern Projector论文精读

1.背景补充 主动立体相机和被动立体相机的主要区别在于它们获取立体视觉信息的方式 主动立体相机12: 主动立体视觉是指寻找最佳的视角去重建目标或者场景1。主动视觉的实现方式通常有:改变环境中的光照条件、改变相机的视角、移动相机自身位置等&…

大模型中幂律缩放法则和涌现能力

幂律缩放法则是一种用于描述两个变量之间关系的数学模型。 根据幂律缩放法则,当一个变量的值变化时,另一个变量的值以指数方式变化。具体而言,幂律缩放法则可以表示为Y a * X^b,其中Y表示一个变量的值,X表示另一个变…

国民技术N32_MCU ADC如何获取高精度采样数据

前言 国民技术微控制器内置最多四个高级 12 位 ADC (取决于产品系列) ,具有校准功能,用于提高环境条件 变化时的 ADC 精度。 在涉及模数转换的应用中, ADC 精度会影响整体的系统质量和效率。为了提高此精度,必须了解与 ADC 相关…

鸿蒙开发学习笔记

快速入门 配置网络权限 1.打开项目的 module.json5 文件 2.在module 里面写下面代码 3.这样就可以使用网络图片了 4.模拟器上就可以正常显示网络图片了 5.官方文档有相关说明 6. 华为官方编辑工具使用技巧(内置文档),鼠标移动到标签上&…

JVM内存结构:StringTable与常量池关系

首先看一道题 这就涉及到StringTable和常量池,答案在文末,全做对就不用看了 而StringTable的位置在不同版本也有变化 , 我们只探讨jdk1.8版本 与StringTable 串池对应的是常量池 案例一、常量池和串池联系 引用所指肯定不会是常量池中的字…

实验6 二叉树操作

0x01 实验目的 掌握二叉树的基本概念,二叉树的存储结构使用链表。 0x02 实验内容 输入一个完全二叉树的层次遍历字符串,创建这个二叉树,输出这个二叉树的前序遍历字符串、中序遍历字符串、后序遍历字符串、结点数目、二叉树高度(上述每一个…

基于Java SSM框架+Vue实现旅游资源网站项目【项目源码+论文说明】

基于java的SSM框架Vue实现旅游资源网站演示 摘要 本论文主要论述了如何使用JAVA语言开发一个旅游资源网站 ,本系统将严格按照软件开发流程进行各个阶段的工作,采用B/S架构,面向对象编程思想进行项目开发。在引言中,作者将论述旅游…

notepad ++ 用法大全【程序员必会高级用法】

目录 1:notepad 介绍 2: 快捷键 3: notepad 实用插件 1:notepad 介绍 notepad是一款免费且开源的文本编辑器,可运行在Windows系统上。它支持多种编程语言,包括C、C、Java、Python等等。Notepad具有许多实…

Qt国际化翻译Linguist使用

QT的国际化是非常方便的,简单的说就是QT有自带的翻译工具把我们源代码中的字符串翻译成任何语言文件,再把这个语言文件加载到项目中就可以显示不同的语言。下面直接上手: 步骤一:打开pro文件,添加:TRANSLA…

Mysql安全之基础合规配置

一、背景 某次某平台进行安全性符合型评估时,列出了数据库相关安全选项,本文特对此记录,以供备忘参考。 二、安全配置 2.1、数据库系统登录时的用户进行身份标识和鉴别; 1)对登录Mysql系统用户的密码复杂度是否有要…

MYSQL报错 [ERROR] InnoDB: Unable to create temporary file; errno: 0

起因 服务器的mysql不支持远程访问,在修改完相关配置后重启服务出错。 2023-12-03T10:12:23.895459Z 0 [Note] C:\Program Files\MySQL\MySQL Server 5.7\bin\mysqld.exe (mysqld 5.7.22-log) starting as process 15684 ... 2023-12-03T10:12:23.908886Z 0 [Note…

TimiGP细胞互作算法

介绍: 通过推断细胞间相互作用和免疫细胞预后价值来研究时间的计算方法。我们的方法将存活统计数据与批量转录组学图谱相结合,以构建免疫细胞-细胞相互作用网络,其中边缘(例如,X → Y)表明高 X/Y 比值与良…

unity学习笔记17

一、动画组件 Animation Animation组件是一种更传统的动画系统,它使用关键帧动画。你可以通过手动录制物体在时间轴上的变换来创建动画。 一些重要的属性: 1. 动画(Animation): 类型: Animation组件允许…

React如何检查组件性能

可以使用Profiler来查看组件的渲染速度 Profiler的基本使用 需要将<Profiler>标签包裹在需要检查渲染速度的组件外部需要绑定id属性&#xff0c;该属性是唯一标识&#xff0c;用于区分其他Profiler需要onRender函数&#xff0c;该函数一共有六个参数&#xff0c;分别为…

海德汉(HEIDENHAIN)CNC数据采集(可免授权)

一&#xff0c;概述 海德汉 常见的系统一般有530、640系统&#xff0c;采集一般有两种方法&#xff1a; &#xff08;1&#xff09;购买海德汉官方的SDK&#xff0c;HeidenhainDNC COM Component&#xff0c;安装之后有相应的demo&#xff0c;支持的语言有C#、C/C。此方法还需…

蓝桥杯物联网竞赛_STM32L071_8_ADC扩展模块

原理图&#xff1a; 扩展模块原理图&#xff1a; RP1和RP2分别对应着AIN1和AIN2&#xff0c;扭动它们&#xff0c;其对应滑动变阻器阻值也会变化 实验板接口原理图&#xff1a; 对应实验板接口PB1和PB0 即AN1对应PB1, AN2对应PB0 CubMx配置&#xff1a; ADC通道IN8和IN9才对…

牛客在线编程(SQL大厂面试真题)

1.各个视频的平均完播率_牛客题霸_牛客网 ROP TABLE IF EXISTS tb_user_video_log, tb_video_info; CREATE TABLE tb_user_video_log (id INT PRIMARY KEY AUTO_INCREMENT COMMENT 自增ID,uid INT NOT NULL COMMENT 用户ID,video_id INT NOT NULL COMMENT 视频ID,start_time d…

leetcode 142.环形链表2

我来更新 leetcode 题目了&#xff0c;接着上一次&#xff0c;这一次是上一道题目的提升&#xff08;有点数学题的感觉&#xff09; 142.环形链表2 题目 给定一个链表的头节点 head &#xff0c;返回链表开始入环的第一个节点。 如果链表无环&#xff0c;则返回 null。 如果链表…

物奇平台电容触摸功能调试

是否需要申请加入数字音频系统研究开发交流答疑群(课题组)?可加我微信hezkz17, 本群提供音频技术答疑服务,+群赠送语音信号处理降噪算法,蓝牙耳机音频,DSP音频项目核心开发资料, 物奇平台电容触摸功能调试 1 修改按键驱动宏 2 编译生成wpk 文件,import 导入烧录文件。…

【Vulnhub靶机】w1r3s.v1.0.1-CuppaCMS

文档说明&#xff1a;https://www.vulnhub.com/entry/w1r3s-101,220/ 靶机下载&#xff1a;Download (Mirror): 信息收集 主机发现 -sn 扫描整个C段&#xff0c;不进行端口扫描&#xff0c;只打印可用主机&#xff0c;n代表not port scan sudo nmap -sn 10.9.75.0/24 -oA su…