使用kettle进行日志分析

news2024/11/28 4:16:45

分析日志是一个大数据分析中较为常见的场景。在Unix类操作系统里,Syslog广泛被应用于系统或者应用的日志记录中。Syslog通常被记录在本地文件内,比如Ubuntu内为/var/log/syslog文件名,也可以被发送给远程Syslog服务器。Syslog日志内一般包括产生日志的时间、主机名、程序模块、进程名、进程ID、严重性和日志内容。具体的日志内容如下所示:

Jun 01 17:29:28 localhost bash[39095]: 10.212.143.73 : root : /root : ls --color=auto /var/log/messages

Jun 01 17:29:30 localhost bash[39132]: 10.212.143.73 : root : /root : vim /var/log/messages

Jun 01 17:29:45 localhost bash[39217]: 10.212.143.73 : root : /root : tail -2 /var/log/messages

Jun 01 17:29:50 localhost bash[39242]: 10.212.143.73 : root : /root : tail -5 /var/log/messages

数据最前面为时间,主机名、进程名,可选的进程ID,用户名,最后是日志内容。

请同学们将上面的数据保存到本地,进行如下操作:

1.将日志从文件中提取,并使用正则表达式控件获取日志的内容,分别放于时间、主机名等字段中;

使用文本文件输入控件和正则表达式控件。文本文件从文档中按行获取日志信息,并将其指定为“日志”字段输出到正则表达式控件,再使用正则表达式控件进行正则表达式的字符串匹配及

文本文件输入控件的配置如下图所示

首先使用浏览选择日志文件,再用使用增加按钮添加文件到选中的文件栏中,最后再配置字段页面,如图所示。

正则表达式控件的配置如图21所示,首先选定匹配的字段为日志,再选中为每个捕获组创建一个字段,接着可以使用Test regEx创建并测试正则表达式,如图22所示,最后在捕获组字段中按测试中顺序填入捕获组的字段名称和数据类型即可。

使用的正则表达式如下:

(\w{3} \d{2} [\d:]+) ([\w]+) [\w]+\[(\d+)\]: ([\d.]+) : (\w+) : /\w+ : (.+)

 

 配置完成后,就可以点击左上角转换按钮进行转换。并可以在spoon界面下的执行结果栏中的Preview data中看到结果,如下图所示。

2.根据上面已经获得的数据,筛选出命令为vim的日志,将上一步捕获而来的字段保存到Excel表格中:

在上一题的基础上,使用过滤记录控件、字段选择控件和Excel输出控件。布局如下图所示。

 过滤记录控件配置如图所示:

字段选择控件配置如图所示,先获取全部字段,再在移除页面选择多余字段进行删除,Excel输出控件配置可参考上面的图

 配置完成后,可以运行转换,结果如图所示。

 

 3.在第1问结果的基础上,将获取到的时间使用拆分字段控件分成月份、日期、时间三个字段。

在第一问的基础上使用拆分字段控件,具体布局如下图所示:

 拆分字段控件配置如下图所示,其中分隔符中需要填入空格,并在字段栏中填入新字段的名称和数据类型。

最后运行转换,得到的结果如图所示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/599804.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

机构的专属的线上招生 教学小程序搭建教程

小程序已经成为了很多教育机构的招生、推广重要渠道之一。相比于传统的网站或APP而言,小程序更加轻量级,更加易于传播和分享。在小程序搭建过程中,无需编写复杂的代码,只需要根据模板进行简单的操作,就可以轻松打造自己…

【Web开发技术】JWT令牌技术(信息安全)

文章目录 一、描述二、依赖三、配置四、java文件中的准备五、开始使用 一、描述 说到JWT令牌技术,就需要提到cookie和session两种技术。这两种技术在跨域问题(计算机网络的知识,百度可以搜到,就回归重点)上存在一定的局…

《智能新工厂规划白皮书》下 | “四步”规划智能工厂

中国制造业有着最大制造产能、最强配套能力和最大消费市场三个无可比拟的优势,随着产能升级,众企业的新工厂会开展智能工厂规划布局,从而实现降本减耗、提高效益的经营目标,以增强企业市场竞争力。 新工厂规划时,企业…

【GitHub已开源】某博热点事件评论数据分析与用户情感分析平台完整项目

找遍全网无奈只能自己开发某博热点评论数据爬取与用户情感分析平台,这就是技术人的创新! 最近想看一下微博热点评论的用户人群情感趋势,想到的就是去爬取某博的评论数据,然后进行一个可视化的情感分析。想想吧,这个项目…

RPC核心原理

大家好,我是易安,今天我们一起来研究下RPC的核心原理。 什么是RPC? RPC的全称是Remote Procedure Call,即远程过程调用。简单解读字面上的意思,远程肯定是指要跨机器而非本机,所以需要用到网络编程才能实现…

用Gmail邮箱注册任天堂日本区账号

任天堂是一家日本公司,日区的任天堂可以买到常驻的任亏券,兑换任天堂第一方游戏,而且经常搞活动,可以买到低价的游戏。 首先进入任天堂官网 https://accounts.nintendo.com/register 注册账号 比如我的Gmail邮箱为 zhaooleegma…

EBU6304 Software Engineering 知识点总结_3 requirements

requirements 确定需求是软工设计中最重要的部分。 feature to satisfy customer. indicates what should this sys do. 可能是高层抽象的需求 high-level abstract 或者底层具体的 low-level specific. Stakeholder 利益相关者:受系统影响的组织或个人&#x…

STM32驱动W25Q64---笔记

这次来分享最近经常用到的知识点----FLASH 初学者会疑惑,有了EEPROM为什么还要用W25Q64呢?(笔者一开始就百思不得其解) 答: EEPROM和W25Q64都是用于数据存储的存储器,它们各有优缺点,需要根据…

chatgpt赋能python:Python的修改及其对SEO的影响

Python的修改及其对SEO的影响 介绍 Python是一种高级编程语言,以其简单易学和功能强大而闻名。它被广泛用于开发各种应用程序,从网站到机器学习和大数据分析。Python不断更新和改进,新版本带来了许多新功能和改进,这些修改对SEO…

如何读取带空格的字符串?

scanf()函数在读取字符时,识别到空格就会终止读取,那么如何读取带空格的字符串呢? 一、gets()(gets_s()) 从标准输入(stdin)(指的是键盘输入)读取字符,并将它们作为 C 字符串存储到…

1688详情 sign签名分析

本文仅供学习交流,只提供关键思路不会给出完整代码,严禁用于非法用途,若有侵权请联系我删除! 网站地址:aHR0cHM6Ly9kZXRhaWwuMTY4OC5jb20vb2ZmZXIvNzEzNDMzMDYyOTUzLmh0bWw 接口:aHR0cHM6Ly9oNWFwaS5tLjE…

软件工程学复习笔记

目录 软件工程学概述软件危机的典型表现、产生原因、消除途径软件的构成:程序、数据、文档软件工程的七点特性软件工程的七条基本原理软件工程方法:传统方法学,面向对象方法学软件的生命周期:三个时期,软件定义&#x…

MMPose学习笔记1

文章目录 摘要什么是人体姿态估计3D 姿态估计人体参数化模型下游任务2D姿态估计多人姿态估计:自顶向下方法基于回归的自顶向下方法基于热力图的自顶向下方法 多人姿态估计:自底向上方法单阶段方法基于Transformer的方法小结 3D姿态估计评估指标 Dense Po…

面向对象特征之一:封装和隐藏

为什么要引入封装性? ●我们程序设计追求“高内聚,低耦合” ➢高内聚:类的内部数据操作细节自己完成,不允许外部干涉; ➢低耦合:仅对外暴露少量的方法用于使用。 ●隐藏对象内部的复杂性,只对外公开简单的接口。便于外界调用&am…

ISIS路由渗透实验

1)拓扑 2)需求:ISIS全网互联互通 3)原因分析: 因为,L1/2 路由器(R4、R8)学习到L1类型路由信息会装进L2-LSP,在泛洪给其他区域的L2和L1/2路由器,所以&#x…

【socket】从计算机网络基础到socket编程——Windows Linux C语言 + Python实现(TCP+UDP)

一、部分基础知识1.1 计算机网络的体系结构1.11 互联网简介1.12 计算机网络的分类1.13 协议与网络的分层体系结构▶ 协议▶ 网络的分层体系结构 1.14 OSI 七层模型(重要)▶ OSI 模型的结构▶ OSI 模型各层的功能 1.15 TCP/IP 的体系结构(重要…

linux服务器彻底清除xmrig挖矿病毒

不想看前面的内容可直接进入第三点看解决方案。 一,事件起因 二,检查过程 三,解决方案 1,找到病毒文件 2 ,杀死病毒进程,删除病毒文件 3,查看linux服务器上的定时任务 4,最后&…

【MySQL新手到通关】第七章 聚合函数使用详解

文章目录 0. 前置1. 聚合函数介绍1.1 AVG 和 SUM 函数1.2 MIN 和 MAX 函数1.3 COUNT函数 2. GROUP BY2.1 基本使用 3. HAVING3.1 基本使用3.2 WHERE和HAVING的对比 0. 前置 为了方便测试,我们导入一些数据 SET NAMES utf8mb4; SET FOREIGN_KEY_CHECKS 0;-- ------…

编程(39)----------多线程中的锁

假设一个这样的场景: 在多线程的代码中, 需要在不同的线程中对同一个变量进行操作. 那此时就会出现问题: 多线程是并发进行的, 也就是说代码运行的时候, 俩个线程会同时对一个变量进行操作, 这样就会涉及到多线程的安全问题: class Counter{public int count;public void add…

RPC核心原理(整体架构/调用过程)

Server: Provider ,暴露服务,服务提供方 Client: Consumer ,服务消费,调用远程服务 Registry:服务注册与发现 RPC的调用过程如下: 第一步:server会将他需要暴露的服务以及他的地址信息注册到Registry这一注册中心。 第二步:client通过注册…