【Flume 01】Flume简介、部署、组件

news2025/1/13 15:43:51

1 Flume简介

  • Flume是一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统

  • 主要特性:

    1. 它有一个简单、灵活的基于流的数据流结构(使用Event封装)
    2. 具有负载均衡机制和故障转移机制
    3. 一个简单可扩展的数据模型(Source、Channel、Sink)
  • Source组件:

    1. 从外界采集各种类型数据,将数据传递给Channel
    2. 支持类型有文件、目录、端口、Kafka等
    3. Exec Source:实现文件监控;注意 tail -F(跟踪文件) 和 tail -f 的区别
    4. NetCat TCP/UDP Source: 采集指定端口(tcp、udp)的数据
    5. Spooling Directory Source:采集文件夹里新增的文件
    6. Kafka Source:从Kafka消息队列中采集数据
  • Channel组件:

    1. 接受Source发出的数据,临时存储
    2. 支持类型有内存、文件,内存+文件、JDBC等
    3. Memory Channel:使用内存作为数据的存储,内存有限,临时存储
    4. File Channel:使用文件来作为数据的存储
    5. Spillable Memory Channel:使用内存和文件作为数据存储(即先存到内存中,如果内存中数据达到阈值再flush到文件中)
  • Sink组件:

    1. 从Channel中读取数据并存储到指定目的地
    2. 表现形式:控制台、HDFS、Kafka等
    3. 注意:Channel中的数据直到进入目的地才会被删除,当Sink写入失败后,可以自动重写,不会造成数据丢失
    4. Logger Sink:将数据作为日志处理
    5. HDFS Sink:将数据传输到HDFS中
    6. Kafka Sink:将数据发送到kafka消息队列中

2 Flume部署

访问flume下载地址,下载apache-flume-1.9.0-bin.tar.gz安装包,在/data/soft目录下解压

2.1 修改flume-env.sh文件

cd /data/soft/apache-flume-1.9.0-bin/conf
mv flume-env.sh.template flume-env.sh

将flume-env.sh.template剪切放到flume-env.sh中

2.2 示例

# example.conf: A single-node Flume configuration

# Name the components on this agent 定义组件名称
# 这里定义了一个agent(代理)名为a1,包含了一个source(数据源)r1,一个sink(数据汇)k1,以及一个channel(通道)c1。
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source 配置数据源
# 这里设置数据源r1的类型为netcat(通过网络接收数据),绑定的IP地址为0.0.0.0,监听端口为44444。
a1.sources.r1.type = netcat
a1.sources.r1.bind = 0.0.0.0
a1.sources.r1.port = 44444

# Describe the sink 配置数据汇
# 这里设置数据汇k1的类型为logger(打印日志)。
a1.sinks.k1.type = logger

# Use a channel which buffers events in memory 配置通道
# 这里设置通道c1的类型为memory(内存缓冲区),容量为1000,事务容量为100。
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel 绑定数据源和数据汇到通道:
# 这里将数据源r1绑定到通道c1,将数据汇k1绑定到通道c1。
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

这段代码是一个单节点的Flume配置文件,用于将网络上的数据通过netcat source接收,并通过logger sink输出到日志中。

通过这个配置文件,Flume Agent将会监听44444端口上的网络流量,并将收到的数据通过logger sink输出到日志中。通道c1将以内存缓冲的方式在数据源和数据汇之间传递数据。

执行命令:

cd /data/soft/apache-flume-1.9.0-bin
bin/flume-ng agent --conf conf --conf-file conf/example.conf --name a1 -Dflume.root.logger=INFO,console

该命令是用于启动 Apache Flume 的代理(agent)。以下是对各个部分的解释:

  • bin/flume-ng: 这是 Flume 的启动脚本,用于执行 Flume 的命令。
  • agent: 表示要启动的 Flume 组件是一个代理(agent)。
  • --conf conf: 指定 Flume 配置文件的目录,即 conf 目录。
  • --conf-file conf/example.conf: 指定 Flume 使用的配置文件路径,这里的路径是 conf/example.conf
  • --name a1: 给代理(agent)指定一个名称,此处为 a1
  • -Dflume.root.logger=INFO,console: 设置 Flume 的日志级别为 INFO,并将日志输出到控制台。

综上所述,该命令将使用指定的配置文件(conf/example.conf)启动一个名为 a1 的 Flume 代理(agent),并将日志输出到控制台。

开启另一个Terminal,执行远程连接命令,并输入传输内容:

telnet localhost 44444

telnet localhost 44444 是一条命令,用于在本地主机上使用 Telnet 协议连接到端口号为 44444 的服务。

Telnet 是一种远程登录协议,允许你通过网络(通常是互联网)与其他计算机建立终端会话。在这种情况下,你正在尝试连接到本地主机(localhost)上的 44444 端口。

如果 44444 端口上有运行并配置为接受 Telnet 连接的服务,该命令将建立与该服务的连接。然而,如果该端口上没有运行任何服务,或者被防火墙阻止,连接尝试将失败。

一旦 Telnet 会话建立,你可以使用基于文本的命令与远程服务进行交互。

3 高级组件

相关配置需要参考官方文档

  • Source Interceptors:Source可以指定一个或者多个拦截器按先后顺序依次对采集到的数据进行处理

  • Channel Selectors:Source发往多个Channel的策略设置

  • Sink Processors:Sink发送数据的策略设置

  • Event:

    1. Event是Flume传输数据的基本单位,也是事务的基本单位;在文本文件中,通常一行记录就是一个Event
    2. Event里有header和body;header类型为Map<String, String>
    3. 可以在Source中增加header的<key, value>,在Channel和Sink中使用header中的值

3.1 Source Interceptors

  • 常见Interceptors类型:Timestamp Interceptor、Host Interceptor、Search and Replace Interceptor 、Static Interceptor、Regex Extractor Interceptor等

3.2 Channel Selectors

  • Channel Selectors类型包括:Replicating Channel Selector(default)和Multiplexing Channel Selector
  • Replicating:会将Source采集过来的Event发往所有Channel
  • Multiplexing:会根据Event中header里面的值,将Event发往不同的Channel

3.3 Sink Processors

  • Sink Processors类型包括:Default Sink Processor、Load balancing Sink Processor和Failover Sink Processor
  • Default:是默认的不用配置sinkgroup;Load balancing是负载均衡;Failover是故障转移,后面需要定义sinkgroup

4 性能优化

  • Flume优化

    1. 调整Flume进程的内存大小,建议设置1G~2G,内存设置太小可能导致频繁GC
    2. 启动多个Flume进程时,建议修改配置区分日志文件,复制多个conf目录,修改log4j.properties文件
  • Flume进程监控

    1. Flume是一个单进程程序,会存在单点故障,所以需要有一个监控机制,发现Flume进程Down掉之后,需要重启
    2. 通过Shell脚本使用jps命令对Flume进程进行监控、告警之后并自动重启

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/780761.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C# List 详解一

目录 一、概述 二、构造函数 1.List() 2.List(IEnumerable) 3.List(Int32) 三、属性 1.Capacity 2.Count 3.Item[Int32] 四、方法 1.Add(T) 2.AddRange(IEnumerable) 3.AsReadOnly() 4.BinarySearch(T) C# List 详解一 1.Add…

vue3+antd搭建登录页面——vue3初体验——基础积累

最近在跟着大神学习vue3&#xff0c;学习过程中遇到各种问题&#xff0c;简直跟几年前学习vue2时一样的不知所措。 认识vite_vue3 初始化项目到打包&#xff1a;http://t.csdn.cn/B3bwC 为了方便&#xff0c;我是直接在stepin-template项目的基础上操作的&#xff0c;省略了上…

Unity VisualScripting(Bolt)自定义Node(带详细注释)

效果&#xff1a;获取一个物体的全部子物体和孙物体等从属物体 //引用一些东西&#xff0c;这样才能用某些API using System.Collections; using System.Collections.Generic; using Unity.VisualScripting; using UnityEngine;//类名和Node名一样 public class GetTreeChildr…

为什么要学框架?什么是Spring?

为什么要学框架&#xff1f;什么是Spring&#xff1f; 一、为什么要学框架&#xff1f; 学习框架相当于从 “小作坊” 到 “工厂” 的升级&#xff0c;小作坊什么都要自己做&#xff0c;工厂是组件式装配&#xff0c;特点就是高效。框架更加易用、简单且高效。 框架的优点展…

51单片机--DS18B20温度感应器

文章目录 DS18B20的介绍内部结构框图DS18B20存储器单总线的介绍硬件结构 单总线的时序结构温度存储格式DS18B20操作流程在LCD屏上显示温度实例 DS18B20的介绍 DS18B20是一种常用的数字温度传感器&#xff1b; 下面介绍它的特点和功能&#xff1a; 封装和引脚定义&#xff1a;…

win11我们无法创建新的分区也找不到现有的分区

U盘重装系统的时候 提示&#xff1a;win11我们无法创建新的分区也找不到现有的分区 ShiftF10 &#xff0c;调出 命令提示符&#xff1b; diskpart list disk select disk 盘编号 clean convert gpt 参考&#xff1a;怎么解决我们无法创建新的分区也找不到现有的分区问题&#x…

数据库索引解析(面试重点)

一.索引的基本含义 1.索引类似于一本书的目录&#xff0c;可以加快查询的进度 2.是以列为维度来设置的&#xff08;为一列来添加索引&#xff09; 二.索引的优劣 1.优势&#xff1a;提高查询的速度 2.劣势&#xff1a;占据额外的硬盘空间&#xff08;因为索引的相关数据要存储到…

vue3中将后端传来的json文件转成excel下载到本地

前言&#xff1a; 在浏览器中将JSON格式数据以excel文件的形式下载。该组件是基于[this thread] (https://stackoverflow.com/questions/17142427/javascript-to-export-html-table-to-excel)提出的解决方案。支持Vue3.2.25及以上版本使用 重要提示! Microsoft Excel中的额外提…

亚马逊云科技:云服务是支持数字创新的关键生产力

面对日益复杂的外部环境以及各种不期而至的“黑天鹅”事件&#xff0c;广大企业迫切地需要更加快速、更加高效、更加弹性、性价比更高的解决方案&#xff0c;通过持续不断的数字创新&#xff0c;来应对数字化转型中遭遇的各种挑战。 而在这个过程中&#xff0c;云服务正在发挥至…

opencv常用API记录(python版)

文章目录 1. cv2.minAreaRect2. cv2.boxPoints()3. cv2.drawContours()4. cv2.GaussianBlur5. cv2.Laplacian 1. cv2.minAreaRect 函数cv2.minAreaRect()是OpenCV中用于计算最小外接矩形的函数。它可以根据给定的轮廓点集&#xff0c;计算出一个包围该轮廓的最小外接矩形。 以…

kafka查看消息两种方式(命令行和软件)

1、命令行方式 ①找到kafka安装文件夹 ②执行命令 #指定offset为指定时间作为消息起始位置 kafka-consumer-groups.sh \ --bootstrap-server 20.2.246.116:9092 \ --group group_1 \ --topic lanxin_qiao \ --reset-offsets \ --to-datetime 2023-07-19T01:00:00.000 \ -exe…

【C++进阶之路】适配器、反向迭代器、仿函数

文章目录 前言一、适配器①模拟实现栈②模拟实现对列 二、反向迭代器三、仿函数总结 前言 我们先来笼统的介绍一下今天的三个内容。 适配器——简单的理解就是复用&#xff0c;用已经实现的轮子&#xff0c;来继续实现某种功能。 反向迭代器——原理很简单&#xff0c;就是对…

Openlayers实战:setCenter,setZoom设置跳转

Openlayers开发的项目中,经常会重新设定一个zoom,也会重新跳转到一个中心点。 所用的方法就是setZoom和setCenter。在Openlayers实战中,我们做一个简单的设置,来很好的认识一下这个常用的方法。 效果图 源代码 /* * @Author: 大剑师兰特(xiaozhuanlan),还是大剑师兰特…

Vue3组合式API+TypeScript写法入门

文章目录 前言1.reactive2.ref3.props4.computed5.emit6.watch总结 前言 参考Vue3官网. 本篇以组合式API为例, 但不包含setup语法糖式写法. 原本打算结合class-component, Vue3不推荐就不用了: OverView|Vue Class Component. 而且是不再推荐基于类的组件写法, 推荐单文件组件…

电脑硬盘指的是什么?电脑硬盘长什么样子呢

在很早之前就听说过电脑里面有硬盘&#xff0c;但是不知道电脑硬盘是什么样子&#xff0c;本章文章结合硬盘的接口类型&#xff0c;以及应用技术&#xff0c;说说与硬盘样式有关的知识 一。机械硬盘 如果从硬盘的应用技术来区分硬盘&#xff0c;一般分为两种&#xff0c;早些年…

Leetcode周赛 | 2023-7-23

2023-7-23 题1体会我的代码 题2我的代码 题3体会我的代码 题1 体会 01背包啊。01背包啊&#xff01;怎么能一直往回溯上想&#xff01;还是对动态规划太不熟悉了&#xff01;这不就是01背包吗&#xff1f;还要别人提示才知道。 我的代码 class Solution:def numberOfWays(se…

设计模式再探——状态模式

目录 一、背景介绍二、思路&方案三、过程1.状态模式简介2.状态模式的类图3.状态模式代码4.状态模式还可以优化的地方5.状态模式的项目实战&#xff0c;优化后 四、总结五、升华 一、背景介绍 最近产品中有这样的业务需求&#xff0c;不同时间(这里不是活动的执行时间&…

Spring 统一登录验证、数据格式返回、异常处理的实现

文章目录 spring统一功能实现前言1. 统一用户登录权限验证1.1 传统实现方式1.2 Spring AOP用户统一登录验证1.2.1 Spring 拦截器 2. 统一数据格式返回3. 统一异常处理 spring统一功能实现 前言 在上一篇博客我们介绍了Spring AOP以及简单使用了Spring AOP&#xff0c;这篇博客…

力扣 -- 122. 买卖股票的最佳时机 II

一、题目&#xff1a; 题目链接&#xff1a;122. 买卖股票的最佳时机 II - 力扣&#xff08;LeetCode&#xff09; 二、解题步骤 下面是用动态规划的思想解决这道题的过程&#xff0c;相信各位小伙伴都能看懂并且掌握这道经典的动规题目滴。 三、参考代码&#xff1a; clas…

【数据可视化】基于Python和Echarts的中国经济发展与人口变化可视化大屏

1.题目要求 本次课程设计要求使用Python和ECharts实现数据可视化大屏。要求每个人的数据集不同&#xff0c;用ECharts制作Dashboard&#xff08;总共至少4图&#xff09;&#xff0c;要求输入查询项&#xff08;地点和时间&#xff09;可查询数据&#xff0c;查询的数据的地理…