二百一十五、Flume——Flume拓扑结构之复制和多路复用的开发案例(亲测,附截图)

news2025/2/22 22:17:47

一、目的

对于Flume的复制和多路复用拓扑结构,进行一个小的开发测试

二、复制和多路复用拓扑结构

(一)结构含义

Flume 支持将事件流向一个或者多个目的地。

(二)结构特征

这种模式可以将相同数据复制到多个channel 中,或者将不同数据分发到不同的 channel 中,sink 可以选择传送到不同的目的地

三、需求案例

(一)案例需求

使用 Flume-1 监控文件变动,Flume-1 将变动内容传递给 Flume-2,Flume-2 负责存储到 HDFS。同时 Flume-1 将变动内容传递给 Flume-3,Flume-3 负责输出到 LocalFileSystem。

(二)需求分析

四、前期准备

(一)安装好Hadoop、Hive、Flume等工具

(二)查看Hive的日志在Linux系统中的文件路径

[root@hurys23 conf]# find / -name hive.log
/home/log/hive312/hive.log

(三)在HDFS中创建文件夹flume2,即Hive日志写入的HDFS文件

(四)在/opt/flume目录下创建 flume3 文件夹

[root@hurys23 ~]# cd /opt/flume/
[root@hurys23 flume]# mkdir flume3
[root@hurys23 flume]# ll
总用量 0
drwxr-xr-x 2 root root   6 12月 12 14:41 flume3
drwxr-xr-x 3 root root 102 12月  5 16:08 upload

五、创建flume的任务文件

(一)创建任务文件1     flume-file-flume.conf

配置1个接收日志文件的source和两个channel、两个sink,分别输送给 flume-flume-hdfs 和 flume-flume-dir。

[root@hurys23 conf]# vi flume-file-flume.conf

# Name the components on this agent
a1.sources = r1
a1.sinks = k1 k2
a1.channels = c1 c2

# 将数据流复制给所有 channel
a1.sources.r1.selector.type = replicating

# Describe/configure the source
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /home/log/hive312/hive.log
a1.sources.r1.shell = /bin/bash -c

# Describe the sink
# sink 端的 avro 是一个数据发送者
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = hurys23
a1.sinks.k1.port = 4141
a1.sinks.k2.type = avro
a1.sinks.k2.hostname = hurys23
a1.sinks.k2.port = 4142

# Describe the channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
a1.channels.c2.type = memory
a1.channels.c2.capacity = 1000
a1.channels.c2.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1 c2
a1.sinks.k1.channel = c1
a1.sinks.k2.channel = c2

注意

1、配置文件中的各项参数需要调式,这里只是为了演示,实现目的、打通路径即可!实际在项目中操作时需要调试参数。

2、a1.sources.r1.command = tail -F /home/log/hive312/hive.log         为hive.log在Linux中的路径

3、a1.sinks.k1.hostname = hurys23                                                     hurys23 为服务器名字

(二)创建任务文件2       flume-flume-hdfs.conf

配置上级 Flume 输出的 Source,输出是到 HDFS 的 Sink。

[root@hurys23 conf]# vi flume-flume-hdfs.conf

# Name the components on this agent
a2.sources = r1
a2.sinks = k1
a2.channels = c1

# Describe/configure the source
# source 端的 avro 是一个数据接收服务
a2.sources.r1.type = avro
a2.sources.r1.bind = hurys23
a2.sources.r1.port = 4141

# Describe the sink
a2.sinks.k1.type = hdfs
a2.sinks.k1.hdfs.path = hdfs://hurys23:8020/flume2/%Y%m%d/%H
#上传文件的前缀
a2.sinks.k1.hdfs.filePrefix = flume2-
#是否按照时间滚动文件夹
a2.sinks.k1.hdfs.round = true
#多少时间单位创建一个新的文件夹
a2.sinks.k1.hdfs.roundValue = 1
#重新定义时间单位
a2.sinks.k1.hdfs.roundUnit = hour
#是否使用本地时间戳
a2.sinks.k1.hdfs.useLocalTimeStamp = true
#积攒多少个 Event 才 flush 到 HDFS 一次
a2.sinks.k1.hdfs.batchSize = 100
#设置文件类型,可支持压缩
a2.sinks.k1.hdfs.fileType = DataStream
#多久生成一个新的文件
a2.sinks.k1.hdfs.rollInterval = 30
#设置每个文件的滚动大小大概是 128M
a2.sinks.k1.hdfs.rollSize = 134217700
#文件的滚动与 Event 数量无关
a2.sinks.k1.hdfs.rollCount = 0

# Describe the channel
a2.channels.c1.type = memory
a2.channels.c1.capacity = 1000
a2.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a2.sources.r1.channels = c1
a2.sinks.k1.channel = c1

注意:

1、a2.sinks.k1.hdfs.path = hdfs://hurys23:8020/flume2/%Y%m%d/%H    为写入的HDFS文件路径

2、a2.sources.r1.bind = hurys23                                                                hurys23 为服务器名字

(三)创建任务文件3       flume-flume-dir.conf

配置上级 Flume 输出的 Source,输出是到本地目录的 Sink。

[root@hurys23 conf]# vi flume-flume-dir.conf

# Name the components on this agent
a3.sources = r1
a3.sinks = k1
a3.channels = c2

# Describe/configure the source
a3.sources.r1.type = avro
a3.sources.r1.bind = hurys23
a3.sources.r1.port = 4142

# Describe the sink
a3.sinks.k1.type = file_roll
a3.sinks.k1.sink.directory = /opt/flume/flume3

# Describe the channel
a3.channels.c2.type = memory
a3.channels.c2.capacity = 1000
a3.channels.c2.transactionCapacity = 100

# Bind the source and sink to the channel
a3.sources.r1.channels = c2
a3.sinks.k1.channel = c2

注意:

1、a3.sources.r1.bind = hurys23                                        hurys23 为服务器名字

2、a3.sinks.k1.sink.directory = /opt/flume/flume3               在Linux中的本地路径

3、/opt/flume/flume3    这个输出的本地目录必须是已经存在的目录,如果该目录不存在,并不会自动创建新的目录

六、分别启动Flume任务文件

(一)首先启动   a3    flume-flume-dir.conf

[root@hurys23 flume190]# bin/flume-ng agent -n a3  -f /usr/local/hurys/dc_env/flume/flume190/conf/flume-flume-dir.conf

(二)其次启动   a2    flume-flume-hdfs.conf

[root@hurys23 flume190]# bin/flume-ng agent -n a2  -f /usr/local/hurys/dc_env/flume/flume190/conf/flume-flume-hdfs.conf

(三)最后启动   a1    flume-file-flume.conf

[root@hurys23 flume190]# bin/flume-ng agent -n a1  -f /usr/local/hurys/dc_env/flume/flume190/conf/flume-file-flume.conf

七、Flume任务运行执行状况

(一)a1  a1任务运行截图

采集hive的log日志文件,发送给flume2、flume3

(二)a2   写入的HDFS文件状况

根据时间戳自动生成20231212文件夹、15文件夹及其flume2-文件

(三)a3  写入的Linux本地文件状况

在Linux的 /opt/flume/flume3目录下自动生成相关文件

[root@hurys23 flume3]# ll
总用量 188
-rw-r--r-- 1 root root      0 12月 12 15:07 1702364829999-1
-rw-r--r-- 1 root root   1922 12月 12 15:07 1702364829999-2
-rw-r--r-- 1 root root 163250 12月 12 15:08 1702364829999-3
-rw-r--r-- 1 root root  23162 12月 12 15:08 1702364829999-4
-rw-r--r-- 1 root root      0 12月 12 15:09 1702364829999-5

Flume复制和多路复用拓扑结构的开发案例测试成功,简单来看,a1是source,a2、a3是sink

这种结构其实也挺常见的,就先到这里,Flume玩法还真挺多的!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1313625.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C语言的system函数简介

函数原型 包含在头文件 “stdlib.h” 中 int system(const char * command) 函数功能 执行 dos(windows系统) 或 shell(Linux/Unix系统) 命令,参数字符串command为命令名。另,在windows系统下参数字符串不区分大小写。 说明:在windows系统中&…

机器翻译:跨越语言边界的智能大使

导言 机器翻译作为人工智能领域的瑰宝,正在以前所未有的速度和精度,为全球沟通拓展新的可能性。本文将深入研究机器翻译的技术原理、应用场景以及对语言交流未来的影响。 1. 简介 机器翻译是一项致力于通过计算机自动将一种语言的文本翻译成另一种语言的…

Apache Struts 代码执行漏洞风险通告

最近,亚信安全CERT通过监控发现,Apache官方披露了Apache Struts 代码执行漏洞(CVE-2023-50164)。攻击者可以利用文件上传参数进行路径遍历,并在某些情况下上传恶意文件,从而执行任意代码。 Apache Struts 是…

Notion开源平替知识库软件AFFiNE本地部署与公网访问远程协作

文章目录 前言1. 使用Docker安装AFFINE2. 安装cpolar内网穿透工具3. 配置AFFINE公网访问地址4. 实现公网远程访问AFFINE5. 结语 前言 本篇文章讲解Notion开源平替全能知识库工具AFFINE如何本地部署,并实现公网远程访问。AFFiNE 是一个全新的开源项目,旨…

【Hive】——CLI客户端(bin/beeline,bin/hive)

1 HiveServer、HiveServer2 2 bin/hive 、bin/beeline 区别 3 bin/hive 客户端 hive-site.xml 配置远程 MateStore 地址 XML <?xml version"1.0" encoding"UTF-8" standalone"no"?> <?xml-stylesheet type"text/xsl" hre…

(c语言)计算一个数的每位之和(递归实现)

#include<stdio.h> int DigitSum(int x) {int sum 0, g0;if(x>0){g x % 10;sum g;return sumDigitSum(x/10);}return 0; } int main() {int x;printf("请输入需要计算的数\n");scanf("%d",&x);int yDigitSum(x);printf("%d",y);…

uniapp播放 m3u8格式视频 兼容pc和移动端

支持全自动播放、设置参数 自己摸索出来的,花了一天时间,给点订阅支持下,订阅后,不懂的地方可以私聊我。 代码实现 代码实现 1.安装dplayer组件 npm i dplayer2. static/index.html下引入 hls 引入hls.min.js 可以存放在static项目hls下面<script src="/static…

软件设计师——信息安全(二)

&#x1f4d1;前言 本文主要是【信息安全】——软件设计师——信息安全的文章&#xff0c;如果有什么需要改进的地方还请大佬指出⛺️ &#x1f3ac;作者简介&#xff1a;大家好&#xff0c;我是听风与他&#x1f947; ☁️博客首页&#xff1a;CSDN主页听风与他 &#x1f304…

Linux NAPI ------------- epoll边缘触发模式

Linux处理网络数据包的一般流程 分组到达内核的时间是不可预测的。所有现代的设备驱动程序都使用中断来通知内核有分组到达。 网络驱动程序对特定于设备的中断设置了一个处理例程&#xff0c;因此每当该中断被引发时&#xff08;即分组到达&#xff09;&#xff0c;内核都调用…

指数分布的随机变量

如果连续型随机变量的概率密度满足如下条件&#xff1a; 其中为常数&#xff0c;那么就称服从参数为的指数分布。 指数分布的重要性质---无记忆性&#xff1a;

用友NC word.docx任意文件读取漏洞

文章目录 产品简介漏洞概述指纹识别漏洞利用修复建议 产品简介 用友NC是一款企业级ERP软件。作为一种信息化管理工具&#xff0c;用友NC提供了一系列业务管理模块&#xff0c;包括财务会计、采购管理、销售管理、物料管理、生产计划和人力资源管理等&#xff0c;帮助企业实现数…

解决nuxt3环境中css样式失效的问题

现象: 底部播放器进度条拖动按钮没有了&#xff01; 然后通过chrome开发工具检查html元素的结构&#xff1a; 发现progressbar这个元素是存在的&#xff0c;但是为什么没有显示呢&#xff0c;然后回到代码中&#xff1a; 发现原来是组件的名字写错了&#xff0c;多写了一个字母…

IP地址定位是否是实时位置?

随着互联网的普及和网络技术的发展&#xff0c;人们对于网络信息的需求也越来越高。其中&#xff0c;IP地址定位技术作为网络管理的重要手段之一&#xff0c;被广泛应用于网络设备管理和网络安全等领域。然而&#xff0c;对于IP地址定位是否是实时位置这一问题&#xff0c;我们…

Java刷题篇——合并两个有序数组

1.题目描述 给出一个有序的整数数组A 和有序的整数数组 B&#xff0c;请将数组B合并到数组A中&#xff0c;变成一个有序的升序数组。 数据范围&#xff1a;0 < n,m < 100, |Ai| < 100, |Bi| < 100 注意&#xff1a; 保证 A 数组有足够的空间存放 B 数组的元素&…

SDN之Python编程创建多数据中心网络

文章目录 1.拓扑结构2.具体步骤 1.拓扑结构 通过python编程创建一个包含2台核心交换机、4台汇聚交换机、8台边缘交换机和16台主机的网络拓扑&#xff0c;如图示&#xff1a; 2.具体步骤 首先ctrlaltT&#xff08;或右键&#xff09;打开终端&#xff0c;在/home/shy/minine…

u盘有文件但看不到怎么回事?

U盘有文件但看不到是常见的存储故障。这种情况下&#xff0c;用户可以在电脑上看到U盘的驱动盘符&#xff0c;但是无法看到其中的文件。接下来&#xff0c;我们将详细分析此现象的原因&#xff0c;并提供相应的解决方法。 u盘有文件但看不到怎么回事&#xff1f; 一、U盘有文件…

DataFunSummit:2023年数据科学在线峰会-核心PPT资料下载

一、峰会简介 数据会说谎&#xff1f;如何正确的挖掘并使用数据&#xff1f;前沿的科学实验如何做&#xff1f;实验又是如何欺骗你的&#xff1f;数据中台如何发挥功效&#xff1f;用户增长有捷径吗&#xff1f;数据科学的最佳实践有哪些&#xff1f; 本次峰会共包含了&#…

MacOS下载配置OpenCV

主要参考的是OpenCV官方的这篇文章&#xff1a;OpenCV: Installation in MacOS 安装OpenCV需要下载一些安装包&#xff1a;CMake3.9、Git、Python这些我之前已经下载好&#xff0c;这里就不过多阐述了&#xff0c;自行百度安装即可 1.从Git库获取OpenCV&#xff1a; git clon…

RF模块是如何工作的?

射频&#xff08;RF&#xff09;模块使用无线电频率工作&#xff0c;这个频率范围在30kHz到300kHz之间变化。 在这个射频系统中&#xff0c;数字数据被表示为载波波幅度的变化。这种调制类型是振幅移位键。 这个射频模块是射频发射器和接收器的组合&#xff0c;发射器接收器对的…

Day61力扣打卡

打卡记录 反转二叉树的奇数层&#xff08;bfs&#xff09; 链接 class Solution:def reverseOddLevels(self, root: Optional[TreeNode]) -> Optional[TreeNode]:q [root]flag 0while q:t, q q, []if flag:l, r 0, len(t) - 1while l < r:t[l].val, t[r].val t[r]…