【云计算与大数据技术】流计算讲解及集群日志文件实时分析实战(附源码)

news2025/4/27 11:06:16

需要源码请点赞关注收藏后评论区留言私信~~

一、流计算概述

在传统的数据处理流程中总是先收集数据,然后将数据放到 DB中。当人们需要的 时候通过DB对数据做query,得到答案或进行相关的处理。这样看起来虽然非常合理,采用类似于 MapReduce方式的离线处理并不能很好地解决问题,结果却不理想,尤其是对一些实时搜索应用环境中的某些具体问题,这就引出了一种新的数据计算结构--流计算方式

流计算可以很好地对大规模流动数据在不断变化的运动过程中实时地 进行分析,捕捉到可能有用的信息,并把结果发送到下一计算节点

流计算包括早期的IBM System S,当前比较流行的流式计算框架Storm、Kafka

二、流计算与批处理系统对比

流计算侧重于实时计算方面,而批处理系统侧重于离线数据处理方面,一个追求的是低延迟,另外一个追求的是高吞吐量,处理的数据也不同,流计算处理的数据经常不断变化,而离线处理的数据是静态数据,输出形式也不同,总体来讲,两者的区别体现在以下几点

系统的输入包括两类数据,即实时的流式数据和静态的离线数据

系统的输出也包括流式数据和离线数据

业务的计算结果输出方式是通过两个条件决定的

三、Storm流计算系统

Storm 是一个 Twitter开源的分布式、高容错的实时计算系统

Storm 经常用于实时分析、在线机器学习、持续计算 、分布式远程调用和ETL等领域

Storm主要分为 Nimbus 和 Supervisor两种组件

下图是是Storm集群架构

Storm中每个实时计算任务表示称一个topology

 

 

四、Samza流计算系统 

Apache Samza是一个分布式流处理框架

它使用 Apache Kafka用于消息发送,采 用 Apache Hadoop YARN 来提供容错、处理器隔离、安全性和资源管理,专用于实时数据的处理

Samza由以下3层构成  

数据流层(A streaming layer)  

执行层(An execution layer)  

处理层(A progressing layer)

五、阿里云流计算

Aliyun Stream Compute(阿里云流计算 )是运行在阿里云平台上的流式大数据分析平台,给用户提供在云上进行流式数据实时化分析的工具

阿里云流计算提供类标准的StreamSQL语义协助用户简单、轻松地完成流式计算逻辑的处理

六、集群日志文件的实时分析 

目前分布式系统在各大生产 系统中广泛使用,监控这些分布式系统产生的日志,判断集群运行是否正常,采用流计算框架实时分析分布式系统产生的日志

以分析HDFS集群运行状态来简单说明流式计算框架的使用。当 NameNode 出现故障的时候需要及时报警,从而最大程度地减少损失

利用Flink做简单的日志文件单词统计分析,分析一个时间段内 NameNode产 生的单词统计

运行效果如下

可以根据Flink的Web界面查看SocketTextStream任务,找到对应的Flink文本统计计算节点

 代码如下

package alibook.flink;


import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.core.fs.FileSystem.WriteMode;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;

/**
 * This example shows an implementation of WordCount with data from a text
 * socket. To run the example make sure that the service providing the text data
 * is already up and running.
 * <p>
 * To start an example socket text stream on your local machine run netcat from
 * a command line: <code>nc -lk 9999</code>, where the parameter specifies the
 * port number.
 * </p>
 * <p>
 * Usage:
 * <code>SocketTextStreamWordCount &lt;hostname&gt; &lt;port&gt; &lt;result path&gt;</code>
 * </p>
 * <p>
 * This example shows how to:
 * <ul>
 * <li>use StreamExecutionEnvironment.socketTextStream
 * <li>write a simple Flink program,
 * <li>write and use user-defined functions.
 * </ul>
 *
 */
public class SocketTextStream {
	public static void main(String[] args) throws Exception {

		if (!parseParameters(args)) {
			return;
		}

		// set up the execution environment
		final StreamExecutionEnvironment env = StreamExecutionEnvironment
				.getExecutionEnvironment();

		// get input data
		DataStream<String> text = env.socketTextStream(hostName, port, '\n', 0);

		DataStream<Tuple2<String, Integer>> counts =
				// split up the lines in pairs (2-tuples) containing: (word,1)
				text.flatMap(new Tokenizer())
						// group by the tuple field "0" and sum up tuple field "1"
						.keyBy(0)
						.sum(1);

		if (fileOutput) {
			counts.writeAsText(outputPath, WriteMode.NO_OVERWRITE);
		} else {
			counts.print();
		}

		// execute program
		env.execute("WordCount from SocketTextStream Example");
	}

	// *************************************************************************
	// UTIL METHODS
	// *************************************************************************

	private static boolean fileOutput = false;
	private static String hostName;
	private static int port;
	private static String outputPath;

	private static boolean parseParameters(String[] args) {

		// parse input arguments
		if (args.length == 3) {
			fileOutput = true;
			hostName = args[0];
			port = Integer.valueOf(args[1]);
			outputPath = args[2];
		} else if (args.length == 2) {
			hostName = args[0];
			port = Integer.valueOf(args[1]);
		} else {
			System.err.println("Usage: SocketTextStreamWordCount <hostname> <port> [<output path>]");
			return false;
		}
		return true;
	}
	
	
	/**
	 * Implements the string tokenizer that splits sentences into words as a
	 * user-defined FlatMapFunction. The function takes a line (String) and
	 * splits it into multiple pairs in the form of "(word,1)" ({@code Tuple2<String,
	 * Integer>}).
	 */
	public static final class Tokenizer implements FlatMapFunction<String, Tuple2<String, Integer>> {
		private static final long serialVersionUID = 1L;

		public void flatMap(String value, Collector<Tuple2<String, Integer>> out)
				throws Exception {
			// normalize and split the line
			String[] tokens = value.toLowerCase().split("\\W+");

			// emit the pairs
			for (String token : tokens) {
				if (token.length() > 0) {
					out.collect(new Tuple2<String, Integer>(token, 1));
				}
			}
		}
	}

}

创作不易 觉得有帮助请点赞关注收藏~~~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/86798.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【TCP/IP】【调试】丢包、流不通、错包等问题查证手段系列之四——数通设备(交换机/路由器)的镜像

&#x1f41a;作者简介&#xff1a;花神庙码农&#xff08;专注于Linux、WLAN、TCP/IP、Python等技术方向&#xff09;&#x1f433;博客主页&#xff1a;花神庙码农 &#xff0c;地址&#xff1a;https://blog.csdn.net/qxhgd&#x1f310;系列专栏&#xff1a;TCP/IP协议&…

【pytorch】在多个batch中如何使用nn.CrossEntropyLoss

问题 有的时候我们需要计算多个batch的CrossEntropyLoss, 如下面的代码片段 .... criterion nn.CrossEntropyLoss()....for input, target in self.dataloader:optimizer.zero_grad().....# output shape (5,4,14)# target shape (5,4)loss criterion(output, target)从官网…

文本预处理方法总结

数据的预处理 项目需要&#xff0c;需要进行词库训练与样本向量化处理&#xff0c;总结后有以下4种方法&#xff1a; 方法1&#xff1a;tf 1.xx版本&#xff1a; 词汇样本的处理&#xff1a;使用tensorflow.contrib.learn模块 vocab_process learn.preprocessing.Vocabula…

Docker安装RabbitMQ

文章目录1.下载Rabbitmq镜像2.创建并运行 RabbitMQ 容器3.启动rabbitmq_management4.访问前端页面5.开通端口1.下载Rabbitmq镜像 下载最新版本的镜像&#xff1a; docker pull rabbitmq如何想要其他版本可以访问 Docker 官网 https://hub.docker.com/_/rabbitmq?tabtags 2.…

AOP注解实现接口敏感字段加密

AOP注解实现接口敏感字段加密 文章目录AOP注解实现接口敏感字段加密定义方法注解EncryptMethod定义字段注解EncryptField新增加密解密工具定义AOP核心处理类EncryptFieldAop使用注解项目如果不允许明文存储敏感数据&#xff08;例如身份证号、银行卡号&#xff0c;手机号等&…

ShuffleNetV2 结构(附源码)

本文不细看paper&#xff0c;只看网络结构和源码实现。 看下ShuffleNetV2的结构吧。 image是3通道进去&#xff0c;经过conv1和maxpool, 然后stage2~4则是主题&#xff0c;里面stride 2和 stride 1的shuffleBlock分别重复几次。 shuffleBlock如下&#xff0c;左边是stride…

搭建Kubord管理k8s/EKS以及Harbor私有仓库教程

eks首先要去aws后台进行创建&#xff0c;这里不再讲解详细的过程&#xff0c;下面讲解如果通过命令行以及kuboard调度esk服务。 安装docker以及docker-compose yum install docker service docker start curl https://get.daocloud.io/docker/compose/releases/download/1.24…

零食商城小程序开发,建立商家良好品牌形象

相信很多人都无法拒绝来自零食的诱惑&#xff0c;尤其是在闲暇刷剧时&#xff0c;一边看剧一边享受着味蕾的满足&#xff0c;简直不要太幸福。现在人们对于零食的要求越来越高&#xff0c;不仅注重口感&#xff0c;更讲究包装&#xff0c;这就让零食行业逐渐走向精细化。而零食…

ssm+Vue计算机毕业设计校园统一网络授课平台(程序+LW文档)

ssmVue计算机毕业设计校园统一网络授课平台&#xff08;程序LW文档&#xff09; 项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项…

SpringMVC-狂神

SpringMVC优点&#xff1a; 轻量级&#xff0c;简单易学 高效&#xff0c;基于请求响应的MVC框架 与Spring无缝结合 功能强大&#xff1a;RESTful风格&#xff0c;数据验证&#xff0c;格式化&#xff0c;本地化&#xff0c;主题等 简单灵活 SpringMVC全部围绕DispatchSer…

AI(人工智能),时代的风口

你知道AI并非一个新词吗&#xff1f; 你知道 AI 正在影响着包括数学、物理学、生命科学等诸多领域的前沿科学研究吗&#xff1f; “AI是一个具有魅力的词&#xff0c;也是一个很古老的词”。 我们通常所说的AI &#xff08;Artificial intelligence&#xff09; 翻译为“人工…

安卓玩机搞机技巧综合资源-----不亮屏幕导资料 有屏幕锁保数据刷机等 多种方式【十五】

接上篇 安卓玩机搞机技巧综合资源------如何提取手机分区 小米机型代码分享等等 【一】 安卓玩机搞机技巧综合资源------开机英文提示解决dm-verity corruption your device is corrupt. 设备内部报错 AB分区等等【二】 安卓玩机搞机技巧综合资源------EROFS分区格式 小米红…

C#打开摄像头后获取图片,调用face_recognition进行人脸识别

运行效果如截图&#xff1a;左边和保存的图片做对比&#xff0c;打印相似度&#xff0c;部分打印内容为python中的打印输出&#xff0c;可以用来做结果判断。右边打开摄像头后&#xff0c;可以单张图片进行人脸识别&#xff0c;或者一直截图镜头中的图片进行比对。期中python是…

ReSharper添加对最新C#11特性的支持

ReSharper添加对最新C#11特性的支持 C#11 UTF-8文字-增加了对UTF-8文字的基本支持。代码分析现在建议对文字使用u8后缀&#xff0c;而不是System.Text.Encoding.UTF8.GetBytes()方法或具有适当UTF8符号的字节数组。还有一组UTF-8文本的编译器警告和错误。 文件本地类型-添加了对…

服务器公网带宽1M能同时接受多少人访问?

文章目录1、什么是服务器的带宽?2、服务器带宽多少?3、服务器带宽1M能同时接受多少人访问?1、什么是服务器的带宽? 在服务器托管中&#xff0c;服务器带宽指在特定时间段从或向网站/服务器传输的数据量&#xff0c;例如&#xff0c;单月内的累积消耗“带宽”&#xff0c;实…

【开源掌机】百问网DShanMCU-Mio开源掌机(爻-澪)项目,完美支持运行10多个模拟器!

众筹说明 定金翻倍&#xff0c;即定金19.9元&#xff0c;在付尾款时可抵40元(成品售价不会超过120元)&#xff01;达标当天就开搞&#xff0c;满100人加速搞尽量在年前发货&#xff0c;让大家先玩起来&#xff01;如果不达标则原路退款&#xff0c;项目取消。 众筹时间&#…

利用Matlab进行图像分割和边缘检测

本文章包含以下内容&#xff1a; 1、灰度阀值分割 (1)单阈值分割图像 先将一幅彩色图像转换为灰度图像&#xff0c;显示其直方图&#xff0c;参考直方图中灰度的分布&#xff0c;尝试确定阈值&#xff1b;应反复调节阈值的大小&#xff0c;直至二值化的效果最为满意…

LDR6035PD快充快放带数据还要啥莲花清翁

随着Type-C的普及和推广&#xff0c;目前市面上的移动电源正在慢慢淘汰micro-USB接口&#xff0c;逐渐都更新成了Type-C接口&#xff0c;micro-USB接口从2007年上市&#xff0c;已经陪伴我们走过十多个年头&#xff0c;自从2015年Type-C登场&#xff0c;micro-USB也开始渐渐淡出…

写给前端开发者的「Promise备忘手册」

前言 大家好&#xff0c;我是HoMeTown&#xff0c;Promise想必大家都知道&#xff0c;在平时的开发工程中也经常会有用到&#xff0c;但是Promise作为ES6的重要特性&#xff0c;其实还拥有很多丰富的知识&#xff0c;本文面向比较初级一些的同学&#xff0c;可以帮你搞懂Promi…

金庸群侠传3DUnity重置入门-Mods开发

金庸3DUnity重置入门系列文章 金庸3dUnity重置入门 - lua 语法 金庸3dUnity重置入门 - UniTask插件 金庸3dUnity重置入门 - Mods开发 金庸3dUnity重置入门 - Cinemachine 动画 金庸3dUnity重置入门 - 大世界实现方案 金庸3dUnity重置入门 - 素材极限压缩 (部分可能放到付…