spark实战:实现分区内求最大值,分区间求和以及获取日志文件固定日期的请求路径

news2024/12/30 1:37:18

spark实战:实现分区内求最大值,分区间求和以及获取日志文件固定日期的请求路径

Apache Spark是一个广泛使用的开源大数据处理框架,以其快速、易用和灵活的特点而受到开发者的青睐。在本文中,我们将通过两个具体的编程任务来展示Spark的强大功能:首先是对一个简单的数据列表进行分区操作,并在每个分区内求最大值以及跨分区间求和;其次是从Apache日志文件中提取特定日期的请求路径。这两个任务将帮助你理解Spark在数据处理和日志分析方面的应用。

问题一:数据处理 - 分区内求最大值,分区间求和

给定一个包含键值对的列表 List((“a”, 1),(“a”, 2), (“b”, 3), (“b”, 4),(“b”, 5),(“a”, 6)),任务是将这个列表分成两个分区,并在每个分区内找到最大值,同时计算所有分区间的总和。
解决方案
1、创建SparkSession:初始化Spark环境。
2、数据转换:将列表转换为RDD或DataFrame。
3、分区操作:将数据分成两个分区。
4、求最大值:在每个分区内使用reduce或aggregate操作求得最大值。
5、求总和:使用collect操作收集所有数据,然后求和。

示例代码

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._

object MaxAndSumExample {
  def main(args: Array[String]): Unit = {
    // 创建Spark会话
    val spark = SparkSession.builder()
      .appName("MaxAndSumExample")
      .master("local[*]") // 使用本地模式,根据需要可以改为集群模式
      .getOrCreate()

    import spark.implicits._

    // 给定的列表
    val data = List(("a", 1), ("a", 2), ("b", 3), ("b", 4), ("b", 5), ("a", 6))

    // 将列表转换为DataFrame
    val df = data.toDF("key", "value")

    // 设置分区数为2
    val partitionedDF = df.repartition(2)

    // 分区内求最大值
    val maxPerPartition = partitionedDF.groupBy("key").agg(max($"value").alias("maxValue"))

    // 分区间求和
    val sumAcrossPartitions = df.groupBy("key").sum("value")

    // 显示结果
    maxPerPartition.show()
    sumAcrossPartitions.show()

    // 停止Spark会话
    spark.stop()
  }
}

在这里插入图片描述
在这里插入图片描述

问题二:日志分析 - 提取特定日期的请求路径

任务描述
从Apache日志文件中提取2015年5月17日的所有请求路径。

解决方案
1、日志文件读取:使用Spark读取日志文件。
2、日志解析:编写函数解析每行日志,提取日期和请求路径。
3、日期过滤:根据日期过滤日志行。
4、提取请求路径:从过滤后的日志中提取请求路径。
示例代码

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._

object MaxAndSumExample {
  def main(args: Array[String]): Unit = {
    // 创建Spark会话
    val spark = SparkSession.builder()
      .appName("MaxAndSumExample")
      .master("local[*]") // 使用本地模式,根据需要可以改为集群模式
      .getOrCreate()

    import spark.implicits._

    // 给定的列表
    val data = List(("a", 1), ("a", 2), ("b", 3), ("b", 4), ("b", 5), ("a", 6))

    // 将列表转换为DataFrame
    val df = data.toDF("key", "value")

    // 设置分区数为2
    val partitionedDF = df.repartition(2)

    // 分区内求最大值
    val maxPerPartition = partitionedDF.groupBy("key").agg(max($"value").alias("maxValue"))

    // 分区间求和
    val sumAcrossPartitions = df.groupBy("key").sum("value")

    // 显示结果
    maxPerPartition.show()
    sumAcrossPartitions.show()

    // 停止Spark会话
    spark.stop()
  }
}

在这里插入图片描述

结论

通过这两个示例,我们可以看到Apache Spark在处理数据列表和分析日志文件方面的强大能力。第一个示例展示了如何在Spark中进行基本的数据转换、分区操作和聚合操作。第二个示例则展示了如何读取和解析日志文件,以及如何根据特定条件过滤数据。这些技能在处理大数据时非常有用,可以帮助我们快速获得所需的信息。
如有遇到问题可以找小编沟通交流哦。另外小编帮忙辅导大课作业,学生毕设等。不限于MapReduce, MySQL, python,java,大数据,模型训练等。 hadoop hdfs yarn spark Django flask flink kafka flume datax sqoop seatunnel echart可视化 机器学习等
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1697914.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

spiderfoot一键扫描IP信息(KALI工具系列九)

目录 1、KALI LINUX简介 2、spiderfoot工具简介 3、在KALI中使用spiderfoot 3.1 目标主机IP(win) 3.2 KALI的IP 4、命令示例 4.1 web访问 4.2 扫描并进行DNS解析 4.3 全面扫描 5、总结 1、KALI LINUX简介 Kali Linux 是一个功能强大、多才多…

Spring Boot集成testcontainers快速入门Demo

1.什么是testcontainers? Testcontainers 是一个用于创建临时 Docker 容器进行单元测试的 Java 库。当我们想要避免使用实际服务器进行测试时,它非常有用。,官网介绍称支持50多种组件。​ 应用场景 数据访问层集成测试: 使用My…

掌握ASPICE标准:汽车软件测试工程师的专业发展路径

掌握ASPICE标准:汽车软件测试工程师的专业发展路径 文:领测老贺 随着新能源汽车在中国的蓬勃发展,智能驾驶技术的兴起,汽车测试工程师的角色变得愈发关键。这一变革带来了前所未有的挑战和机遇,要求测试工程师不仅要具…

Matlab中函数或变量 ‘eeglab‘ 无法识别

EEGLAB 没有安装或添加到 MATLAB 路径中: 确保已经安装了 EEGLAB,并且将其添加到 MATLAB 的路径中。您可以通过在 MATLAB 命令窗口中运行 which eeglab 来检查是否能够找到 EEGLAB。 EEGLAB 函数路径设置错误: 如果已经安装了 EEGLAB&#x…

Mac | Mac 移动硬盘无法分区问题

现象问题 电脑配置:MacBook Pro M1,系统 Sonoma Mac 系统新升级了 Sonoma,结果出现各种问题。外接屏幕居然不能旋转 90 ,查了一下是Sonoma系统导致的,以及莫名发热的问题。想着要么回退一下系统算了,于是网…

Sql Sever删除数据库时提示数据库正在被使用,解决办法

报错解释: 当您尝试删除SQL Server中的某个对象(如数据库、表等)时,如果有程序或进程正在使用该对象,您可能会收到一个错误信息,提示该对象正被使用。这通常是因为还有一个或多个数据库连接仍然保持着对该…

使用libtorch加载YOLOv8生成的torchscript文件进行目标检测

在网上下载了60多幅包含西瓜和冬瓜的图像组成melon数据集,使用 LabelMe 工具进行标注,然后使用 labelme2yolov8 脚本将json文件转换成YOLOv8支持的.txt文件,并自动生成YOLOv8支持的目录结构,包括melon.yaml文件,其内容…

网络通信(二)

UDP通信 特点:无连不是先接、不可靠通信 不事先建立连接;发送端每次把要发送的数据(限制在64KB内)、接收端IP、等信息封装成一个数据包,发出去就不管了 java提供了一个java.net.DatagramSocket类来实现UDP通信 Dat…

20.SkyWalking

一.简介 SkyWalking用于应用性能监控、分布式链路跟踪、诊断: 参考连接如下: https://github.com/apache/skywalking https://skywalking.apache.org/docs/ 二.示例 通过官网连接进入下载页面:https://archive.apache.org/dist/skywalkin…

普通人转行程序员,最大的困难是找不到就业方向

来百度APP畅享高清图片 大家好,这里是程序员晚枫,小破站也叫这个名。 我自己是法学院毕业后,通过2年的努力才转行程序员成功的。[吃瓜R] 我发现对于一个外行来说,找不到一个适合自己的方向,光靠努力在一个新的行业里…

美团Java社招面试题真题,最新面试题

如何处理Java中的内存泄露? 1、识别泄露: 使用内存分析工具(如Eclipse Memory Analyzer Tool、VisualVM)来识别内存泄露的源头。 2、代码审查: 定期进行代码审查,关注静态集合类属性和监听器注册等常见内…

Leetcode算法题笔记(3)

目录 矩阵101. 生命游戏解法一解法二 栈102. 移掉 K 位数字解法一 103. 去除重复字母解法一 矩阵 101. 生命游戏 根据 百度百科 , 生命游戏 ,简称为 生命 ,是英国数学家约翰何顿康威在 1970 年发明的细胞自动机。 给定一个包含 m n 个格子…

Redis简介与安装到python的调用

前言 本文只不对redis的具体用法做详细描述,做简单的介绍,安装,和python代码调用详细使用教程可查看一下网站 https://www.runoob.com/redis/redis-tutorial.html https://pypi.org/project/redis/ 官方原版: https://redis.io/ 中文官网:…

齿轮常见故障学习笔记

大家好,这期咱们聊一聊齿轮常见的失效形式,查阅了相关的资料,做个笔记分享给大家,共同学习。 介绍 齿轮故障可能以多种方式发生。如果在设计阶段本身就尽量防止这些故障的产生,则可以产生改更为优化的齿轮设计。齿轮…

Top期刊:针对论文Figure图片的7个改进建议

我是娜姐 迪娜学姐 ,一个SCI医学期刊编辑,探索用AI工具提效论文写作和发表。 通过对来自细胞生物学、生理学和植物学领域的580篇论文,进行检查和归纳总结,来自德国德累斯顿工业大学的Helena Jambor及合作者,在PLOS Bio…

五分钟搭建一个Suno AI音乐站点

五分钟搭建一个Suno AI音乐站点 在这个数字化时代,人工智能技术正以惊人的速度改变着我们的生活方式和创造方式。音乐作为一种最直接、最感性的艺术形式,自然也成为了人工智能技术的应用场景之一。今天,我们将以Vue和Node.js为基础&#xff…

第12章-ADC采集电压和显示 基于STM32的ADC—电压采集(详细讲解+HAL库)

我们的智能小车用到了ADC测量电池电压的功能,这章节我们做一下。 我们的一篇在这里 第一篇 什么是ADC 百度百科介绍: 我们知道万用表 电压表可以测量电池,或者电路电压。那么我们是否可以通过单片机获得电压,方便我 们监控电池状…

WPF学习日常篇(一)--开发界面视图布局

接下来开始日常篇,我在主线篇(正文)中说过要介绍一下我的界面排布,科学的排布才更科学更有效率的进行敲代码和开发。日常篇中主要记录我的一些小想法和所考虑的一些细节。 一、主界面设置 主界面分为左右两部分,分为…

查分数组总结

文章目录 查分数组定义应用举例LeetCode 1109 题「[航班预订统计] 查分数组定义 差分数组的主要适用场景是频繁对原始数组的某个区间的元素进行增减。 通过这个 diff 差分数组是可以反推出原始数组 nums 的,代码逻辑如下: int res[diff.size()]; // 根…

(2024,SDE,对抗薛定谔桥匹配,离散时间迭代马尔可夫拟合,去噪扩散 GAN)

Adversarial Schrdinger Bridge Matching 公众号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群) 目录 0. 摘要 1. 简介 4. 实验 0. 摘要 薛定谔桥(Schrdinger Bridge,SB&…