Spark大数据处理学习笔记(2.4)IDEA开发词频统计项目

news2025/1/9 14:53:34

该文章主要为完成实训任务,详细实现过程及结果见【http://t.csdn.cn/0qE1L】

文章目录

  • 一、词频统计准备工作
    • 1.1 安装Scala2.12.15
    • 1.2 启动集群的HDFS与Spark
    • 1.3 在HDFS上准备单词文件
  • 二、本地模式运行Spark项目
    • 2.1 新建Maven项目
    • 2.2 添加项目相关依赖
    • 2.3 创建日志属性文件
    • 2.4 添加Scala SDK
    • 2.5 创建HDFS配置文件
    • 2.6 创建词频统计单例对象
    • 2.7 运行程序,查看结果
    • 2.8 修改程序,使用命令行参数


一、词频统计准备工作

1.1 安装Scala2.12.15

  • 从Scala官网下载Scala2.12.15 - https://www.scala-lang.org/download/2.12.15.html
    在这里插入图片描述
  • 安装在默认位置
    在这里插入图片描述
  • 安装完毕
    在这里插入图片描述
  • 在命令行窗口查看Scala版本(必须要配置环境变量)
    在这里插入图片描述

1.2 启动集群的HDFS与Spark

  • 启动HDFS服务
    在这里插入图片描述
  • 启动Spark集群
    在这里插入图片描述

1.3 在HDFS上准备单词文件

  • 在master虚拟机上创建单词文件 - words.txt
    在这里插入图片描述
  • 将单词文件上传到HDFS指定目录/wordcount/input
    在这里插入图片描述

二、本地模式运行Spark项目

2.1 新建Maven项目

  • JDK选1.8
    在这里插入图片描述
  • 创建完成
    在这里插入图片描述
  • java目录改成scala目录
    在这里插入图片描述
  • 重名为scala
    在这里插入图片描述

2.2 添加项目相关依赖

  • pom.xml文件里添加依赖,并告知源程序目录已改成scala
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>cn.kox.rdd</groupId>
    <artifactId>SparkRDDWordCount</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>2.12.15</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.12</artifactId>
            <version>3.1.3</version>
        </dependency>
    </dependencies>
    <build>
        <sourceDirectory>src/main/scala</sourceDirectory>
    </build>

    <properties>
        <maven.compiler.source>8</maven.compiler.source>
        <maven.compiler.target>8</maven.compiler.target>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    </properties>

</project>

在这里插入图片描述

2.3 创建日志属性文件

  • resources目录里创建日志属性文件 - log4j.properties
    在这里插入图片描述
log4j.rootLogger=ERROR, stdout, logfile
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spark.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

2.4 添加Scala SDK

在这里插入图片描述
在这里插入图片描述

2.5 创建HDFS配置文件

  • resources目录里创建hdfs-site.xml文件,允许客户端使用数据节点
    在这里插入图片描述
<?xml version="1.0" encoding="UTF-8"?>
<configuration>
    <property>
        <description>only config in clients</description>
        <name>dfs.client.use.datanode.hostname</name>
        <value>true</value>
    </property>
</configuration>

2.6 创建词频统计单例对象

  • 创建cn.kox.rdd包,然后在包里创建WordCount单例对象
    在这里插入图片描述
package cn.kox.rdd
import org.apache.spark.{SparkConf, SparkContext}
/**
 * @ClassName: WordCount
 * @Author: Kox
 * @Data: 2023/6/11
 * @Sketch:
 */
object WordCount {
  def main(args: Array[String]): Unit = {
    // 创建Spark配置对象
    val conf = new SparkConf()
      .setAppName("SparkRDDWordCount") // 设置应用名称
      .setMaster("local[*]") // 设置主节点位置(本地调试)
    // 基于Spark配置对象创建Spark容器
    val sc = new SparkContext(conf)
    // 定义输入路径
    val inputPath = "hdfs://master:9000/wordcount/input"
    // 定义输出路径
    val outputPath = "hdfs://master:9000/wordcount/output"
    // 进行词频统计
    val wc = sc.textFile(inputPath) // 读取文件,得到RDD
      .flatMap(_.split(" ")) // 扁平化映射,得到单词数组
      .map((_, 1)) // 针对每个单词得到二元组(word, 1)
      .reduceByKey(_ + _) // 按键进行聚合(key相同,value就累加)
      .sortBy(_._2, false) // 按照单词个数降序排列
    // 在控制台输出词频统计结果
    wc.collect.foreach(println)
    // 将词频统计结果写入指定文件
    wc.saveAsTextFile(outputPath)
    // 停止Spark容器,结束任务
    sc.stop
  }
}

2.7 运行程序,查看结果

  • 首先看控制台输出结果
    在这里插入图片描述
  • 然后查看HDFS上的结果文件
    在这里插入图片描述
  • 显示结果文件内容
    在这里插入图片描述
  • 有两个结果文件,可以分别查看其内容
    在这里插入图片描述
  • 再次运行程序,会报错说输出目录已经存在
    在这里插入图片描述
  • 执行命令: hdfs dfs -rm -r /wordcount/output,删除输出目录
    在这里插入图片描述
  • 再次运行程序,查看结果
    在这里插入图片描述

2.8 修改程序,使用命令行参数

object WordCount {
  def main(args: Array[String]): Unit = {
    // 创建Spark配置对象
    val conf = new SparkConf()
      .setAppName("SparkRDDWordCount") // 设置应用名称
      .setMaster("local[*]") // 设置主节点位置(本地调试)
    // 基于Spark配置对象创建Spark容器
    val sc = new SparkContext(conf)
    // 声明输入输出路径
    var inputPath = ""
    var outputPath = ""
    // 判断命令行参数个数
    if (args.length == 0) {
      inputPath = "hdfs://master:9000/wordcount/input"
      outputPath = "hdfs://master:9000/wordcount/output"
    } else if (args.length == 2) {
      inputPath = args(0)
      outputPath = args(1)
    } else {
      println("温馨提示:命令行参数个数只能是0或2~")
      return
    }
    // 进行词频统计
    val wc = sc.textFile(inputPath)  // 读取文件,得到RDD
      .flatMap(_.split(" ")) // 扁平化映射,得到单词数组
      .map((_, 1)) // 针对每个单词得到二元组(word, 1)
      .reduceByKey(_ + _) // 按键进行聚合(key相同,value就累加)
      .sortBy(_._2, false) // 按照单词个数降序排列
    // 在控制台输出词频统计结果
    wc.collect.foreach(println)
    // 将词频统计结果写入指定文件
    wc.saveAsTextFile(outputPath)
    // 停止Spark容器,结束任务
    sc.stop
  }
}
  • 创建/home/test.txt文件,上传到HDFS指定目录
    在这里插入图片描述

  • 打开配置窗口
    在这里插入图片描述
    在这里插入图片描述

  • 运行程序,查看结果
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/635305.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

009:vue中el-table删除当前行的代码示例

第009个 查看专栏目录: VUE — element UI echarts&#xff0c;openlayers&#xff0c;cesium&#xff0c;leaflet&#xff0c;mapbox&#xff0c;d3&#xff0c;canvas 免费交流社区 专栏目标 在vue和element UI联合技术栈的操控下&#xff0c;本专栏提供行之有效的源代码示例…

计算机网络(网络层,传输层,应用层,复习自用)

计算机网络 网络层网络层功能IP数据报格式IP数据报分片IPV4地址网络地址转换&#xff08;NAT&#xff09;子网划分与子网掩码无分类编址CIDRARP协议DHCP协议ICMP协议IPV6路由算法及路由协议RIR协议及距离向量算法OSPF协议及链路状态算法BGP协议IP组播移动IP网络层设备 传输层传…

Linux 部署Java项目-jar包和war包(五)

文章目录 一、前景&#xff08;jar包和war包区别&#xff09;一、部署jar包程序1. 项目打成jar包①方式一&#xff1a;使用idea工具打包项目②方式二&#xff1a;通过cmd命令的方式打包项目 2. 项目命令启动① 查看之前启动的程序&#xff0c;关闭之② 启动程序③ 验证是否部署…

Vue中如何进行数据筛选与搜索功能实现

Vue中如何进行数据筛选与搜索功能实现 在Vue应用中&#xff0c;数据筛选和搜索是常见的需求。本文将介绍如何在Vue中进行数据筛选和搜索功能的实现&#xff0c;包括基于原生JavaScript的筛选和搜索、基于Lodash库的筛选和搜索、以及基于Vue插件的筛选和搜索。 基于原生JavaScr…

Hazel游戏引擎(012)GLFW窗口事件

文中若有代码、术语等错误&#xff0c;欢迎指正 文章目录 前言如何确定GLFW窗口事件的回调函数参数Application接收事件回调流程原项目流程(12345)自己写的简单Demo与流程(123) 前言 此节目的 为了完成008计划窗口事件的接收glfw窗口事件以及回调部分 此节要完成 使用glfw函数…

C语言之指针初阶(1)

本章重点 1. 指针是什么 2. 指针和指针类型 3. 野指针 4. 指针运算 5. 指针和数组 6. 二级指针 7. 指针数组 今天我们讲解前4个稍微简单一点的内容&#xff0c;下一篇博客讲解后三部分 首先引入话题 我们口语讲到指针&#xff0c;比如p指针&#xff0c;其实想要…

【0基础自研记录】ESP32-CAM自制个人网络监控

目的&#xff1a;实现一个小型家庭监控 一、前期准备 1.硬件准备 esp32-acm烧录板烧录线 2.软件准备 Arduion IDE CH340串口驱动 下载地址如下 Arduion IDE:https://www.arduino.cc/en/software CH340串口驱动 链接&#xff1a;https://pan.baidu.com/s/1ri8dK7wW6KFz8rOPs…

已知一个整数,如何判断这个整数是无符号的?

前言 记录6月11日&#xff0c;肯哥在群里面分享的一个问题。说实话&#xff0c;看到题目想了半天没明白。一看答案&#xff0c;才发现&#xff0c;这题真的简单。 题目 已知一个整数&#xff0c;如何判断这个整数是无符号的&#xff1f; 题解 &#xff08;1&#xff09;因为我的…

JVM相关特性

每个使用Java的开发者都知道Java字节码是在JRE中运行(JRE: Java 运行时环境)。JVM则是JRE中的核心组成部分&#xff0c;承担分析和执行Java字节码的工作&#xff0c;而Java程序员通常并不需要深入了解JVM运行情况就可以开发出大型应用和类库。尽管如此&#xff0c;如果你对JVM有…

008:vue中el-upload不显示上传的文件列表

第008个 查看专栏目录: VUE — element UI echarts&#xff0c;openlayers&#xff0c;cesium&#xff0c;leaflet&#xff0c;mapbox&#xff0c;d3&#xff0c;canvas 免费交流社区 专栏目标 在vue和element UI联合技术栈的操控下&#xff0c;本专栏提供行之有效的源代码示例…

废柴日记8:从入门到入狱的Python爬虫学习笔记1(入门篇)

前言&#xff1a;我错了&#xff0c;但下次也不一定(●’◡’●) 米娜桑&#xff0c;好久不见&#xff0c;不知道这段时间各位手中的西瓜刀有没有按时擦亮呢&#xff1f; 我也是在摸爬滚打将近一年之后总算是找到了一点人生的方向所以当成救命稻草现在正死死握紧不放手的啊。…

【Windows 系统笔记】使用服务器运行装载AList+本地安装RaiDrive进行网盘本地挂载

文章目录 前言准备工作一、购买一台云服务器配置服务器安装宝塔面板新建网站进入当前目录 二、安装AList三、登录四、开启域名访问五、挂载阿里云盘刷新令牌 六、使用RaiDrive挂载到本地 前言 大家肯定很好奇我为什么要写一篇这样的文章&#xff0c;因为之前一直使用本地挂载网…

SQL索引

一、索引概述 介绍&#xff1a; 索引是帮助MySQL高效获取数据的数据结构&#xff08;有序&#xff09;。在数据之外&#xff0c;数据库系统还维护着满足特定查找算法的数据结构&#xff0c;这些数据结构以某种方式引用&#xff08;指向&#xff09;数据&#xff0c;这样就可以…

【数据结构与算法】04 哈希表 / 散列表 (哈希函数、哈希冲突、链地址法、开放地址法、SHA256)

一种很好用&#xff0c;很高效&#xff0c;又一学就会的数据结构&#xff0c;你确定不看看&#xff1f; 一、哈希表 Hash Table1.1 核心概念1.2 哈希函数 Hash Function1.3 哈希冲突 Hash Collision1.4 哈希冲突解决1.41 方法概述1.42 链地址法 Separate Chaining1.43 开放寻址…

几种技巧让大模型(ChatGPT、文心一言)帮你提高写代码效率!

代码神器 自从大模型推出来之后&#xff0c;似乎没有什么工作是大模型不能做的。特别是在文本生成、文案写作、代码提示、代码生成、代码改错等方面都表现出不错的能力。下面我将介绍运用大模型写代码的几种方式&#xff0c;帮助程序员写出更好的代码&#xff01;&#xff08;…

华为OD机试真题 JavaScript 实现【一种字符串压缩表示的解压】【2022Q4 100分】,附详细解题思路

一、题目描述 有一种简易压缩算法&#xff1a;针对全部由小写英文字母组成的字符串&#xff0c;将其中连续超过两个相同字母的部分压缩为连续个数加该字母&#xff0c;其他部分保持原样不变。例如&#xff1a;字符串“aaabbccccd”经过压缩成为字符串“3abb4cd”。 请您编写解…

shell脚本学习记录(重定向)

Shell 输入/输出重定向 大多数 UNIX 系统命令从你的终端接受输入并将所产生的输出发送回​​到您的终端。 输出重定向 重定向一般通过在命令间插入特定的符号来实现。特别的&#xff0c;这些符号的语法如下所示: command1 > file1 上面这个命令执行command1然后将输出的…

maven访问仓库的顺序

1.没有配置私服的情况下&#xff08;大部分情况下&#xff09; 如上图所示&#xff0c;maven是依次从本地仓库、中央仓库和第三方仓库获取依赖的&#xff0c;其实在maven中并不是以这三种类型区分的&#xff0c;在maven中只有两种仓库类型&#xff0c;本地仓库和远程仓库&#…

Systemverilog中的Driving Strength讲解

在systemverilog中&#xff0c;net用于对电路中连线进行建模&#xff0c;driving strength(驱动强度)可以让net变量值的建模更加精确。net变量拥有4态逻辑值(0,1,z,x)&#xff0c;它的driving strength有(supply,strong,pull,weak,highz)。net的值由连接到net的driver源(驱动源…

【开源工具】使用Whisper将提取视频、语音的字幕

这里写目录标题 一、语音转字幕操作步骤1、下载安装包Assets\WhisperDesktop.zip[^2]2、加载模型2.1 下载模型2.1.1 进入Hugging Face[^3]的仓库2.1.2 选择需要下载的模型2.1.3 配置模型路径 3、语音转字幕4、实时语言转录功能 二、相关简介[^1]特点开发人员指南构建说明其他注…