使用Maven对Scala独立应用程序进行编

news2024/12/23 4:56:00

任务描述

本关任务:使用Scala编写一个找出README.md文件中包含'a'的行数和包含'b'的行数的程序,并使用Maven对程序进行编译打包提交到Saprk上。

相关知识

在终端中执行如下命令创建一个文件夹 sparkapp3作为应用程序根目录:

 
  1. cd ~ # 进入用户主文件夹
  2. mkdir ./sparkapp3 # 创建应用程序根目录
  3. mkdir -p ./sparkapp3/src/main/scala # 创建所需的文件夹结构

在./sparkapp3/src/main/scala下建立一个名为SimpleApp.scala的文件(vim ./sparkapp3/src/main/scala/SimpleApp.scala),添加代码如下:

 
  1. /* SimpleApp.scala */
  2. import org.apache.spark.SparkContext
  3. import org.apache.spark.SparkContext._
  4. import org.apache.spark.SparkConf
  5. object SimpleApp {
  6. def main(args: Array[String]) {
  7. val logFile = "file:///usr/local/spark/README.md" // Should be some file on your system
  8. val conf = new SparkConf().setAppName("Simple Application")
  9. val sc = new SparkContext(conf)
  10. val logData = sc.textFile(logFile, 2).cache()
  11. val numAs = logData.filter(line => line.contains("a")).count()
  12. val numBs = logData.filter(line => line.contains("b")).count()
  13. println("Lines with a: %s, Lines with b: %s".format(numAs, numBs))
  14. }
  15. }

该程序计算 /usr/local/spark/README 文件中包含 “a” 的行数 和包含 “b” 的行数。代码第8行的 /usr/local/spark 为 Spark 的安装目录,如果不是该目录请自行修改。不同于 Spark shell,独立应用程序需要通过 val sc = new SparkContext(conf) 初始化 SparkContext,SparkContext 的参数 SparkConf 包含了应用程序的信息。 该程序依赖Spark Java API,因此我们需要通过Maven进行编译打包。在./sparkapp3目录中新建文件pom.xml,命令如下:

 
  1. cd ~/sparkapp3
  2. vim pom.xml

然后,在pom.xml文件中添加如下内容,用来声明该独立应用程序的信息以及与Spark的依赖关系:

 
  1. <project>
  2. <groupId>cn.edu.xmu</groupId>
  3. <artifactId>simple-project</artifactId>
  4. <modelVersion>4.0.0</modelVersion>
  5. <name>Simple Project</name>
  6. <packaging>jar</packaging>
  7. <version>1.0</version>
  8. <repositories>
  9. <repository>
  10. <id>jboss</id>
  11. <name>JBoss Repository</name>
  12. <url>http://repository.jboss.com/maven2/</url>
  13. </repository>
  14. </repositories>
  15. <dependencies>
  16. <dependency> <!-- Spark dependency -->
  17. <groupId>org.apache.spark</groupId>
  18. <artifactId>spark-core_2.12</artifactId>
  19. <version>3.0.2</version>
  20. </dependency>
  21. </dependencies>
  22. <build>
  23. <sourceDirectory>src/main/scala</sourceDirectory>
  24. <plugins>
  25. <plugin>
  26. <groupId>org.scala-tools</groupId>
  27. <artifactId>maven-scala-plugin</artifactId>
  28. <executions>
  29. <execution>
  30. <goals>
  31. <goal>compile</goal>
  32. </goals>
  33. </execution>
  34. </executions>
  35. <configuration>
  36. <scalaVersion>2.12.10</scalaVersion>
  37. <args>
  38. <arg>-target:jvm-1.8</arg>
  39. </args>
  40. </configuration>
  41. </plugin>
  42. </plugins>
  43. </build>
  44. </project>

为了保证Maven能够正常运行,先执行如下命令检查整个应用程序的文件结构:

 
  1. cd ~/sparkapp3
  2. find .

文件结构应该是类似如下的内容:

 
  1. .
  2. ./pom.xml
  3. ./src
  4. ./src/main
  5. ./src/main/scala
  6. ./src/main/scala/SimpleApp.scala

接下来,我们可以通过如下代码将整个应用程序打包成JAR包(注意:计算机需要保持连接网络的状态,而且首次运行打包命令时,Maven会自动下载依赖包,需要消耗几分钟的时间):

 
  1. cd ~/sparkapp3 #一定把这个目录设置为当前目录
  2. /usr/local/maven/bin/mvn package

如果屏幕返回如下信息,则说明生成JAR包成功:

生成的应用程序JAR包的位置为~/sparkapp3/target/simple-project-1.0.jar。如果运行Maven编译打包过程很慢,是因为需要到国外网站下载很多的依赖包,国外网站速度很慢,因此,要花费很长时间。为了加快速度,可以更改为国内的仓库地址。 最后,我们就可以将生成的 jar 包通过 spark-submit 提交到 Spark 中运行了,命令如下:

 
  1. /usr/local/spark/bin/spark-submit --class "SimpleApp" ~/sparkapp3/target/simple-project-1.0.jar
  2. #上面命令执行后会输出太多信息,可以不使用上面命令,而使用下面命令查看想要的结果
  3. /usr/local/spark/bin/spark-submit --class "SimpleApp" ~/sparkapp3/target/simple-project-1.0.jar > step5.txt #结果输出到step5.txt中
  4. cat step5.txt

得到的结果如下:

 
  1. Lines with a: 71, Lines with b: 38

到此,就顺利完成 Spark 应用程序的Maven编译打包运行了。

编程要求

根据提示,完成Maven对Sacal进行打包。


开始你的任务吧,祝你成功!

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/718101.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

银河麒麟服务器v10 sp1 redis开机自动启动

接上一篇&#xff1a;银河麒麟服务器v10 sp1 安装 redis_csdn_aspnet的博客-CSDN博客 将redis_init_script文件复制到/etc/init.d下&#xff0c;重命名为redisd&#xff1a; rootxxx-pc:cp /usr/local/redis/redis-7.0.11/utils/redis_init_script /etc/init.d/redisd 内容如…

可视化网页设计工具 Blocs「Mac」

Blocs是一款用于网页设计和开发的可视化工具。它提供了一个直观且强大的界面&#xff0c;使用户可以轻松地创建精美的网页&#xff0c;而无需编写代码。 使用Blocs&#xff0c;您可以通过拖放元素、调整布局、编辑文本和图像等来构建网页。它提供了丰富的预设组件和模板&#x…

科幻大作【InsCode Stable Diffusion美图活动一期】

一、 Stable Diffusion 模型在线使用地址&#xff1a; https://inscode.csdn.net/inscode/Stable-Diffusion 二、模型相关版本和参数配置&#xff1a; Model: GuoFeng3, Version: v1.2.0 迭代步数:30 采样方法:DPM 2M Karras 或者 DPM 2M SDE Karras3 宽高&#xff1a;10…

Kubernetes入门实战课-k8s实验环境

Kubernetes入门实战课-k8s实验环境 文章目录 Kubernetes入门实战课-k8s实验环境docker 架构图 回顾Kubernetes 作用minikube小型测试环境Kubernetes命令行工具kubectlminikube 安装过程minikube 环境示意图Kubernetes 和 Docker 之间有什么区别&#xff1f; docker 架构图 回顾…

ModaHub魔搭社区:详解GPTCache 系统的五个主要组件

目录 LLM 适配器&#xff08;LLM Adapter&#xff09; Embedding 生成器&#xff08;Embedding Generator&#xff09; 缓存管理器&#xff08;Cache Manager&#xff09; 相似性评估器 &#xff08;Similarity Evaluator&#xff09; 后期处理器&#xff08;Post Process…

Flink DataStream之从Kafka读数据

搭建Kafka 参考&#xff1a;centos7下kafka2.12-2.1.0的安装及使用_kafka2.12-2.1.0 steam_QYHuiiQ的博客-CSDN博客 启动zookeeper [rootlocalhost kafka_2.12-2.8.1]# pwd /usr/local/wyh/kafka/kafka_2.12-2.8.1 [rootlocalhost kafka_2.12-2.8.1]# ./bin/zookeeper-server…

Windows 环境下Docker 安装伪分布式 Hadoop

Windows 环境下Docker 安装伪分布式 Hadoop 1、环境2、拉取镜像3、启动容器4、预备操作4.1安装vim4.1.1 更新软件包信息4.1.2 安装vim 4.2 换源4.2.1 备份镜像源设置文件4.2.2 编辑镜像源设置文件4.2.3 重新更新一下软件包信息 4.3 同步上海时间4.3.1 安装 tzdata4.3.2 设置 tz…

[AJAX]原生AJAX——服务端如何发出JSON格式响应,客户端如何处理接收JSON格式响应

服务端代码&#xff1a; <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title> &l…

IPV6使用越来越广,您会配置吗?

前面针对IPv6写过一篇文章&#xff0c;但是好多网友反映没有读懂&#xff0c;今天再给大家把内容浓缩一下&#xff0c;教给大家如何配置。 IPV6的推出主要是为了解决地址空间的不足&#xff0c;从而进一步的促进互联网的发展。IPV6地址空间大到惊人&#xff0c;有人比喻地球上…

Rust in Action笔记 第十章 进程、线程和容器

Rust的闭包也就是类似lambda表达式&#xff0c;大致的格式是|a, b| {...} &#xff0c;竖线里面的是参数&#xff0c;花括号里面的是函数逻辑&#xff1b;通过thread::spawn(|| {})产生的线程&#xff0c;括号内的参数实际上就是一个闭包&#xff0c;因为创建新的线程不需要参数…

【论文阅读】StyleganV1 算法理解

文章目录 为什么提出&#xff1f;具体是怎么做的&#xff1f;1.解耦的思想&#xff08;对应文章第四章4.Disentanglement studies&#xff09;1.1 感知路径长度&#xff08;对应4.1Perceptual path length&#xff09;1.2 线性可分离性&#xff08;对应4.2Linear separability&…

Chrome DevTools、Vue DevTools、vs和DevTools调试

目录 Elements DOM节点&#xff08;增删改&#xff09;调试 Styles DOM结构 增删属性 模拟元素的伪状态&#xff0c;方便调试 Computed Layout Event Listeners Network Application 资源列表&#xff08;可改&#xff09;本地存储Cookie、WebStorage&#xff08;loca…

人工智能学习07--pytorch22--目标检测:YOLO V3 SPP

视频链接&#xff1a; https://www.bilibili.com/video/BV1t54y1C7ra/?vd_sourceb425cf6a88c74ab02b3939ca66be1c0d yolov3 spp spp&#xff1a;空间金字塔池化 trick&#xff1a;实现的小技巧&#xff0c;方法。&#xff08; up&#xff1a;Bag of Freebies里有很多trick&…

【C++学习笔记】C++中的异常概念异常的使用注意事项异常的优缺点

异常 1 C语言传统的处理异常的方式2 C异常的概念3 异常的使用以及注意事项3.1 异常的简单使用3.2 使用异常的注意事项3.3 异常的重新抛出3.4 异常规范3.5 异常安全 4 C标准库的异常体系5 异常的优缺点6 总结 1 C语言传统的处理异常的方式 C语言传统的错误处理机制&#xff1a;…

https安全传输原理:

内容来自思学堂&#xff1a; 信息裸奔——>对称加密——>非对称加密——>非对称和对称加密——>权威第三方机构CA数字签名

C++图形开发(5):逐渐变大(小)的小球

文章目录 1.逐渐变大的小球2.逐渐变小的小球 今天所讲的逐渐变大&#xff08;小&#xff09;的小球实际上就是基于上次的缓慢下落的小球的基础上的&#xff08;下落的小球详见&#xff1a;C图形开发&#xff08;4&#xff09;&#xff1a;下落的小球&#xff09; 1.逐渐变大的…

蓝桥杯专题-试题版含答案-【数数小木块】【精挑细选】【国王的魔镜】【字符串逆序输出】

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例点击跳转>软考全系列点击跳转>蓝桥系列 &#x1f449;关于作者 专注于Android/Unity和各种游…

每日浅读SLAM论文——简析Cartographer

文章目录 二维激光SLAM简单框架前端scan matchingSubmaps构建 后端分支定界优化csm&#xff08;CorrelativeScanMatch&#xff09; 代码实现框架 Cartographer&#xff08;论文名&#xff1a;Real-Time Loop Closure in 2D LIDAR SLAM&#xff09;是目前二维激光SLAM中应用最广…

postman不能进行并发测试

1.按照网上文档的配置 2.在登录接口里睡眠5s&#xff0c;如果是并发的话&#xff0c;所有的请求都会一起睡眠5s 3.测试结果&#xff1a;请求是每隔5s串行执行的

Linux定时任务-定时执行Shell脚本

主要是使用Linux的crontab工具来实现的&#xff0c;有两个方法&#xff0c;一个放在contab 列表里面&#xff0c;另一个是放在contab文件里面&#xff08;其实原理是一致的&#xff09;。 crontab 列表 cd /tmp # 创建一个shell脚本 vim hello.sh #!/bin/bash echo "hel…