深入浅出:Eclipse 中配置 Maven 与 Spark 应用开发全指南

news2024/9/23 8:16:55

Spark

  1. 安装配置

1.在 Eclipse 中配置 Maven

        Eclipse 中默认自带 Maven 插件,但是自带的 Maven 插件不能修改本地仓库,所

以通常我们不使用自带的 Maven ,而是使用自己安装的,在 Eclipse 中配置 Maven 的

步骤如下:

1) 点击 Eclipse 中的 Window → Preferences

2) 点开 Maven 前面的箭头,选择 Installations,点击 Add…

3) 点击 Directory…选择我们安装的 Maven 核心程序的根目录,然后点击 Finish

4) 勾上添加的 Maven 核心程序

5) 选择 Maven 下的 User Settings ,在全局设置哪儿点击 Browse… 选择 Maven

核心程序的配置文件 settings.xml ,本地仓库会自动变为我们在 settings.xml

文件中设置的路径

修改setting内容:

<profile>

      <id>jdk-1.8</id>

        <activation>

                 <activeByDefault>true</activeByDefault>

                <jdk>1.8</jdk>

        </activation>

<properties>

<maven.compiler.source>1.8</maven.compiler.source>

<maven.compiler.target>1.8</maven.compiler.target>

<maven.compiler.compilerversion>1.8</maven.compiler.compilerversion>

</properties>

</profile>

2. 在 Eclipse 中创建 Maven 项目

2.1 创建 Java 工程

1) 点击 File → New → Maven Project ,弹出如下窗口

2) 点击 Next,配置坐标(GAV)及打包方式,然后点击 Finish

group id:组织id

artifact id:项目名字

version:版本

package:java包名

3) 创建成功后, 配置 Maven 的核心配置文件 pom.xml 文件

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache.org/xsd/maven-4.0.0.xsd">

  <modelVersion>4.0.0</modelVersion>

  <groupId>me.spark.app</groupId>

  <artifactId>playersStats</artifactId>

  <version>1.0</version>

  <name>playersStats</name>

  <!-- FIXME change it to the project's website -->

  <url>http://www.example.com</url>

  <properties>

    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>

    <maven.compiler.source>1.8</maven.compiler.source>

    <maven.compiler.target>1.8</maven.compiler.target>

  </properties>

  <dependencies>

    <!-- https://mvnrepository.com/artifact/org.apache.maven.plugins/maven-assembly-plugin -->

        <dependency>

      <groupId>org.apache.maven.plugins</groupId>

      <artifactId>maven-assembly-plugin</artifactId>

      <version>3.3.0</version>

    </dependency>

      <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core -->

      <dependency>

      <groupId>org.apache.spark</groupId>

      <artifactId>spark-core_2.12</artifactId>

      <version>3.0.0</version>

    </dependency>

    <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql -->

        <dependency>

      <groupId>org.apache.spark</groupId>

      <artifactId>spark-sql_2.12</artifactId>

      <version>3.0.0</version>

    </dependency>

  </dependencies>

  <build>

        <plugins>

        <plugin>

            <artifactId>maven-assembly-plugin</artifactId>

            <version>3.3.0</version>

            <configuration>

          <descriptorRefs>

            <descriptorRef>jar-with-dependencies</descriptorRef>

          </descriptorRefs>

        <archive>

          <manifest>

            <mainClass>me.spark.app.playersStats.Main</mainClass>

          </manifest>

        </archive>

        </configuration>

        <executions>

            <execution>

                <id>make-assembly</id> <!-- this is used for inheritance merges -->

                <phase>package</phase> <!-- bind to the packaging phase -->

                <goals>

                <goal>single</goal>

                </goals>

            </execution>

        </executions>

      </plugin>

    </plugins>

  </build>

</project>

  1. 模板

1. Spark 应用基本模板

这是 Spark 应用程序的基本结构,适用于所有 Spark 程序的起点。

import org.apache.spark.sql.SparkSession;



public class MySparkApp {

    public static void main(String[] args) {

        // 创建 SparkSession,应用程序入口

        SparkSession spark = SparkSession.builder()

                .appName("MySparkApp")

                .master("local")  // 本地模式

                .getOrCreate();



        // 你的 Spark 代码在这里编写



        // 关闭 SparkSession

        spark.stop();

    }

}

2. DataFrame 操作模板

DataFrame 是 Spark 进行结构化数据处理的核心 API,特别适合处理 CSV、JSON、Parquet 等格式的文件。以下是通过 DataFrame 进行数据处理的模板。

import org.apache.spark.sql.Dataset;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.SparkSession;

import static org.apache.spark.sql.functions.*;



public class MyDataFrameApp {

    public static void main(String[] args) {

        // 创建 SparkSession

        SparkSession spark = SparkSession.builder()

                .appName("DataFrameExample")

                .master("local")

                .getOrCreate();



        // 读取 CSV 文件为 DataFrame

        Dataset<Row> df = spark.read()

                .option("header", "true") // 是否包含头部

                .option("inferSchema", "true") // 自动推断列类型

                .csv("path/to/your/csvfile.csv");



        // 打印 DataFrame 的结构

        df.printSchema();

       

        // 显示前20行数据

        df.show();



        // 数据处理:计算某列的平均值

        df.groupBy("column_name")

          .agg(avg("another_column").alias("average_value"))

          .show();



        // 关闭 SparkSession

        spark.stop();

    }

}

3. RDD 操作模板

RDD(Resilient Distributed Dataset)是 Spark 的底层 API,适合处理非结构化数据,特别是在数据量较大时。以下是通过 RDD 进行数据处理的模板。

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.SparkConf;



public class MyRDDApp {

    public static void main(String[] args) {

        // 配置 Spark

        SparkConf conf = new SparkConf().setAppName("RDDExample").setMaster("local");

        JavaSparkContext sc = new JavaSparkContext(conf);



        // 读取文本文件为 RDD

        JavaRDD<String> lines = sc.textFile("path/to/your/file.txt");



        // 简单的 WordCount 示例

        JavaRDD<String> words = lines.flatMap(line -> Arrays.asList(line.split(" ")).iterator());

        JavaRDD<Tuple2<String, Integer>> wordCounts = words.mapToPair(word -> new Tuple2<>(word, 1))

                .reduceByKey((a, b) -> a + b);



        // 打印结果

        wordCounts.collect().forEach(System.out::println);



        // 关闭 SparkContext

        sc.close();

    }

}

4. Spark SQL 模板

Spark SQL 允许你使用 SQL 查询来处理结构化数据。以下是 Spark SQL 的使用模板,适合数据分析任务。

import org.apache.spark.sql.Dataset;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.SparkSession;



public class MySQLApp {

    public static void main(String[] args) {

        // 创建 SparkSession

        SparkSession spark = SparkSession.builder()

                .appName("SQLExample")

                .master("local")

                .getOrCreate();



        // 读取 CSV 文件为 DataFrame

        Dataset<Row> df = spark.read()

                .option("header", "true")

                .option("inferSchema", "true")

                .csv("path/to/your/csvfile.csv");



        // 注册临时表

        df.createOrReplaceTempView("my_table");



        // 使用 SQL 查询数据

        Dataset<Row> result = spark.sql("SELECT column_name, COUNT(*) FROM my_table GROUP BY column_name");



        // 显示查询结果

        result.show();



        // 关闭 SparkSession

        spark.stop();

    }

}

5. 数据读取与写入模板

Spark 支持多种数据源的读取和写入,如 CSV、JSON、Parquet、JDBC 等。以下是常见的读取和写入数据的操作模板。

读取 CSV 数据
Dataset<Row> df = spark.read()

        .option("header", "true")

        .option("inferSchema", "true")

        .csv("path/to/csvfile.csv");
读取 JSON 数据
Dataset<Row> df = spark.read()

        .json("path/to/jsonfile.json");
读取 Parquet 数据
Dataset<Row> df = spark.read()

        .parquet("path/to/parquetfile.parquet");
写入数据到 CSV 文件
df.write()

  .option("header", "true")

  .csv("path/to/output_csv/");
写入数据到 Parquet 文件
df.write()

  .parquet("path/to/output_parquet/");

6. Spark Streaming 模板

Spark Streaming 处理实时流数据。以下是通过 Spark Streaming 进行数据处理的模板。

import org.apache.spark.SparkConf;

import org.apache.spark.streaming.Durations;

import org.apache.spark.streaming.api.java.JavaStreamingContext;



public class MyStreamingApp {

    public static void main(String[] args) throws InterruptedException {

        // 配置 Spark Streaming

        SparkConf conf = new SparkConf().setAppName("StreamingExample").setMaster("local[2]");

        JavaStreamingContext streamingContext = new JavaStreamingContext(conf, Durations.seconds(1));



        // 监听 socket 数据源

        JavaReceiverInputDStream<String> lines = streamingContext.socketTextStream("localhost", 9999);



        // 处理数据:简单的 WordCount

        JavaDStream<String> words = lines.flatMap(line -> Arrays.asList(line.split(" ")).iterator());

        JavaPairDStream<String, Integer> wordCounts = words.mapToPair(word -> new Tuple2<>(word, 1))

                .reduceByKey((a, b) -> a + b);



        // 输出结果

        wordCounts.print();



        // 启动流处理

        streamingContext.start();

        streamingContext.awaitTermination();

    }

}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2157058.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

多模态大模型应用开发技术学习

前篇提到多模态模型应用是未来的应用方向&#xff0c;本篇就聊聊技术学习方面的内容。 应用场景 多模态大模型技术的应用场景非常广泛&#xff0c;涵盖了从日常生活到专业领域的各个方面。以下是一些主要的应用场景&#xff1a; 办公自动化&#xff1a;多模态大模型可以用于…

K8s 之微服务的定义及详细资源调用案例

什么是微服务 用控制器来完成集群的工作负载&#xff0c;那么应用如何暴漏出去&#xff1f; 需要通过微服务暴漏出去后才能被访问 Service是一组提供相同服务的Pod对外开放的接口。借助Service&#xff0c;应用可以实现服务发现和负载均衡。service默认只支持4层负载均衡能力&…

指针 (七)

一 . 回调函数 什么是回调函数呢&#xff1f;就是说我们将函数的指针&#xff08;地址&#xff09;作为参数传递给另一个函数&#xff0c;当这个指针被用来调用其所指向的函数时&#xff0c;这个被调用的函数就是回调函数。回调函数并不是由该函数的实现方直接调用&#xff0c…

MySQL函数介绍--日期与时间函数(二)

我相信大家在学习各种语言的时候或多或少听过我们函数或者方法这一类的名词&#xff0c;函数在计算机语言的使用中可以说是贯穿始终&#xff0c;那么大家有没有思考过到底函数是什么&#xff1f;函数的作用又是什么呢&#xff1f;我们为什么要使用函数&#xff1f;其实&#xf…

移动技术开发:RecyclerView瀑布流水果列表

1 实验名称 RecyclerView瀑布流水果列表 2 实验目的 掌握RecyclerView控件的实现方法和基本应用 3 实验源代码 布局文件代码&#xff1a; activity_main&#xff1a; <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android&q…

【学习笔记】手写 Tomcat 五

目录 一、优化 Servlet 创建一个抽象类 继承抽象类 二、三层架构 业务逻辑层 数据访问层 1. 在 Dao 层操作数据库 2. 调用 Dao 层&#xff0c;实现业务逻辑功能 3. 调用 Service 层&#xff0c;响应数据 测试 三、数据库连接池 1. 手写数据库连接池 2. 创建数据库…

C语言题目之单身狗2

文章目录 一、题目二、思路三、代码实现 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 一、题目 二、思路 第一步 在c语言题目之打印单身狗我们已经讲解了在一组数据中出现一个单身狗的情况&#xff0c;而本道题是出现两个单身狗的情况。根据一个数…

当Navicat报错 Can not connect to MySQL server的解决方法!

今天运行数据库时突然弹出一个error&#xff1a; 原因&#xff1a;MySQL的服务没有打开&#xff0c;需要检查MySQL的开启状态即可。 具体做法&#xff1a; 1.右键“开始”&#xff0c;点击“计算机管理” 2. 选择“服务和应用程序”&#xff0c;并点击“服务” 3.在服务中找…

ESP32-WROOM-32 [创建AP站点-TCP服务端-数据收发]

简介 ESP32 创建TCP Server AP站点&#xff0c; PC作为客户端连接站点并收发数据 指令介绍 注意,下面指令需要在最后加上CRLF, 也就是\r\n(回车换行) ATRESTORE // 恢复出厂设置 ATCWMODE2 // 设置 Wi-Fi 模式为 softAP ATCIPMODE0 // 需要数据传输模式改为0&#xff0c; 普通…

Cesium 绘制可编辑点

Cesium Point点 实现可编辑的pointEntity 实体 文章目录 Cesium Point点前言一、使用步骤二、使用方法二、具体实现1. 开始绘制2.绘制事件监听 三、 完整代码 前言 支持 鼠标按下 拖动修改点&#xff0c;释放修改完成。 一、使用步骤 1、点击 按钮 开始 绘制&#xff0c;单…

河钢数字PMO牛红卫受邀为第四届中国项目经理大会演讲嘉宾

全国项目经理专业人士年度盛会 河钢数字技术股份有限公司项目管理部PMO牛红卫受邀为PMO评论主办的全国项目经理专业人士年度盛会——2024第四届中国项目经理大会演讲嘉宾&#xff0c;演讲议题为“从技术到领导力——项目经理成长进阶之道”。大会将于10月26-27日在北京举办&…

知情人称,丹尼尔克雷格在卸任“007”以后他和蕾切尔薇兹的婚姻“产生了奇效”

丹尼尔克雷格、蕾切尔薇兹 虽然丹尼尔克雷格 (Daniel Craig) 因出演詹姆斯邦德 (James Bond) 而成为全球最耀眼的明星之一&#xff0c;实现了自己以及很多人的梦想&#xff0c;但知情人称他与蕾切尔薇兹 (Rachel Weisz) 的婚姻实际上正因此而陷入困境&#xff1b;但现在&#…

C# winforms DataGridView设置数据源自动显示表格

初级代码游戏的专栏介绍与文章目录-CSDN博客 我的github&#xff1a;codetoys&#xff0c;所有代码都将会位于ctfc库中。已经放入库中我会指出在库中的位置。 这些代码大部分以Linux为目标但部分代码是纯C的&#xff0c;可以在任何平台上使用。 源码指引&#xff1a;github源…

高效打造知识图谱,使用LlamaIndex Relik实现实体关联和关系抽取

大家好&#xff0c;文本信息转化为知识图谱的技术&#xff0c;自问世以来一直是研究界的宠儿。大型语言模型&#xff08;LLMs&#xff09;的兴起让这个领域受到更多关注&#xff0c;但LLMs的成本之高令人却步。然而通过对小型模型微调优化&#xff0c;可以找到一种更经济高效的…

没有 Microsoft Wi-Fi Direct Virtual Adapter #2 导致无法打开热点

我的环境 电脑打不开热点 系统 win11 64位 品牌 hp 笔记本电脑 解决方法&#xff1a; https://answers.microsoft.com/zh-hans/windows/forum/all/%E7%A7%BB%E5%8A%A8%E7%83%AD%E7%82%B9%E6%97%A0/9285620a-71d9-4671-b125-4cd607b6371a 解决 &#x1f613; 扫描一下设…

读构建可扩展分布式系统:方法与实践12分布式数据库案例

1. Redis 1.1. 2009年首次发布 1.1.1. 更注重原始性能和简单性&#xff0c;而不是数据安全性和一致性 1.2. 主要吸引力在于它能够同时充当分布式缓存和数据存储 1.3. 维护一个内存中的数据存储&#xff0c;也称为数据结构存储(data structure store) 1.4. 配置Redis将每个…

每日学习一个数据结构-Trie树(字典树)

文章目录 定义节点结构根节点插入操作查找操作删除操作特点应用示例 “Trie”树&#xff0c;又称为前缀树或字典树&#xff0c;是一种专门用于存储字符串的数据结构。它在许多应用程序中都非常有用&#xff0c;特别是在那些需要高效查找、插入和删除字符串的应用场景中。下面是…

2024年华为杯数学建模E题-高速公路应急车道启用建模-基于YOLO8的数据处理代码参考(无偿分享)

利用YOLO模型进行高速公路交通流量分析 识别效果&#xff1a; 免责声明 本文所提供的信息和内容仅供参考。尽管我尽力确保所提供信息的准确性和可靠性&#xff0c;但我们不对其完整性、准确性或及时性作出任何保证。使用本文信息所造成的任何直接或间接损失&#xff0c;本人…

记一次Meilisearch轻量级搜索引擎使用

以前使用的是mysql的全文索引、最开始还行。后续觉得就不好用了&#xff0c;但是服务器资源有限&#xff0c;没法上ES&#xff0c;只好找一个轻量级的搜索引擎、找了半天&#xff0c;决定使用这一个&#xff0c;目前效果还不错的。 参考网址 官网&#xff1a;https://www.meil…

java反射基础知识

1.java的反射机制 Java 反射机制是在运行状态中&#xff0c;对于任意一个类&#xff0c;都能够知道这个类的所有属性和方法&#xff1b;对于任意一个对象&#xff0c;都能够调用它的任意方法和属性&#xff1b;这种动态获取信息以及动态调用对象方法的功能称为 Java 语言的反射…