Spark实战：词频统计

Spark实战：词频统计

news2026/2/15 21:14:21

在这里插入图片描述

文章目录

一、Spark实战：词频统计
- （一）Scala版
- - 1、分步完成词频统计
  - 2、一步搞定词频统计
- （二）Python版
- - 1、分步完成词频统计
  - 2、一步搞定词频统计
二、实战总结

一、Spark实战：词频统计

（一）Scala版

1、分步完成词频统计

（1）基于文本文件创建RDD

执行命令：val lines = sc.textFile("/home/test.txt")

（2）按空格拆分作扁平化映射

执行命令：val words = lines.flatMap(_.split(" "))

（3）将单词数组映射成二元组数组

执行命令：val tuplewords = words.map((_, 1))

（4）将二元组数组按键归约

执行命令：val wordcount = tuplewords.reduceByKey(_ + _)

（5）将词频统计结果按次数降序排列

执行命令：val sortwordcount = wordcount.sortBy(_._2, false)

2、一步搞定词频统计

执行命令：sc.textFile("/home/test.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).sortBy(_._2, false).collect.foreach(println)

（二）Python版

1、分步完成词频统计

（1）基于文本文件创建RDD

执行命令：lines = sc.textFile("/home/test.txt")

（2）按空格拆分作扁平化映射

执行命令：words = lines.flatMap(lambda line : line.split(' '))

（3）将单词数组映射成二元组数组

执行命令：tuplewords = words.map(lambda word : (word, 1))

（4）将二元组数组按键归约

执行命令：wordcount = tuplewords.reduceByKey(lambda a, b : a + b)

（5）将词频统计结果按次数降序排列

执行命令：sortwordcount = wordcount.sortBy(lambda wc : wc[1], False)

2、一步搞定词频统计

执行命令

for line in sc.textFile('/home/test.txt').flatMap(lambda line : line.split(' ')).map(lambda word : (word, 1)).reduceByKey(lambda a, b : a + b).sortBy(lambda tup : tup[1], False).collect():
    print(line)

二、实战总结

在Spark实战中，我们通过Scala和Python两个版本分别实现了词频统计的功能。首先，我们从文本文件中创建了RDD，然后按空格拆分进行扁平化映射，接着将单词数组映射成二元组数组，之后对二元组数组进行按键归约，最后将词频统计结果按次数降序排列。在分步实现的基础上，我们还可以通过一步命令直接完成整个流程。通过这次实战，我们对Spark的基本操作有了更深入的了解，为后续的学习和实践打下了基础。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1564924.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【Python时序预测系列】基于ConvLSTM实现单变量时间序列预测（源码）

【Python时序预测系列】基于ConvLSTM实现单变量时间序列预测（源码）

这是我的第252篇原创文章。一、引言 ConvLSTM是一种融合了卷积神经网络（CNN）和长短期记忆网络（LSTM）的混合神经网络结构，专门用于处理时空序列数据。ConvLSTM结合了CNN对空间特征的提取和LSTM对时间序列建模的能力&a…

阅读更多...

CentOS7安装flink1.17完全分布式

CentOS7安装flink1.17完全分布式

前提条件准备三台CenOS7机器，主机名称，例如：node2，node3，node4 三台机器安装好jdk8，通常情况下，flink需要结合hadoop处理大数据问题，建议先安装hadoop，可参考 hadoop安…

阅读更多...

曲线降采样之道格拉斯-普克算法Douglas–Peucker

曲线降采样之道格拉斯-普克算法Douglas–Peucker

曲线降采样之道格拉斯-普克算法Douglas–Peucker 该算法的目的是，给定一条由线段构成的曲线，找到一条点数较少的相似曲线，来近似描述原始的曲线，达到降低时间、空间复杂度和平滑曲线的目的。附赠自动驾驶学习资料和量产经验&…

阅读更多...

【C++】哈希之位图

【C++】哈希之位图

目录一、位图概念二、海量数据面试题一、位图概念假如有40亿个无重复且没有排序的无符号整数，给一个无符号整数，如何判断这个整数是否在这40亿个数中？ 我们用以前的思路有这些： 把这40亿个数遍历一遍，直到找到为…

阅读更多...

AI音乐GPT时刻来临：Suno 快速入门手册！

AI音乐GPT时刻来临：Suno 快速入门手册！

✨✨ 欢迎大家来访Srlua的博文（づ￣3￣）づ╭❤～✨✨ 🌟🌟 欢迎各位亲爱的读者，感谢你们抽出宝贵的时间来阅读我的文章。我是Srlua小谢，在这里我会分享我的知识和经验。&am…

阅读更多...

使用fusesource的mqtt-client-1.7-uber.jar，mqtt发布消息出去，接收端看到的是中文乱码，如何解决？

使用fusesource的mqtt-client-1.7-uber.jar，mqtt发布消息出去，接收端看到的是中文乱码，如何解决？

🏆本文收录于「Bug调优」专栏，主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由🚀；同时，欢迎大家关注&&收藏&&…

阅读更多...

是否有替代U盘，可安全交换的医院文件摆渡方案？

是否有替代U盘，可安全交换的医院文件摆渡方案？

医院内部网络存储着大量的敏感医疗数据，包括患者的个人信息、病历记录、诊断结果等。网络隔离可以有效防止未经授权的访问和数据泄露，确保这些敏感信息的安全。随着法律法规的不断完善，如《网络安全法》、《个人信息保护法》等，医…

阅读更多...

基于Springboot+Mybatis实现个人理财系统

基于Springboot+Mybatis实现个人理财系统

基于SpringbootMybatis实现个人理财系统博主介绍：多年java开发经验，专注Java开发、定制、远程、文档编写指导等,csdn特邀作者、专注于Java技术领域作者主页央顺技术团队 Java毕设项目精品实战案例《500套》欢迎点赞收藏 ⭐留言文末获取源码联系方式…

阅读更多...

Python机器学习实验数据处理之Numpy

Python机器学习实验数据处理之Numpy

一、实验目的 1. 了解numpy库的基本功能 2. 掌握Numpy库的对数组的操作与运算二、实验工具： 1. Anaconda 2. Numpy 三、Numpy简介 Numpy 的英文全称为 Numerical Python，指Python 面向数值计算的第三方库。Numpy 的特点在于，针对 Pyt…

阅读更多...

多模态学习实战手册：读懂CompassRank榜单的评测指标！

多模态学习实战手册：读懂CompassRank榜单的评测指标！

1. 前言榜单链接：CompassRank CompassRank 是一个中立且全面的性能榜单，作为大模型评测体系 OpenCompass2.0 中各类榜单的承载平台。它覆盖多领域、多任务下的模型性能，并定期更新，以提供动态的行业洞察。 CompassRank 保持中立性，不受任何商业利益干扰，并依托于 Com…

阅读更多...

Springboot集成knife4j (swagger)

Springboot集成knife4j (swagger)

1、添加依赖在pom.xml 文件中添加 knife4j-spring-boot-starter 的依赖 <dependency> <groupId>com.github.xiaoymin</groupId> <artifactId>knife4j-spring-boot-starter</artifactId> <version>3.0.3</version> </depe…

阅读更多...

D-迷恋网游（遇到过的题，做个笔记）

D-迷恋网游（遇到过的题，做个笔记）

我的代码： #include <iostream> using namespace std; int main() {int a, b, c; //a表示内向，b表示外向，c表示无所谓cin >> a >> b >> c; //读入数 if (b % 3 0 || 3-b % 3 < c) //如果外向的人能够3人组成…

阅读更多...

大数据学习第十二天（mysql不会的查询1）

大数据学习第十二天（mysql不会的查询1）

1、数据 /*创建部门表*/ CREATE TABLE dept( deptno INT PRIMARY KEY, dname VARCHAR(50) comment 部门名称, loc VARCHAR(50) comment 工作地点 ); /*创建雇员表*/ CREATE TABLE emp( empno INT PRIMARY KEY, ena…

阅读更多...

C++语言学习（三）——内联函数、auto、for循环、nullptr

C++语言学习（三）——内联函数、auto、for循环、nullptr

1. 内联函数 （1）概念以inline修饰的函数叫做内联函数，编译时C编译器会在调用内联函数的地方展开，没有函数调用建立栈帧的开销，内联函数提升程序运行的效率。内联函数是一种编译器指令，用于告诉编译器…

阅读更多...

操作系统—读者-写者问题及Peterson算法实现

操作系统—读者-写者问题及Peterson算法实现

文章目录 I.读者-写者问题1.读者-写者问题和分析2.读者—写者问题基本解法3.饥饿现象和解决方案总结 II.Peterson算法实现1.Peterson算法问题与分析(1).如何无锁访问临界区呢？(2).Peterson算法的基本逻辑(3).写对方/自己进程号的区别是？ 2.只包含意向的解…

阅读更多...

软考高级架构师：存储管理-磁盘管理概念和例题

软考高级架构师：存储管理-磁盘管理概念和例题

作者：明明如月学长， CSDN 博客专家，大厂高级 Java 工程师，《性能优化方法论》作者、《解锁大厂思维：剖析《阿里巴巴Java开发手册》》、《再学经典：《Effective Java》独家解析》专栏作者。热门文章推荐&am…

阅读更多...

GD32F470_MPU-6050模块三轴加速度陀螺仪6DOF模块有代码原理图 GY-521模块移植

GD32F470_MPU-6050模块三轴加速度陀螺仪6DOF模块有代码原理图 GY-521模块移植

2.13 MPU6050六轴传感器 MPU6050 是 InvenSense 公司推出的整合性 6 轴运动处理组件，其内部整合了 3 轴陀螺仪和 3 轴加速度传感器，并且含有一个IIC 接口， 可用于连接外部磁力传感器，并利用自带的数字运动处理器（DMP: …

阅读更多...

基于ssm的寝室管理系统（java项目+文档+源码）

基于ssm的寝室管理系统（java项目+文档+源码）

风定落花生，歌声逐流水，大家好我是风歌，混迹在java圈的辛苦码农。今天要和大家聊的是一款基于ssm的寝室管理系统。项目源码以及部署相关请联系风歌，文末附上联系信息。项目简介： 寝室管理系统设计的主要使用者分为…

阅读更多...

参数传值机制

参数传值机制

在 Java 中，方法的所有参数都是 “传值” 的基本类型：数值的拷贝引用类型：引用的拷贝方法内部改变参数对象的状态（修改某属性），改变将反映到原始对象上因为方法内部和外部引用的是同一个对象方法内部…

阅读更多...

探索广告行业业务模型的创新与发展

探索广告行业业务模型的创新与发展

标随着数字化时代的到来，广告行业正经历着前所未有的变革和发展。在这个充满挑战和机遇的时代，广告公司和从业者们正在探索各种创新的业务模型，以适应市场的变化并取得成功。本文将深入探讨广告行业的业务模型，探索创新与发展的路…

阅读更多...

推荐文章

最新文章