任务3.8.3 利用RDD统计每日新增用户

news2026/2/13 17:42:23

在这里插入图片描述

任务目标

统计给定用户访问历史数据中，每日的新增用户数量。

数据准备

原始数据格式：每行包含两个字段，日期和用户名，以逗号分隔。

示例数据：

2024-05-01,mike
2024-05-01,alice
2024-05-01,brown
...

解决方案

使用倒排索引法，将用户名映射到其首次访问的日期。
统计每个日期的出现次数，即为该日期的新增用户数。

环境准备

本地创建用户文件 users.txt 并上传至 HDFS。
启动 Spark Shell 或创建 Spark 项目。

交互式实现步骤

启动 Spark Shell：

spark-shell --master spark://master:7077

读取数据：

val rdd1 = sc.textFile("hdfs://master:9000/newusers/input/users.txt")

倒排索引：

val rdd2 = rdd1.map(line => line.split(",") match { case Array(date, user) => (user, date) })

按键分组：
```
val rdd3 = rdd2.groupByKey()
```

最小日期映射：

val rdd4 = rdd3.mapValues(dates => dates.min)

计数统计：
```
val result = rdd4.countByKey()
```

排序输出：

val keys = result.keys.toList.sorted
keys.foreach(key => println(s"$key 新增用户数：$result(key)"))

Spark 项目实现步骤

创建 Maven 项目，配置 Scala 版本和 Spark 依赖。
添加 Scala SDK 和 日志配置文件。
创建 HDFS 配置文件，设置客户端访问权限。
编写 Scala 程序 CountNewUsers，实现上述逻辑。
运行程序，查看 HDFS 上的输出结果。

结果验证

验证输出结果是否与期望统计结果一致。

示例期望结果：

2024-05-01 新增用户数：3
2024-05-02 新增用户数：1
2024-05-03 新增用户数：2

总结

本实战概述展示了如何使用 Apache Spark 的 RDD 来处理和分析用户访问数据，以统计每日的新增用户数。通过交互式实现和项目化实现两种方式，本概述提供了详细的步骤和代码示例，确保了任务的可操作性和可复现性。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1837448.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

任务3.8.3 利用RDD统计每日新增用户

任务目标

数据准备

解决方案

环境准备

交互式实现步骤

Spark 项目实现步骤

结果验证

总结

相关文章

【HTML01】HTML基础-基本元素-附带案例-作业

18V-150V降5V100mA恒压WT5101

3D视觉引导机器人提升生产线的自动化水平和智能化程度

RockChip Android12 Settings二级菜单

代码随想录算法训练营第四十二天|1049. 最后一块石头的重量 II ， 494. 目标和， 474.一和零

【数学】负数

最新版WordPress网创资源美化主题整站源码更新自动同步插件

C++之模板（二）

SEO之预估流量及价值（一）

提取人脸——OpenCV

DDP算法之线性化和二次近似（Linearization and Quadratic Approximation）

STM32--IAP程序升级实验

易备防勒索备份方案与成功案例

Opencv高级图像处理

defer+recover机制处理错误

Win32编程：第一个窗口程序（Part.1）

Unity URP 仿原神角色渲染过程记录

Go语言RPC开发深度指南：net/rpc包的实战技巧和优化策略

pdf怎么压缩到2m以内或5m以内的方法

隐藏element的DateTimePicker组件自带的清空按钮