合并多文件后分组再结构化

news2025/12/28 17:16:43

【问题】

Here's the problem statement:

In a folder in HDFS, there're a few csv files with each row being a record with the schema (ID, attribute1, attribute2, attribute3).

Some of the columns (except ID) could be null or empty strings, and no 2 records with the same ID can have the same non-empty value.

We'd like to merge all records with the same ID, and write all merged records also in HDFS. For example:

Record R1: ID = 1, attribute1 = "hello", attribute2 = null, attribute3 = "";

Record R2: ID = 1, attribute1 = null, attribute2 = null, attribute3 = "testa";

Record R3: ID = 1 attribute1 = null, attribute2 = "okk", attribute3 = "testa";

Merged record should be: ID = 1, attribute1 = "hello", attribute2 = "okk", attribute3 = "testa"

I'm just starting to learn Spark. Could anybody share some thoughts on how to write this in Java with Spark? Thanks!

Here're some sample csv files:

file1.csv:

ID,str1,str2,str3

1,hello,,

file2.csv:

ID,str1,str2,str3

1,,,testa

file3.csv:

ID,str1,str2,str3

1,,okk,testa

The merged file should be:

ID,str1,str2,str3

1,hello,okk,testa

It's known beforehand that there won't be any conflicts on any fields.

Thanks!

【回答】

复述问题：有N个文件相当于N条记录，逻辑上按ID分为M个组，将每组整理为一条记录，第2-4字段的值为将本组记录中该字段的第一个非空取值，如果都空，则本字段也为空。

JAVA(Spark包)写些代码较为复杂，可考虑用SPL实现，代码简单易懂，也能直接访问HDFS：

	A
1	=["file1.csv","file2.csv","file3.csv"].("hdfs://192.168.1.210:9000/user/hfiles/"+~)
2	=hdfs_client(;"hdfs:// 192.168.1.210:9000")
3	=A1.conj(hdfs_file(A2,~).import@ct())
4	=A3.group(#1)
5	=A4.new(#1,~.(#2).select@1(~),~.(#3).select@1(~),~.(#4).select@1(~))
6	=hdfs_file(A2,"/user/hfiles/result.csv").export@tc(A5)

A1：拼成字符串序列

A2：连接hdfs文件系统

A3：读取每个文件中的内容，并将数据合并到一起。

A4：按照第一列分组

A5：将每组整理为一条记录，第2-4字段的值为将本组记录中该字段的第一个非空取值。

A5还可简化为：=A4.new(#1,${to(2,4).("~.(#"/~/").select@1(~)").concat@c()})

A6：写入结果文件

上述代码很容易和JAVA集成（可参考Java 如何调用 SPL 脚本）。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/82095.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

汇编语言常用DOS功能调用示例

汇编语言常用DOS功能调用示例

1.利用DOS功能调用输出响铃（响铃的ASCII码为07H）。建立源程序文件HELLO.ASM，通过汇编程序得到目标文件RING.OBJ以及列表文件RING.LST，通过连接程序得到可执行文件性文件 RING.EXE。对可执行性文件进行调试。 （1&…

阅读更多...

【数据结构】——栈和队列

【数据结构】——栈和队列

目录 1.栈 1.1栈的概念及结构 1.2栈的实现 1.2.1具体实现 Stack.h 栈初始化栈销毁入栈出栈取栈顶数据判空栈中有效元素的个数全部Stack.c的代码测试Test.c代码 2.队列 2.1队列的概念及结构 2.2队列的实现 Queue.h 队列初始化队列销毁队尾入队列…

阅读更多...

Tomcat8.0使用tomcat-redis-session-manager共享session【开源】，tomcat实现session共享

Tomcat8.0使用tomcat-redis-session-manager共享session【开源】，tomcat实现session共享

前言【可跳过，比较简单】由于以前的项目配置了多个tomcat服务使用了nginx代理，但是关闭某个tomcat的时候登录用户信息丢失，用户得重新登录，这就让人体验不好了；我们可以复制各个tomcat服务的session来实现的sessio…

阅读更多...

【供给需求优化算法】基于适应度-距离-平衡供给需求优化算法FDB-SDO附matlab代码

【供给需求优化算法】基于适应度-距离-平衡供给需求优化算法FDB-SDO附matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，matlab项目合作可私信。 🍎个人主页：Matlab科研工作室 🍊个人信条：格物致知。更多Matlab仿真内容点击👇 智能优化算法…

阅读更多...

毕设选题推荐基于python的django框架的学生课程管理系统

毕设选题推荐基于python的django框架的学生课程管理系统

💖🔥作者主页：计算机毕设老哥🔥 💖 精彩专栏推荐订阅：在下方专栏👇🏻👇🏻👇🏻👇🏻 Java实战项目专栏 Python实…

阅读更多...

前端二面常见手写面试题（必备）

前端二面常见手写面试题（必备）

用正则写一个根据name获取cookie中的值的方法 function getCookie(name) {var match document.cookie.match(new RegExp((^| ) name ([^;]*)));if (match) return unescape(match[2]); }获取页面上的cookie可以使用 document.cookie 这里获取到的是类似于这样的字符串&…

阅读更多...

新一代推理部署工具FastDeploy与十大硬件公司联合打造：产业级AI模型部署实战课...

新一代推理部署工具FastDeploy与十大硬件公司联合打造：产业级AI模型部署实战课...

人工智能产业应用发展的越来越快，开发者需要面对的适配部署工作也越来越复杂。层出不穷的算法模型、各种架构的AI硬件、不同场景的部署需求、不同操作系统和开发语言，为AI开发者项目落地带来极大的挑战。为了解决AI部署落地难题，我们发布了新…

阅读更多...

（附源码）springboot校园跳蚤市场毕业设计 646515

（附源码）springboot校园跳蚤市场毕业设计 646515

基于Springboot校园跳蚤市场摘要科技进步的飞速发展引起人们日常生活的巨大变化，电子信息技术的飞速发展使得电子信息技术的各个领域的应用水平得到普及和应用。信息时代的到来已成为不可阻挡的时尚潮流，人类发展的历史正进入一个新时代。现代社会越来…

阅读更多...

Python解题 - CSDN周赛第14期 - 单词编码

Python解题 - CSDN周赛第14期 - 单词编码

本期其实没啥好写的，都是数学题，和算法关系不大，唯手熟尔。而且又出现了同一天的每日一练中包含了赛题，这算不算官方泄题呢？看来下次在竞赛之前先做完每日一练大有益处呢。第一题：字符串全排列对K个不同字…

阅读更多...

算法leetcode｜21. 合并两个有序链表（rust重拳出击）

算法leetcode｜21. 合并两个有序链表（rust重拳出击）

文章目录21. 合并两个有序链表：样例 1：样例 2：样例 3：提示：原题传送门：分析：题解：rustgoccpythonjava21. 合并两个有序链表： 将两个升序链表合并为一个新的升序链表并…

阅读更多...

一款基于SpringBoot+layui 开源的固定设备资产管理系统源码源码免费分享

一款基于SpringBoot+layui 开源的固定设备资产管理系统源码源码免费分享

淘源码：国内专业的免费源码下载平台分享一款开源的固定设备资产管理系统源码，系统可对常用资产设备进行信息化管理，包含自定义支持各类设备、自带导入导出、维护工作统计、采购管理、文档管理、合同管理等功能，包含对资产的登记、…

阅读更多...

如何优雅的设计和使用缓存？

如何优雅的设计和使用缓存？

背景在之前的文章中你应该知道的缓存进化史介绍了爱奇艺的缓存架构和缓存的进化历史。俗话说得好，工欲善其事，必先利其器，有了好的工具肯定得知道如何用好这些工具，本篇将介绍如何利用好缓存。 1.确认是否需要缓存在使用缓存…

阅读更多...

CentOS7 修改ip、MAC、UUID

CentOS7 修改ip、MAC、UUID

对于复制的虚拟机，在开机时，VMware自动为其分配了相同的Mac地址以及IP地址(除IP地址是dhcp自动获取外) UUID（Universally Unique Identifier）是系统层面的全局唯一标识符号，Mac地址以及IP地址是网络层面的标识号两台不…

阅读更多...

dtb如何转换到platform_device

dtb如何转换到platform_device

分2步，第一步是首先转换为device_node，第二步device_node转换为platform_device。第一步 /*** unflatten_device_tree - create tree of device_nodes from flat blob** unflattens the device-tree passed by the firmware, creating the* tree of st…

阅读更多...

mysql常用索引

mysql常用索引

1.普通索引 navicat中为NORMAL 语句为 ADD INDEX //采用普通索引的方式可以大大提高数据库的工作效率 2.唯一索引 navicat中为NORMAL 语句为 ADD UNIQUE INDEX //采用唯一索引的方式可以大大提高数据库的工作效率、并且数据无重复 3.主键索引 navicat中为主键语句为 AD…

阅读更多...

ALSA系统简析

ALSA系统简析

一音频架构如图所示是嵌入式系统的音频连接音频编解码器将数字音频信号转换成扬声器播放所需要的模拟声音信号。而通过麦克风时，则执行相反的过程。数字音频信号通过 PCM技术对模拟信号以某个比特率采样得到的，编解码器的任务就是以支持的PCM…

阅读更多...

非零基础自学计算机操作系统第1章操作系统概述 1.4 操作系统的分类 1.4.1 多道批处理操作系统 1.4.2 分时操作系统

非零基础自学计算机操作系统第1章操作系统概述 1.4 操作系统的分类 1.4.1 多道批处理操作系统 1.4.2 分时操作系统

非零基础自学计算机操作系统文章目录非零基础自学计算机操作系统第1章操作系统概述1.4 操作系统的分类1.4.1 多道批处理操作系统1.4.2 分时操作系统第1章操作系统概述 1.4 操作系统的分类按照操作系统的功能可将其分为以下几类：多道批处理操作系统、分时操作系…

阅读更多...

力扣(LeetCode)143. 重排链表(C++)

力扣(LeetCode)143. 重排链表(C++)

模拟五步做完 : ①遍历链表，得到链表长度 ②找到中间结点 ③反转链表后半段的结点指向 ④重排链表 ⑤尾结点的指向置空初始链表 L0→L1→…→Ln−1→LnL0 → L1 → … → Ln - 1 → LnL0→L1→…→Ln−1→Ln 重排链表 L0→Ln→L1→Ln−1→L2→Ln−2→…L0 → Ln…

阅读更多...

MongoDB数据库 —— 图形化工具

MongoDB数据库 —— 图形化工具

在前面通过使用MongoDB在命令窗口操作数据库，而MySQL数据库也同样可以在命令窗口使用sql语句操作数据库，在安装数据库的时候提到可以安装这个图形化工具的，为了节省安装时间和卡顿选择后续安装MongoDB图形化工具，在MySQL数据中同样…

阅读更多...

[附源码]JAVA毕业设计疫情防控期间人员档案追演示录像上（系统+LW）

[附源码]JAVA毕业设计疫情防控期间人员档案追演示录像上（系统+LW）

[附源码]JAVA毕业设计疫情防控期间人员档案追演示录像上（系统LW） 项目运行环境项配置： Jdk1.8 Tomcat8.5 Mysql HBuilderX（Webstorm也行） Eclispe（IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#x…

阅读更多...

推荐文章

最新文章