hadoop-Combiner合并、OutputFormat

hadoop-Combiner合并、OutputFormat

news2026/2/13 23:44:55

一、Combiner合并

Combiner是MR程序中Mapper和Reducer之外的一种组件。
2）Combiner组件的父类就是Reducer
3）Combiner和Reducer的区别在与运行的位置；Combiner是在每一个MapTask所在的节点运行；Reducer是接收全局所有Mapper的输出结果
4）Combiner的意义就是对每一个MapTask的输出进行局部汇总，以减小网络传输量。
5）Combiner能够应用的前提是不能影响最终的业务逻辑，而且，Combiner的输出kv应该跟Reducer的输入kv类型要对应起来。

三、OutputFormat接口实现类

OutputFormat是MapReduce输出的基类，所有实现MapReduce输出都实现了OutputFormat接口。
常见的OutputFormat实现类：

文本输出TextOutputFormat
默认的输出格式是TextOutputFormat，它把每条记录写为文本行。它的键和值可以是任意类型，因为TextOutputFormat调用toString()方法把它们转换为字符串。
SequenceFileOutputFormat
将SequenceFileOutputFormat输出作为后续MapReduce任务的输入，这便是一种好的输出格式，因为它的格式紧凑，很容易被压缩。（将小文件合并，节省namenode存储空间）。
自定义OutputFormat
根据用户需求，自定义实现输出。

自定义OutputFormat 使用场景及步骤
1.使用场景
为了实现控制最终文件的输出路径和输出格式，可以自定义OutputFormat。
2. 自定义OutputFormat步骤
1）自定义一个类继承FileOutputFormat
2）改写RecordWriter，具体改写输出数据的方法write()。

四、Join多种应用

Reduce Join工作原理
map端的主要作用：为来自不同的表或文件的key/value对，打标签以区别不同的来源的记录。然后用连接字段作为key，其余部分和新加的标志作为value，最后进行输出。
reduce端的主要作用：在reduce端以连接字段作为key的分组已经完成，我们只需要在每一个分组当中将那些来源不同的文件的记录（在Map阶段已经打标志）分开，最后进行合并就ok了。
案例

4.1 Map Join分析

使用场景
Map Join 适用于一张表十分小、一张表十分大的场景（数据倾斜）。
优点
reduce端处理过多的表，非常容易导致数据倾斜。于是，在Map端缓存多张表，提前处理业务逻辑，这样增加Map端业务，减少reduce端数据的压力，尽可能的减少数据倾斜。
具体办法：采用DistributedCache（分布式缓存）
1）在Mapper的setup阶段，将文件读取到缓存集合中
2）在驱动函数中加载缓存
（也就是将小文件写入缓存中，这样reduce阶段直接从缓存读，不需要重新再磁盘读一遍了）
job.addCacheFile(new URI(“”));

Map端表合并案例分析：
在这里插入图片描述

五、计数器

hadoop为每个作业维护若干内置计数器，以描述多项指标。例如，某些计数器记录已处理的字节数和记录数，使用户可监控已处理的输入数据量和已产生的输出数据量。

计数器API
1）采用枚举的方式统计技术

2）采用计数器组、计数器名称的方式统计

3）计数结果在程序运行后的控制台上查看。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/373506.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

c++11 标准模板（STL）（std::unordered_set）（九）

c++11 标准模板（STL）（std::unordered_set）（九）

定义于头文件 <unordered_set>template< class Key, class Hash std::hash<Key>, class KeyEqual std::equal_to<Key>, class Allocator std::allocator<Key> > class unordered_set;(1)(C11 起)namespace pmr { templat…

阅读更多...

Linux学习（8.5）文件内容查阅

Linux学习（8.5）文件内容查阅

目录文件内容查阅： 直接检视文件内容 cat (concatenate) tac (反向列示) nl (添加行号列印) 可翻页检视 more (一页一页翻动) less (一页一页翻动) 数据撷取 tail (取出后面几行) 非纯文字档： od 修改文件时间或建置新档： touc…

阅读更多...

数据结构（六）二叉树

数据结构（六）二叉树

一、树形结构概念树是一种非线性的数据结构，它是由n（n>0）个有限结点组成一个具有层次关系的集合。把它叫做树是因为它看起来像一棵倒挂的树，也就是说它是根朝上，而叶朝下的。它具有以下的特点：1、有一个…

阅读更多...

昇腾AI新技能，还能预防猪生病？

昇腾AI新技能，还能预防猪生病？

国药集团动物保健股份有限公司（简称“国药动保”）是专业从事动物保健产品研发、生产和销售的国家高新技术企业，是国内少数几家具备新产品原创能力的动物保健企业。其中，猪圆环病毒灭活疫苗等市场份额位居行业前列。 “猪圆环病毒…

阅读更多...

【Linux学习笔记】8.Linux yum 命令和apt 命令

【Linux学习笔记】8.Linux yum 命令和apt 命令

前言本章介绍Linux的yum命令和apt命令。 Linux yum 命令 yum（ Yellow dog Updater, Modified）是一个在 Fedora 和 RedHat 以及 SUSE 中的 Shell 前端软件包管理器。基于 RPM 包管理，能够从指定的服务器自动下载 RPM 包并且安装&#xf…

阅读更多...

一种全新的图像滤波理论的实验（三）

一种全新的图像滤波理论的实验（三）

一、前言 2023年02月22日，我发布了滤波后，为针对异常的白色和黑色像素进行处理的实验，本次发布基于上下文处理的方案的实验，目的是通过基于加权概率模型滤波后，在逆滤波时直接修复大量的白色和黑色的异常像素&#xf…

阅读更多...

html css输入框获得焦点、失去焦点效果

html css输入框获得焦点、失去焦点效果

input输入框获得焦点、失去焦点效果废话shao shuo ! 直接看效果图，好吧！ 效果图： code: <!DOCTYPE html> <html> <head><title></title><meta charset"utf-8" /><style type"text…

阅读更多...

电子统计台账：海量数据中导入特定行，极力减少键盘编辑工作量

电子统计台账：海量数据中导入特定行，极力减少键盘编辑工作量

1 前言从事企业统计工作的小伙伴，本来已经够忙的了，现在又要加上什么电子台账这种鬼任务，而且居然还要每月来一次，简直不能忍。如果非要捏着鼻子忍了，那么有什么办法，减轻工作量？2 问题的提出有…

阅读更多...

应用场景五：西门子PLC通过Modbus协议连接DCS系统

应用场景五：西门子PLC通过Modbus协议连接DCS系统

应用描述： 西门子PLC（S7200/300/400/200SMART）通过桥接器可以支持ModbusRTU串口和ModbusTCP以太网（有线和无线WIFI同时支持）两种通讯方式连接DCS系统，不需要编程PLC通讯程序，直接在模块中进行地…

阅读更多...

【数据库】第九章关系查询处理与优化

【数据库】第九章关系查询处理与优化

第九章关系查询处理与优化索引索引文件是一种辅助存储结构，其存在与否不改变存储表的物理存储结构；然而其存在，可以明显提高存储表的访问速度。索引文件组织方式有两种：(相对照的，主文件组织有堆文件、排序文件、…

阅读更多...

Python3-字符串

Python3-字符串

Python3 字符串字符串是 Python 中最常用的数据类型。我们可以使用引号( ’ 或 " )来创建字符串。创建字符串很简单，只要为变量分配一个值即可。 Python 访问字符串中的值 Python 不支持单字符类型，单字符在 Python 中也是作为一个字符串使用…

阅读更多...

行测-判断推理-图形推理-位置规律-旋转、翻转

行测-判断推理-图形推理-位置规律-旋转、翻转

短指针每次逆时针旋转60（排除法选C走人）长指针每次顺时针旋转120选C左上菱形每次顺时针旋转90（排除C D）右上每次旋转180（选B走人）左下每次保持不变右下每次逆时针旋转90选B左上和右上为左右翻转&#xff0c…

阅读更多...

结合JasperReports输出报表

结合JasperReports输出报表

结合JasperReports输出报表前面我们已经使用Jaspersoft Studio设计了两个模板文件：demo1.jrxml和demo2.jrxml。其中demo1.jrxml的动态列表数据是基于JDBC数据源方式进行数据填充，demo2.jrxml的动态列表数据是基于JavaBean数据源方式进行数据填充。本小节…

阅读更多...

ATTCK实战系列-红队评估(一)

ATTCK实战系列-红队评估(一)

from ATT&CK实战系列-红队评估(一) 环境搭建下载地址:http://vulnstack.qiyuanxuetang.net/vuln/detail/2/ 将三个虚拟机启动起来除了windows 7那个主机，其他都只设置成仅主机模式 windows 7添加两个网卡，一个是仅主机，一个是NAT …

阅读更多...

解决SpringBoot中@RequestBody不能和Multipart同时传递的问题

解决SpringBoot中@RequestBody不能和Multipart同时传递的问题

问题描述今天在做文件上传的时候，遇到了这么一个错误日志： Resolved[org.springframework.web.HttpMediaTypeNotSupportedException: Content type ‘multipart/form-data;boundary--------------------------771899451541318130280588;charsetUTF-8’…

阅读更多...

[牛客Hot101]链表篇

[牛客Hot101]链表篇

文章目录1.翻转链表2.链表内指定区间翻转3. 链表中的节点每k个一组翻转4. 合并两个排序的链表5. 合并k个排序的链表6. 判断链表是否有环7. 链表中倒数第k个节点8. 删除链表中的倒数第k和节点9. 两个链表的第一个公共节点10.链表的入环节点11. 链表相加（二&#xff0…

阅读更多...

mac 如何设置 oh my zsh 终端terminal 和添加主题powerlevel10k

mac 如何设置 oh my zsh 终端terminal 和添加主题powerlevel10k

Oh My Zsh 是什么 Oh My Zsh 是一款社区驱动的命令行工具，正如它的主页上说的，Oh My Zsh 是一种生活方式。它基于 zsh 命令行，提供了主题配置，插件机制，已经内置的便捷操作。给我们一种全新的方式使用命令行。 **Oh …

阅读更多...

Buuctf reverse [FlareOn4]IgniteMe 题解

Buuctf reverse [FlareOn4]IgniteMe 题解

一. 查壳无壳32位程序二. ida打开 GetStdHandle函数根据微软官方文档可以得知是获取标准输入/输出/错误的句柄参数里的 0xFFFFFFF6转换一下是4294967286, 对应(DWORD) -10 所以这里的WriteFile函数实际上是实现了printf的功能 sub_4010F0()函数其功能是通过ReadFile函数读取…

阅读更多...

Java EE|TCP/IP协议栈之数据链路层协议详解

Java EE|TCP/IP协议栈之数据链路层协议详解

文章目录一、数据链路层协议感性认识数据链路层简介以太网简介特点二、以太网数据帧格式详解帧头不同类型对应的载荷三、关于MTU什么是MTUMTU有什么作用ip分片（了解）参考一、数据链路层协议感性认识数据链路层简介从上图可以看出 ， 在TCP/…

阅读更多...

「JVM 高效并发」Java 线程

「JVM 高效并发」Java 线程

进程是资源分配（内存地址、文件 I/O 等）的基本单位，线程是执行调度（处理器资源调度）的基本单位； Loom 项目若成功为 Java 引入纤程（Fiber），则线程的执行调度单位可能变为…

阅读更多...

推荐文章

最新文章